首页   注册   登录

nyfok

V2EX 第 422151 号会员,加入于 2019-06-16 10:55:36 +08:00
今日活跃度排名 9283
请问开设论坛和博客,需要哪些审批和资质要求?
问与答  •  nyfok  •  25 天前  •  最后回复来自 nyfok
1
某同学说我做的搜索太业余,邀请大伙来投票
  •  2   
    程序员  •  nyfok  •  24 天前  •  最后回复来自 nyfok
    105
    各位朋友,求完整的禁查词/违禁词清单
    问与答  •  nyfok  •  19 天前  •  最后回复来自 nyfok
    10
    业余开发了一个技术搜索引擎,请小伙伴们提提意见。
  •  4   
    分享创造  •  nyfok  •  17 小时 41 分钟前  •  最后回复来自 ziyue002
    93
    nyfok 最近回复了
    感谢 brucewuio, wmhx 支持!晚上下班回家看到你们的表扬,那个高兴啊,哈哈,谢谢!
    ps,最近用户涨了不少,全是大伙的功劳,谢谢大家~
    @Hopetree 感谢朋友支持!博客园现在收录的已经差不多了,这几天在切割服务器,切割完成后就可以看到了。另外,接下来准备也收录些简书、知乎,貌似那些站点也有一些。
    祝好~!
    @mqqjqr5566 感谢支持,祝好!
    @linxiaojialin 感谢支持,祝好!
    @qw30716 多谢朋友提醒,可否告知具体搜索关键字?
    你好,实现原理如下:
    1、自己使用微软的 webbrowser 封装一个浏览器,并自定义鼠标右键事件。
    2、当点击鼠标右键的时候,可以将右键事件对应的网页节点元素取出,包括节点的完整 html,以及节点的前一节点、后一节点、及父节点信息。
    3、基于第 2 步骤获得的节点信息,再 htmlagility 的 document 寻找到对应节点,并获得 xpath。为什么要这么做,因为以后抓取的时候都是用 htmlagility 来解析 html document 和 xpath,这样性能才有保障。如果都 webbrowser 来加载页面,再解析,性能会很低。另外,webbrowser 的 html 都是经过处理过的 html,所以 xpath 和源网页可能会有差异,所以要将 webbrowser 的 node 信息转换为 htmlagility 的 node 信息。
    4、日后抓取中,使用第 3 步的 xpath 信息即可取出对应的节点。
    备注:
    1、xpath 解析和寻找节点,不一定适用 htmlagility,因为这个对 document 的 xml 结构化要求比较高,可以自己尝试动手写一个。
    2、建议对 xpath 进行一些扩展,包含上如 node id,node classname 等一些信息,这样会提高节点定位准确性。诸如:/html/body/div[id="MainContent" class="Main"]/span[id="PostTime"]
    3、建议对 xpath 进行一些扩展,包含节点序号。譬如某个 span 节点,是父节点下第 2 个节点,可以书写如下:/html/body/div[id="MainContent" class="Main"]/span[2].
    4、xpath 如果只用 full path,即从根节点 html 到节点的完整路径,有时候不能够很好的对抗对方网页的改版。所以可以将代码优化,支持相对路径的 xpath,而不是完整 xpath。譬如://div[id="MainContent" class="Main"]/span[id="PostTime"]

    这个工具现在还不能开源,因为该工具也被应用到了别的商业项目中,要拆分出来还得需要花比较多的时间,暂时还没时间来弄这件事情。以上的信息,你可以借鉴来开发。
    @jackFenng 老兄,幸会幸会!(握手)老兄是只搞.net ,还是说也搞其他语言,主力是什么编程啊?现在.net 工作好找吗?行情怎样?
    @ccc825 收到,我理解你的意思了。的确,服务器端搜索 Stack Overflow,花费的时间是毫秒级的。如果速度慢,一个可能是服务器到用户电脑之间的速度慢,还有一个可能是页面图片的加载逻辑和网页 html 一起同时加载了。我后期会把图片加载顺序学习 google,在页面 html 加载后再加载图片,懒加载。多谢你的建议,非常好,感谢!
    @ccc825 多谢朋友建议和支持!可否告知你搜索的关键字,我查查看搜索慢的原因,看是服务器端搜索速度问题,还是页面加载速度问题。目前页面上加载的图片除了 logo 图是 goobe 自己本站的,其他的网页 logo 图都是指向源网站的,如果源网站慢,可能图片加载就有点慢。另外,UI 不是我的擅长,以后期待能找一个厉害的 UI 朋友帮忙 refine 一版网站。
    一个月小伍佰,放那儿不需要 bei_an,就是个人练手项目,不想太折腾。
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1015 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 16ms · UTC 19:10 · PVG 03:10 · LAX 12:10 · JFK 15:10
    ♥ Do have faith in what you're doing.