任意添加网站一般是论坛,爬虫每天根据关键词爬取帖子(整个页面应该也行)。
问题:1 不同网站如何爬?目前想的是手动添加内容和分页的 xpath (实际用起来貌似也会有问题)。
2.帖子的日期如何获取
3.如何不重复爬取。
这种需求的难度:低 中 高 ?
1
Bryan0Z 2018-12-14 16:27:47 +08:00 via Android
一个爬虫爬遍任意网站?有点厉害
|
2
wly19960911 2018-12-14 16:32:17 +08:00
是超高
|
3
jinksw 2018-12-14 16:49:40 +08:00 1
添加网站的时候 让他给你 然后 你挨个添加规则 分页规则 内容规则 日期规则 唯一性规则
|
5
a62527776a 2018-12-14 17:09:01 +08:00
那以后每天的工作就是研究各个网站的规则了 →。→
|
6
maplelin 2018-12-14 17:40:04 +08:00
这是让你去造高达吧
|
7
Kinnice 2018-12-14 17:49:24 +08:00 via Android
爬虫框架 5k,规则 1k 一条 可持续收入 /滑稽
|
8
limuyan44 2018-12-14 17:50:45 +08:00 via Android
ai 啊,添加一条数据后给你发短信,你把代码写好在放上去,最重要的是要按网址收费。。
|
9
zarte OP @a62527776a 不愁没工时了(`・ω・´)
|
11
adrianyoung 2018-12-15 10:23:37 +08:00 via Android
url 去重做缓存检查
|