|  |      1loading      2016-04-20 04:55:11 +08:00 via Android 楼主,听说过版权吗? | 
|  |      2markocen      2016-04-20 05:24:35 +08:00 这是为什么呢 | 
|  |      3hansnow      2016-04-20 07:39:37 +08:00 因为国内很多做数据科学方面的人(尤其是学生)很喜欢用吧,大多数人学完 Python 的基本语法之后干的第一件事儿就是写个爬虫 | 
|  |      4murmur      2016-04-20 07:46:33 +08:00  1 nutch 是啥东西呢? 于是说版权 国内研究 到不说国内看不起 java 的多吧? | 
|      5aksoft      2016-04-20 08:19:43 +08:00 只能说明大部分人在追风,看书,没有创新能力 | 
|  |      6murmur      2016-04-20 08:21:41 +08:00 scrapy 这个怎么看也不像国人做的项目。。 | 
|  |      7mkeith      2016-04-20 08:28:46 +08:00 这也能扯到国内国外啊... | 
|      8hechaqu      2016-04-20 09:19:10 +08:00 那这说明什么呢? | 
|  |      9Mark24      2016-04-20 09:26:11 +08:00 大部分的入门教程都是以爬虫吸引眼球的 | 
|  |      10dibage      2016-04-20 09:30:49 +08:00 怎么说呢,国内用 py 的大部分分为两种:写正常脚本的,如机器学习、网站建设;写黑客脚本的,如扫描、爬虫。。当然,后者比较容易入门 | 
|  |      11hxndg      2016-04-20 11:15:36 +08:00 我感觉是主要是因为 python 写的很快。。。。 虽然我也在学 c++,但是直接上手用 c++写爬虫还是挺难的。。。。毕竟我夹生。。。 | 
|  |      12Wangxf      2016-04-20 11:22:57 +08:00 爬虫很容易获得成就感,就跟第一次接触到前端的人一样,而且在外人看来也很装逼,“爬虫”一词让外行不明觉厉 | 
|  |      14SlipStupig OP @murmur 我说的是基本,代表很多,而不是全部,你非要找出例外出来,我只能告诉你里面还有事基于其中还有很大一部分是基于 scrapy 开发的,你可以继续找例外出来 | 
|  |      15menc      2016-04-20 12:38:45 +08:00 @SlipStupig 你这个有偏颇啊 最大的爬虫项目 scrapy 是外国人写的 外国人还不满足,成立了一个爬虫项目的联盟叫 scraping hub ,你可以看看,很多 python 下名气很大的爬虫框架加入。 外国人还专门写书, Oreilly 的新书 web scraping with python 可以看看,各种爬虫的奇淫巧计都有,甚至还包括了用 nlp 领域的知识来做更厉害的爬虫。 | 
|      16allan888      2016-04-20 12:50:09 +08:00 @SlipStupig 你看到了表面而已。 事实是数据大家都需要,不存在国内就更狂热。 只是国外的大网站 API 更开放,又或者有些网站提供数据直接下载,没必要自己爬而已。 在深层次就是国外开放了也没人能超过你,国内公司危机意识强点。 非要说国别的区别的话,我感觉国内那种看见点表面就扯国别的人要比国外多倒是真的。 @hansnow 你对比过?你可以去 kaggle 看看国外是不是也用 Python 。 | 
|  |      17murmur      2016-04-20 13:58:12 +08:00 @SlipStupig 万物基于米 ui 开发 所以是中国人搞的多 | 
|  |      18yangzj1992      2016-04-20 14:03:11 +08:00 我也认为国外公司 API 确实更开放是一个原因 | 
|  |      19zonghua      2016-04-20 14:36:29 +08:00 Python 的编码这么痛心,真不知道你们是怎么处理的。 | 
|  |      20sensui7      2016-04-20 15:12:18 +08:00 其实我早就发现国内网上很多 php, python 爬虫的文章, 而英文资料就没有这么多.  举个例子, 很多新手, 想做点东西, 往往会爬豆瓣, 虾米这类的站点玩玩. 你说他有需求吗? 有啥需求, 就是玩玩. 玩什么不行, 但是可能爬取别人数据这样有意思. | 
|  |      21fifuygg      2016-04-20 16:04:35 +08:00 | 
|  |      22wy315700      2016-04-20 16:42:22 +08:00 国外版权管的紧, 爬数据理论上是侵犯版权的事情。 | 
|  |      23yumijie      2016-04-20 17:03:43 +08:00 国外(西方发达国家)扒别人的数据要负法律责任的概率远远大于国内吧,而且惩罚很重.国内?国内大企业带头盗窃数据!要不那么多手机短信垃圾什么的怎么来的? | 
|  |      24penjianfeng      2016-04-20 19:22:41 +08:00 我想起了开源中国的红薯之前收到过一个老外的邮件:说他想抓取一下开源中国的数据,然后还问他数据结构还是什么来着-_-|| | 
|  |      25SlipStupig OP @yumijie 很多都是你自己留下的 | 
|  |      26kirisetsz      2016-04-21 00:38:58 +08:00 | 
|  |      28Slienc7      2016-04-21 01:37:32 +08:00 via Android @kirisetsz  有可能算,比如 360 被告过不遵守 robots.txt ,当然这个问题不在爬取阶段。 针对某一站点爬取频率过高完全可以看作攻击,这种情况可以起诉。 | 
|  |      29dapang1221      2016-04-21 02:20:49 +08:00 via Android  1 学会 Python 后第一件事准是写爬虫,写爬虫爬的第一个网站准是豆瓣……这都是套路(笑) | 
|  |      30kirisetsz      2016-04-21 09:27:56 +08:00 via Android | 
|  |      32Slienc7      2016-04-21 10:38:30 +08:00 via Android @kirisetsz 我很少见到有私人爬虫遵守 Robots.txt 的。某些不可直接被索引的页面,网站所有人可能默认不会被爬取,因为正常搜索引擎爬虫不会这么做,但是私人爬虫爬取往往会针对某一网站进行不友善的抓取,例如注册大量账号,使用大量代理 IP ,还有部分可能会先在某网站为账号购买收费服务,然后再抓取某些不应被抓取的部分,这可能就会侵犯权利人权利了。 爬虫的泛滥客观上简化了许多所谓个人站长盗版其他网站的过程,这个应该是主要的潜在版权问题。 | 
|  |      33jy02201949      2016-04-21 11:00:51 +08:00 就跟很多学完 php 用来撸博客一样 1 、不仅有现成的轮子,也有从零教你 XXX 的教程,容易上手 2 、撸的过程中能学到很多其他的东西,博客要怎么部署到 vps 上,爬虫怎么构造请求怎么识别验证码等等 3 、有实用性,弄完可以自己用,写博客、爬小说漫画 | 
|  |      34jy02201949      2016-04-21 11:02:07 +08:00 。。。本来想回复某一层的,结果忘记 @了,导致回复文不对题 |