问下， Python 爬取指定网站，怎么样才算是违法的？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 672 天前的主题，其中的信息可能已经有所发展或是发生改变。

自学 python ，爬取了一下这个网站 https://www.boohee.com/food ，然后几分钟过去了，看还没结束，就点暂停了，这算不算违法了？有点懵频率：在获取食物详情的时候，一秒一下请求

7 条回复

LeegoYih

2024-02-23 16:24:12 +08:00

Eiden

2024-02-23 16:26:49 +08:00

这撑死几千条吧, 别人未必能发现, 但是你拿去盈利就不好说了

mumuuu

2024-02-23 16:27:12 +08:00

https://www.boohee.com/robots.txt
先看下这个文件
然后不要大流量导致他网站受到影响
不要使用他有版权的内容盈利
最主要的，他不报警就不犯法

14v45mJPBYJW8dT7

2024-02-23 16:33:45 +08:00

灵活违法

consensus

2024-02-23 16:37:04 +08:00

@LeegoYih @mumuuu
看了下我请求的是 /shiwu/*，路径下的，好像并不在 Disallow 的范围内
谢谢 🙏

@Eiden
不会盈利的，只是弄着玩的

isSamle

2024-02-23 16:37:53 +08:00

1.搞个 IP 代理池 2.降低采集频率，那你不说谁知道，有些事情是可以做不可以说的

consensus

2024-02-23 16:51:10 +08:00

@isSamle 感谢，了解了 /doge

问下， Python 爬取指定网站，怎么样才算是违法的 ？