V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  youngce  ›  全部回复第 1 页 / 共 23 页
回复总数  450
1  2  3  4  5  6  7  8  9  10 ... 23  
开发环境用 conda ,确定要用的包加到 requestments.txt 。部署的时候一个 dockerfile ,一行:pip install -r requestments.txt -i XXX.COM
不针对茅台。白酒是真的难喝呀
爬虫本质都一样,都是发出 http 请求得到想要的数据。
但面向的需求场景不一样,比如有这样的一个需求:
请采集维基百科特定分类下的所有主题页面,大概 700W 个页面,要求一周内交付数据?
- 首先:浏览器插件已经不在考虑范围内了,使用一个浏览器翻完维基百科,你等得了用户可能等不了
- 其次:纯 selenium 处理这类弱反爬的网站也没有什么优势了,且不说无头浏览器的速度慢,如果开 1000 个无头浏览器,一般的也需要海量的内存了。
- 剩下的就是爬虫代码自行编写了,用 scrapy ,或者自己造轮子最后实现类似 scrapy 的框架的功能,对接 ip 池来进行并发爬取。(中间也可能用到 selenium 搭配处理一些反爬策略)

用哪个?看需求吧:
- 海量数据+长期需求=自己写爬虫
- 少量数据+临时需求= 数据采集器搞一下交差
Linux 装个桌面,然后再装个浏览器,打开浏览器,然后 python 截取系统屏幕🤣类似 rpa 吧
12 天前
回复了 eatgrass 创建的主题 程序员 JetBrain 为啥不出家庭订阅服务
JetBrain 可能没有想到居然还有程序员世家的用户🤣
16 天前
回复了 08110920 创建的主题 问与答 cocopilot 的作者咋没了 库也不见了
之前看了一眼这个项目,就是写个脚本把一个 github copilot 的 token ,共享给所有人用。。。这项目还放在 github🤣等于直接贴脸开大,果然 github 马上就给 ban 了
跟上暴叔的节奏吧。资源和核心装备(英语),但是需要自己努力和家里支持,200 多分,如果花个一两年只卷英语,能够出国的还行
33 天前
回复了 qtxxm 创建的主题 程序员 求解决方案,大量埋点数据中的事件查询
硬算就是慢吧,好歹用一下 GIS 特性
47 天前
回复了 nunterr 创建的主题 杭州 说一次买房被中介坑钱经历
杭州的事情,建议上 1818 黄金眼,还是很有效的
51 天前
回复了 IurNusRay 创建的主题 Python 有人在用 Pycharm + WSL2 吗
试用过一段时间 Pycharm + WSL2 ,主要是不够丝滑,处处都不够丝滑。后面我还是选择直接装个 ubuntu 双系统
加班领域,被领导 pua 领域,背低绩效领域
59 天前
回复了 guoguobaba 创建的主题 Linux minio 一个坑爹的设计
开源对象存储使用在云服务的对象存储作为底层存储,上一次见到这么离谱的事情还是:VMware 跑在 docker 里面
62 天前
回复了 Pantheoon 创建的主题 程序员 各位 v2er 们,有交换 blog 友链的吗
😎 https://yance.wiki
久坐——现在公司标配是升降工作台,坐久了自己升起来站着办公呗。以前的单位办公桌固定的,大概 30%的同事会自己带一个升降台,离职了也带走。

加班——主要还是看个人,大部分人在公司加班也就是水时间,只有项目排期出问题了才加班多,那种确实累。
@liyunyang cpu 换脸 30s 短视频还行,就是慢点
如果是研究拟南芥或者水稻,这种模式植物,还是值得做一做自动化的,加油
1  2  3  4  5  6  7  8  9  10 ... 23  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3738 人在线   最高记录 6067   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 69ms · UTC 04:22 · PVG 12:22 · LAX 21:22 · JFK 00:22
Developed with CodeLauncher
♥ Do have faith in what you're doing.