isSamle

isSamle

V2EX 第 527523 号会员,加入于 2021-01-08 20:44:49 +08:00
今日活跃度排名 8815
根据 isSamle 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
isSamle 最近回复了
@tongqe 你买个 1H1G 的服务器,包年可能才 100 以内,自带了公网 IP 啊
1.搞个 IP 代理池 2.降低采集频率,那你不说谁知道,有些事情是可以做不可以说的
自己家里放一个台式电脑,装 ubuntu 系统,随便找个带宽好点的轻量套餐穿透出来
4 天前
回复了 Jinnrry 创建的主题 程序员 Google Gemma 开源没人讨论下吗?
我觉得现在的大模型都是畸形的,应该训练响应模式而不应该训练响应内容。
听起来像面向监狱编程,爬虫+脚本+小软件=方便使用的数据采集工具?
1.python 的爬虫无非就是 requests 、urllib 之类的库,选一到两个库了解下即可
2.了解下 http 之类的网络协议
3.找一些简单的网站,如天气、黄页之类的实操一下
4.对网络请求有一定了解后,优化下技能:正则表达式学习下(或者找些好用的工具能够自动解析页面数据生成正则的)、多线程多进程的库了解下、常见反爬机制手段了解下( IP 池、selenium )、最重要的是,相关刑法了解下
5.以上都 OK 的话,就可以尝试把这种采集工作打包成脚本工具了,Tkinter 之类的库了解下(这个可以问 GPT 让他给你出了你再修改也可以)
6.进阶版本的话,涉及到采集数据的存储和处理,那就建议搞个后台系统,这个时候 Django 再了解下,Excel 导出相关的库了解下
7.数据想要展示出对应的效果,画图库 pyecharts 之类的了解下
8.要更方便一点,类似于钉钉机器人了解下,官方文档一般都有
8848
60 天前
回复了 superliwei 创建的主题 分享创造 国产软件征集中文名字
观才板
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   4837 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms · UTC 09:59 · PVG 17:59 · LAX 01:59 · JFK 04:59
Developed with CodeLauncher
♥ Do have faith in what you're doing.