V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
Marsss
V2EX  ›  Python

Python 爬虫的活,有感兴趣接活的么。

  •  
  •   Marsss · 2020-05-21 22:57:36 +08:00 · 5233 次点击
    这是一个创建于 1679 天前的主题,其中的信息可能已经有所发展或是发生改变。

    背景:同事的小孩,毕业设计里有一块,是通过程序抓取电力舆情信息,存储到数据库,筛选热点词汇进行展示,支持数据导出.

    他小孩没学过 Python,不知道为什么他们老师要求他做这个。于是他老爸找到我这了,我程序写到一半,问了一句需要界面吗,结果是要,如果不要,无法展示给老师看,我想了一下也是,在命令行下展示,不说他不会,他老师也看不懂,没有效果。总之就是要做个带界面的。emmmm.....,想了一下,还是让论坛里有空余时间的老兄们来做好了。。。

    需求我再稍微描述清楚一点: 1.抓取目标网站,他告诉我的那个网站我看了,是个小站,数据量很小,链接也很规律,就给他全爬了吧。提取字段:标题,URL 、文章内容、文章时间等应该就够了。

    2.将数据存储到数据库,我理解吧,从简,sqlite3 即可

    3.热点词汇筛选,就是再从数据库里取出数据,从标题以及文章内容里提取给定的热点词汇(他就告诉了三个词汇),做点统计展示出来

    4.导出数据到 txt 、doc 、pdf

    没啥难点,要做个界面,界面上四个按钮对应上面四个需求,一个展示控件,要求:不能做太好看了,哈哈。我让他具体画了一下,到时候联系他。

    多少钱以及更多细节,联系他沟通一下吧,如果说你们沟通之后有需求出入,你直接视变化谈价即可。他们都是非计算机专业的,对代码什么的不理解,沟通时稍微有点耐心。

    这是他微信:wxid_r25xosiov3ou22

    第 1 条附言  ·  2020-05-21 23:46:36 +08:00
    原始微信加不了么,那加这个吧,也是他的 13622852300
    29 条回复    2020-06-02 10:10:03 +08:00
    zengxs
        1
    zengxs  
       2020-05-21 23:21:51 +08:00
    虽然原则上不建议毕设作弊,不过这个时间点,不找人做估计毕不了业了

    这小孩就算作弊也要硬把毕设拖到这个时候,拖延症比我还厉害了
    mitu9527
        2
    mitu9527  
       2020-05-21 23:23:39 +08:00
    亮点:不能做的太好看了。可惜我是 PHP 不是 Python 。
    antpi
        3
    antpi  
       2020-05-21 23:28:22 +08:00
    联系一下 VX MTg5Mzc4NTU2MTU=
    Marsss
        4
    Marsss  
    OP
       2020-05-21 23:32:29 +08:00
    @zengxs 是的,时间上有点紧,不过抓紧点,两三天也搞定了。
    @mitu9527 现在学校流行 python,其实没啥,我慢慢也用的少了。
    Vegetable
        5
    Vegetable  
       2020-05-21 23:32:40 +08:00
    答辩不都完事了吗
    Marsss
        6
    Marsss  
    OP
       2020-05-21 23:33:32 +08:00
    @antpi 你联系一下他把,下面有他微信号。
    zengxs
        7
    zengxs  
       2020-05-21 23:34:08 +08:00
    @Vegetable 一般是 6 月答辩,6 月底发毕业证
    antpi
        8
    antpi  
       2020-05-21 23:35:14 +08:00
    @Marsss 原始 wxid 加不了好像
    gou7ma7
        9
    gou7ma7  
       2020-05-21 23:38:50 +08:00 via Android
    做界面的话,这个可能会用到 qt,这个我倒是不会,爬虫倒是会。
    malusama
        10
    malusama  
       2020-05-22 00:13:18 +08:00
    非计算机专业为啥毕设是这个...
    nasmatic
        11
    nasmatic  
       2020-05-22 00:40:15 +08:00   ❤️ 5
    感觉挺简单,qt 画个界面,三个按钮,再加个 webview,一个按钮爬,一个按钮取数据用 echarts 加工放 webview,一个按钮导出,答辩的时候对着界面直接和老师说:给爷爬!答辩不就过了吗
    levelworm
        12
    levelworm  
       2020-05-22 00:55:25 +08:00 via Android
    qt 和简单的爬虫倒是会,他有兴趣学不
    zxc12300123
        13
    zxc12300123  
       2020-05-22 02:03:00 +08:00 via iPhone
    还用 QT 么,生成词云(一张图片)就好 /狗头
    qfdk
        14
    qfdk  
       2020-05-22 05:33:29 +08:00 via iPhone
    只会 nodejs py 不搞 有兴趣找我 一天搞定哈
    wnpllrzodiac
        15
    wnpllrzodiac  
       2020-05-22 07:21:52 +08:00 via Android   ❤️ 2
    面向监狱编程。。。
    Cmdhelp
        16
    Cmdhelp  
       2020-05-22 08:17:54 +08:00
    虽然很简单,但是不想做。。。
    ctro15547
        17
    ctro15547  
       2020-05-22 08:42:57 +08:00
    1.请先确认好该网站的 robots 以免被坑
    2.百度一下 scrapy,有一点点语言基础的,预计一个早上就能搞完脚本
    3.界面想快就用易语言,cmd 调用脚本接口完事
    EKkoGG
        18
    EKkoGG  
       2020-05-22 08:43:27 +08:00
    老师要求 Python 吗,感觉这个要求 .NET 做起来更快
    AndyZhuAZ
        19
    AndyZhuAZ  
       2020-05-22 09:03:18 +08:00
    难度确实不大,我觉得展示不一定需要客户端应用程序展示啊,用 jupyter 不就好了
    whoosy
        20
    whoosy  
       2020-05-22 09:10:13 +08:00
    @nasmatic 谢谢兄弟 有被笑到
    kennnnnnnnnnn
        21
    kennnnnnnnnnn  
       2020-05-22 09:34:59 +08:00
    @nasmatic 笑死
    inktiger
        22
    inktiger  
       2020-05-22 10:34:54 +08:00
    爬虫工程师,可惜我是 java
    leapV3
        23
    leapV3  
       2020-05-22 11:00:55 +08:00
    scrapy+pyqt 很容易实现你的要求,想好看的,也可以做一个管理后台
    superrichman
        24
    superrichman  
       2020-05-22 12:04:39 +08:00 via iPhone
    功能不复杂,但不支持学术造假
    cherbim
        25
    cherbim  
       2020-05-22 14:17:39 +08:00
    这个特台简单了吧。。。。。
    wersonliu9527
        26
    wersonliu9527  
       2020-05-22 16:23:50 +08:00
    @nasmatic 笑笑,有被谢到
    jizhihaoSAMA
        27
    jizhihaoSAMA  
       2020-05-23 20:06:35 +08:00
    tkinter 多好啊,秒做。不需要 qt
    zytomorrow
        28
    zytomorrow  
       2020-05-26 14:47:19 +08:00
    爬数据倒是还好,刚帮人怕了一大堆微博相关疫情的数据。展示就几个词云,如果非要界面,用 flask 做后端,准备几个接口比较快
    Macv1994
        29
    Macv1994  
       2020-06-02 10:10:03 +08:00 via Android
    还需要做吗?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2819 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 15:01 · PVG 23:01 · LAX 07:01 · JFK 10:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.