V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
decaywood
V2EX  ›  分享创造

写了一个雪球网爬虫,方便一些炒股的程序员:)

  •  
  •   decaywood ·
    decaywood · 2015-12-02 13:39:46 +08:00 · 14641 次点击
    这是一个创建于 3278 天前的主题,其中的信息可能已经有所发展或是发生改变。

    https://github.com/decaywood/XueQiuSuperSpider
    项目地址如下
    对于股票知识还稍稍欠缺,希望老鸟带我一起多完善完善项目
    目前有游资追踪、股票大 V 统计等等

    第 1 条附言  ·  2015-12-03 14:14:05 +08:00
    更新了按关键字获取雪球网近期热文 URL 功能
    修改了一些发现的 bug
    更新 README~
    :)
    第 2 条附言  ·  2015-12-07 18:26:26 +08:00
    有需要的功能请附加在下面,方便改良程序
    第 3 条附言  ·  2015-12-08 17:18:24 +08:00
    12-8 TODO :统计一阳穿三线个股 预计 1 月分左右 merge 到新一版本中
    第 4 条附言  ·  2015-12-10 00:15:13 +08:00
    代码补全了注释,添加了搜索一阳穿三线个股例子 ;)
    第 5 条附言  ·  2015-12-10 11:48:24 +08:00
    TODO :反爬虫对策 -> 添加分布式爬取功能 预计 3 月份前完成
    第 6 条附言  ·  2015-12-10 12:12:27 +08:00
    TODO :增加 Collector 缓存功能 预计一月份前完成
    第 7 条附言  ·  2015-12-13 17:01:46 +08:00
    12.13 RMI 版本分布式爬虫即将发布
    第 8 条附言  ·  2015-12-14 13:46:43 +08:00
    RMI 分布式版本 beta 版发布:)
    第 9 条附言  ·  2015-12-25 13:49:52 +08:00
    翻译了一篇 java8 的教程,已加入 readme
    54 条回复    2015-12-25 13:50:06 +08:00
    decaywood
        1
    decaywood  
    OP
       2015-12-02 13:44:36 +08:00
    为什么我刚发的主题马上就到后面去了。。。。
    strahe
        2
    strahe  
       2015-12-02 13:47:43 +08:00
    如果是 python 写的我就一起来写了,无奈不懂 java
    pheyer
        3
    pheyer  
       2015-12-02 13:57:15 +08:00
    同不懂 java , python 就好了
    decaywood
        4
    decaywood  
    OP
       2015-12-02 14:01:30 +08:00
    @strahe
    @pheyer
    正在学习 python ,感觉比 java 友好多了,考虑弄个 python 版的 :)
    Kai
        5
    Kai  
    MOD
       2015-12-02 14:02:01 +08:00
    moved to /go/create
    feilaoda
        6
    feilaoda  
       2015-12-02 14:24:27 +08:00
    加个 License 先?
    gemchen
        7
    gemchen  
       2015-12-02 14:27:05 +08:00
    started
    qwjhb
        8
    qwjhb  
       2015-12-02 15:18:32 +08:00
    先 star 为敬
    MogoulKahn
        9
    MogoulKahn  
       2015-12-02 15:22:57 +08:00 via iPhone
    希望出个 python 版本的
    decaywood
        10
    decaywood  
    OP
       2015-12-02 15:38:05 +08:00
    @feilaoda 加了个 MIT ,这玩意貌似没用啊,毕竟屁民级别的影响力
    decaywood
        11
    decaywood  
    OP
       2015-12-02 15:38:43 +08:00
    @MogoulKahn 考虑有空写个 python 版
    xiaoyu9527
        12
    xiaoyu9527  
       2015-12-02 15:41:45 +08:00
    @decaywood 求教这个模块怎么用?
    decaywood
        13
    decaywood  
    OP
       2015-12-02 15:48:28 +08:00
    @xiaoyu9527 readme,以及 testcase 里面有例子,实际操作可以随时问我,前提是你有 java8 基础
    Comdex
        14
    Comdex  
       2015-12-02 15:57:13 +08:00
    是 java 的太好了,有空一起完善
    unique
        15
    unique  
       2015-12-02 15:58:24 +08:00
    给卤煮点个赞
    decaywood
        16
    decaywood  
    OP
       2015-12-02 16:06:09 +08:00
    @unique 还需各位鼓励:)
    geeklian
        17
    geeklian  
       2015-12-02 16:10:10 +08:00 via iPhone
    顺路推销自己写的一个类似的爬虫
    https://github.com/liantian-cn/StockNewsGAE

    抓取 feed 上的财经新闻,使第三方库 feedparser 分析。
    对每条纪录,使用 jieba 分词进行关键词提取。
    设置自己关心的关键词,并只显示包含关键词的新闻条目。
    每抓取一个新闻,如果满足某个用户的关键词,则用 PushOver 推送到这个用户的手机端。
    运行在 gae 上.....比 vps 稳定点
    lvcha
        18
    lvcha  
       2015-12-02 16:11:45 +08:00
    楼主想爬什么啊。
    我觉得,公众场合“分享”股票的,不是亏货就是骗子。
    高手都是闷声发大财。分享出来的,基本都带着这种那种的目的的。

    本人码农股民一枚
    langzizx39
        19
    langzizx39  
       2015-12-02 16:11:57 +08:00
    是 java 的很赞啊!因为这类工具的一般都不是 java ,现在好了,可以研究研究了。
    lvcha
        20
    lvcha  
       2015-12-02 16:13:02 +08:00
    所以分析他人以盈利,这个出发点就是错误的。
    我也会分析他人,但是都是出于证伪这个目的。
    decaywood
        21
    decaywood  
    OP
       2015-12-02 17:53:58 +08:00
    @lvcha 谢谢提点,技术分享为主,至于爬下来的数据肯定仅供参考啊,靠这个赚钱岂不是发了。。。
    当然,靠数据分析赚钱的算法肯定是有的,证券公司大多都是程序化交易,能不能赚钱取决于写算法的人,我也只是给个方便的工具而已。那些大 V 靠粉丝赚钱是有可能的,只要跟风的足够多,什么都有可能性
    emric
        22
    emric  
       2015-12-02 17:59:05 +08:00
    点个赞。
    decaywood
        23
    decaywood  
    OP
       2015-12-02 20:31:48 +08:00
    @langzizx39 哈哈 欢迎贡献代码
    welsmann
        24
    welsmann  
       2015-12-03 00:43:11 +08:00
    先 F 为敬
    decaywood
        25
    decaywood  
    OP
       2015-12-03 14:13:47 +08:00
    更新了按关键字获取雪球网近期热文 URL 功能
    修改了一些发现的 bug
    更新 README~
    :)
    4everLoveU
        26
    4everLoveU  
       2015-12-04 10:00:21 +08:00
    居然是 JAVA 版,逃:)

    楼主出了 python 版记得提醒一下,一定 start 研究学习
    decaywood
        27
    decaywood  
    OP
       2015-12-04 11:08:03 +08:00
    @4everLoveU 哈哈,由于自己 python 太屎,暂时没找到优雅点的并行数据抓取方法,先调研调研再考虑开发:)
    c4pt0r
        28
    c4pt0r  
       2015-12-04 18:14:56 +08:00
    优雅的并发,可以参考一下 Go
    shotego
        29
    shotego  
       2015-12-05 12:06:53 +08:00
    等待 python 版
    decaywood
        30
    decaywood  
    OP
       2015-12-07 15:10:39 +08:00
    12-7 --- 添加了游资追踪游资名模糊匹配功能
    vlike
        31
    vlike  
       2015-12-07 20:09:39 +08:00
    不太懂 java , mvn test 跑通了,不过。。。然后呢 :)
    我想让整个系统运行起来请问应该怎么做?
    decaywood
        32
    decaywood  
    OP
       2015-12-07 20:40:34 +08:00
    @vlike 这个系统核心思想就是松散以达到足够的灵活性以及拓展性,并没有把行为进行统一或者规范化,你可以看看 README 里面整个框架的原理还有给出的例子,根据自己的需要对框架已经实现的组件进行自由组合,搜集你需要的数据,最好熟悉一下 java8 :)
    decaywood
        33
    decaywood  
    OP
       2015-12-07 20:42:15 +08:00
    @vlike 每个组件都有自己属性,这些都可以在构造时进行定制,经过定制的组件进行组合会产生截然不同的数据
    decaywood
        34
    decaywood  
    OP
       2015-12-07 20:45:38 +08:00
    @vlike 源码现在还没进行必要的注释,预计在 1 月前更新一版注释版本,不介意等的话请一直关注本项目:)
    Comdex
        35
    Comdex  
       2015-12-07 22:15:52 +08:00
    加个情感度分析功能,还有股票关联信息
    shidenggui
        36
    shidenggui  
       2015-12-08 11:12:27 +08:00
    写了个 Python 的,可以通过 Web 进行简单的股票交易
    https://github.com/shidenggui/easytrader
    decaywood
        37
    decaywood  
    OP
       2015-12-08 13:36:31 +08:00
    @Comdex 股票信息现在已经比较完善了,情感度是啥意思?
    vlike
        38
    vlike  
       2015-12-08 15:22:59 +08:00
    @decaywood 感谢!会一直关注
    Comdex
        39
    Comdex  
       2015-12-08 16:44:48 +08:00
    @decaywood 分析股票相关信息是正面还是负面,或者说看涨 or 看跌
    decaywood
        40
    decaywood  
    OP
       2015-12-08 17:16:06 +08:00
    @Comdex 个股的相关讨论内容分析吗?有意思,可以做一做,不过难度有点大啊,除了通过字典库来分析,估计只能进行深度学习了,并且散户的情绪反向指标的可能性比较大,个人觉得没啥价值
    decaywood
        41
    decaywood  
    OP
       2015-12-10 00:14:50 +08:00
    代码补全了注释,添加了搜索一阳穿三线个股例子
    decaywood
        42
    decaywood  
    OP
       2015-12-10 11:18:18 +08:00
    更新了 master 分支
    raysmond
        43
    raysmond  
       2015-12-13 13:48:56 +08:00
    只想问一下, lz 使用这个工具股票收益有提高吗?
    decaywood
        44
    decaywood  
    OP
       2015-12-13 15:33:54 +08:00
    模拟盘 180%收益,实盘深套中。。。,现在只敢说选股方便很多,至于赚钱这个还要长时间验证
    decaywood
        45
    decaywood  
    OP
       2015-12-13 16:39:28 +08:00
    @raysmond 模拟盘 180%收益,实盘深套中。。。,现在只敢说选股方便很多,至于赚钱这个还要长时间验证
    raysmond
        46
    raysmond  
       2015-12-13 16:44:20 +08:00
    @decaywood 我实盘也深套了,今年进来腰斩了。
    decaywood
        47
    decaywood  
    OP
       2015-12-13 16:57:21 +08:00
    @raysmond 我是根据这个程序买的,发掘到信息发展这种股票(当时这只股大 V 关注度上升很快),导致模拟盘收益这两个月涨幅将近 2 倍,当然,我对自己的程序真心不自信,实盘并没有追..... 哎,都是泪
    mew7wo
        48
    mew7wo  
       2015-12-14 10:02:45 +08:00
    我是股民,交易方面还算可以。我觉得光靠程序化的结果来交易是难赚钱的。主要还得人为交易为主,程序化结果做辅助决策。
    decaywood
        49
    decaywood  
    OP
       2015-12-14 13:45:58 +08:00
    @mew7wo 没错,程序选股为辅助手段,交易事在人为
    mew7wo
        50
    mew7wo  
       2015-12-14 14:33:32 +08:00
    雪球的信息用来选股用处不大,楼主可以去搜搜 tushare
    decaywood
        51
    decaywood  
    OP
       2015-12-14 15:17:48 +08:00
    @mew7wo 以前看过,但是大多接口貌似要付费啊?而且是基于 python 的
    superares
        52
    superares  
       2015-12-14 18:12:57 +08:00
    @decaywood 模拟盘要注意是否用到了未来函数,这个会影响模拟的效果的
    decaywood
        53
    decaywood  
    OP
       2015-12-14 22:19:38 +08:00
    @superares 不是很懂未来函数,我的模拟盘主要还是根据主力动向还有舆论进行分析来买卖的,一般是中长线操作
    decaywood
        54
    decaywood  
    OP
       2015-12-25 13:50:06 +08:00
    翻译了一篇 java8 教程
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2606 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 04:43 · PVG 12:43 · LAX 20:43 · JFK 23:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.