首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
OPPO Watch
bot2020
V2EX  ›  程序员

机械工业出版社 ,工科类 电子书免费开放

  •  9
     
  •   bot2020 · 117 天前 · 33697 次点击
    这是一个创建于 117 天前的主题,其中的信息可能已经有所发展或是发生改变。
    178 条回复    2020-02-09 04:31:26 +08:00
    1  2  
    echowxsy
        101
    echowxsy   116 天前
    @sadhen
    写爬虫还要啥“道德”🐶
    -------------------------
    动不动就说是爬虫爬挂了的人,技术一定不咋地。
    明明是开放之后访问的人太多导致打不开,一个一个在这里说爬虫爬挂了,以为每个人写代码都和他一样垃圾。
    echowxsy
        102
    echowxsy   116 天前
    @sadhen 我就是担心别人瞎写代码爬挂了才公开的啊。我限制了下载线程,每次只下载一本,通过公开接口拿到书本信息拼接下载地址。除了第一次调用接口之外,其他都是访问 amazon 的 CDN。
    hduwillsky
        103
    hduwillsky   116 天前   ❤️ 3
    电工社的 PDF 解密已完成,斜眼
    littleghosty
        104
    littleghosty   116 天前
    @echowxsy 貌似只下到 AA01 机械基础就停止下载了。
    echowxsy
        105
    echowxsy   116 天前
    @littleghosty 这是因为取书本信息的接口挂了……
    KPI
        106
    KPI   116 天前
    @hduwillsky 就是那些网页类似 PDF 的也可以下载到 PDF 格式的文件了吗?
    hduwillsky
        107
    hduwillsky   116 天前
    @KPI 对的
    KPI
        108
    KPI   116 天前
    @hduwillsky 能分享一下吗~
    hduwillsky
        109
    hduwillsky   116 天前
    就很简单的 AES 加密,代码就不公开了,感谢电工社
    sadhen
        110
    sadhen   116 天前
    @echowxsy

    robots 协议就是道德约束。如果道德看起来比较封建,我觉得换个词 “素质” 还是要的。
    lisachensyd
        111
    lisachensyd   116 天前
    现在还有没有什么可用的手工下载的方式?
    lovedebug
        112
    lovedebug   116 天前
    IDM 打开每本书都会提醒是否下载 PDF, 可惜有些没有 pdf 需要页面拼接
    echowxsy
        113
    echowxsy   116 天前
    @sadhen 很好,ebooks.cmanuf.com/robots.txt 返回 404 哦
    CPC27149
        114
    CPC27149   116 天前
    其实有漏洞,可以撸全站,大概 11k,3~4T 左右
    lovedebug
        115
    lovedebug   116 天前
    @CPC27149 好奇怎么下载其他电子书
    Septembers
        116
    Septembers   116 天前
    @echowxsy 我提交了一个 PR,大幅简化了你的代码
    https://github.com/Echowxsy/CMPEDUDownload/pull/2/files
    daisyxdx
        117
    daisyxdx   116 天前
    爬虫的先死个妈
    qq12046
        118
    qq12046   116 天前
    http://ebooks.cmanuf.com/detail?id=11022 这种怎么下载的,分段的,看起来不是 PDF 的,研究好久了ヾ(。 ̄□ ̄)ツ゜゜゜
    jiom
        119
    jiom   116 天前
    "success":false,"code":"common_0001","mess":"对不起,系统异常了,请联系管理员!","module":null,"otherResult":null}
    szx300
        120
    szx300   116 天前 via iPhone
    下的资源可以共享下吗?
    mrcn
        121
    mrcn   116 天前
    ```
    success false
    code "common_0001"
    mess "对不起,系统异常了,请联系管理员!"
    module null
    otherResult null
    ```

    都没得看
    接着给👴爬
    fvckDaybyte2
        122
    fvckDaybyte2   116 天前
    {"success":false,"code":"common_0001","mess":"对不起,系统异常了,请联系管理员!","module":null,"otherResult":null}
    shmily000u
        123
    shmily000u   115 天前   ❤️ 1
    爬虫的先死个妈
    LuVx
        124
    LuVx   115 天前
    毕竟只开放一段时间, 不容易看完, 下载还能理解, 爬虫就真的是太缺德了
    Juggernaut
        125
    Juggernaut   115 天前
    有基本想看的书,只能在线看,能否下载下来,特定的几本书
    AllenBigBear
        126
    AllenBigBear   115 天前
    彻底挂了?
    yorath
        127
    yorath   115 天前
    @Juggernaut 抓包找到 pdf 地址 加个 referer 就可以下载了
    centipede
        128
    centipede   115 天前
    看到机械工业出版社,我当有一大堆大黑书可以看了,试着搜了一下连编译原理都没有啊,再过去在各个标签下点点看一眼就没啥囤书下到本地的欲望了。。。
    u823tg
        129
    u823tg   115 天前
    爬的电子书都打不开了
    ytf4425
        131
    ytf4425   115 天前   ❤️ 1
    @Juggernaut
    存两个书签:
    javascript:window.location=ifm.src
    javascript:PDFViewerApplication.download()
    找到是 pdf 格式的书,依次执行
    tuduweb
        132
    tuduweb   115 天前
    网站挂了?
    YaoJaxn
        133
    YaoJaxn   115 天前
    吃个饭回来就挂了。。。。。。
    Juggernaut
        134
    Juggernaut   115 天前
    @ytf4425 感谢大佬,现在链接跳转了
    llz0919
        135
    llz0919   115 天前
    谢谢分享
    ytf4425
        137
    ytf4425   115 天前
    @Juggernaut 点一下第一个会跳转,跳转完点第二个保存
    ytf4425
        138
    ytf4425   115 天前
    @CPC27149 此次未免费的也可以么?比如各种黑书
    raincorn
        140
    raincorn   115 天前
    一共开放了 11951 本书,pdf 格式的 10383 本。不过他家下午就崩了,到现在还没好。。。
    CPC27149
        141
    CPC27149   115 天前   ❤️ 1
    @ytf4425
    @lovedebug
    可以。全站的书都可以。9320 多个 pdf。还有 1000 多 epub,大小 550 多 g。。。。磁盘占用比预计的少太多。
    qsnow6
        142
    qsnow6   115 天前
    @CPC27149 无情啊你们!!

    建议按需下载,一万多本你们又看不完,还浪费别人 CDN 的流量。
    lovedebug
        143
    lovedebug   115 天前
    @CPC27149 有些书没 pdf 有没有简单的下载方法?
    CPC27149
        144
    CPC27149   115 天前   ❤️ 1
    @qsnow6 无需像清华出版社的那个后期处理还要 ocr,这个都不用 ocr,做完信息处理做完检索,扔图书仓库,怎么用不到,目前书库已经有 300 多万本书,检索起来很爽。
    strongwong
        145
    strongwong   115 天前
    @CPC27149 下好了可以分享一下嘛,我们就不给他服务器增加压力了,嘿嘿嘿
    jeymingwu
        146
    jeymingwu   115 天前
    @hduwillsky 好像 key 加密了,想问一下你如何做到的,交流一下 haha
    canwushuang
        147
    canwushuang   115 天前
    求分享 虽然可以 python 一下但是想想还是算了。
    1023lqx
        148
    1023lqx   115 天前 via Android
    @CPC27149 求分享
    yooleongai
        149
    yooleongai   115 天前 via Android
    已经囤了不少想看的书籍,感谢机工出版社
    DouEast
        150
    DouEast   115 天前
    @CPC27149 大佬,求分享呀。~~~
    waynevan
        151
    waynevan   115 天前
    @CPC27149 大佬 求分享
    oIMOo
        152
    oIMOo   115 天前
    @echowxsy #89
    少年,悦读的没做哈?飞吻~~~
    比如上面有人提到的这本
    http://yd.51zhy.cn/ebook/web/newBook/queryNewBookById?id=29727491
    oIMOo
        153
    oIMOo   115 天前
    这几个出版社也有活动:
    电子工业出版社
    上海交通大学出版社
    中信出版集团
    Source: https://github.com/PythonShell/study-resource
    sdzbzyc
        154
    sdzbzyc   115 天前
    又崩溃了吗?
    Coioidea
        155
    Coioidea   114 天前
    下好能否分享一下呢,站又崩了
    ytf4425
        156
    ytf4425   114 天前
    @qsnow6 估计是想做一个个人图书馆之类的东西,有需要用的能直接查。不过对 550 多 g 对亚马逊的 cdn 来说压力应该还不算大(就是流量费 emmm。。
    oven
        157
    oven   114 天前
    比较经典的书好像都没有
    zealinux
        158
    zealinux   114 天前
    @oIMOo 中信出版社电子书在哪里看?
    Juggernaut
        159
    Juggernaut   114 天前
    @CPC27149 求操作系统栏目书籍
    Juggernaut
        160
    Juggernaut   114 天前
    @CPC27149 大佬,拖一份到百度网盘,操作系统那块的书籍就好,感谢
    Juggernaut
        161
    Juggernaut   114 天前
    @ytf4425 跳转完的书籍也可保存成 pdf 吗?
    szx300
        162
    szx300   114 天前 via iPhone
    @CPC27149 #144 大佬求分享
    mrleft
        163
    mrleft   114 天前
    @CPC27149 300 万本数字图书馆的大藏书家 请问一共多大,用什么做管理的,更重要的 跪求交友🧎‍♂️
    ytf4425
        164
    ytf4425   114 天前
    @Juggernaut 点一下第一个书签会跳转到一个可以保存的 pdf 查看器,跳转完点第二个书签就是保存了
    liwenming007
        165
    liwenming007   114 天前
    @Septembers
    github 脚本执行完后感觉给出的 pdf 地址不对啊,无法下载,提示权限没有
    visualbasic
        166
    visualbasic   113 天前 via iPad
    @liwenming007 要加上 referrer 才能下载
    Teamo
        167
    Teamo   113 天前
    @visualbasic 网站打不开是怎么回事了?我同学也说打不开,本来还想看点平常不看又有点花钱的书...
    visualbasic
        168
    visualbasic   113 天前 via iPad
    @Teamo 网站崩了,估计是那些搞爬虫的人干的,当然我不会这么做
    fields
        169
    fields   113 天前
    找不到 ip 了?
    hanxiV2EX
        170
    hanxiV2EX   113 天前   ❤️ 1
    @jeymingwu
    @KPI

    电子工业出版社的电子下载方法我整理出来的了,没整成工具,工具可以自己写。

    https://blog.hanxi.info/?p=44
    Raincal
        171
    Raincal   113 天前   ❤️ 1
    @hanxiV2EX 直接下载 Data.Url ,然后解密就行了
    yorath
        172
    yorath   113 天前
    @Raincal 是不是限速了 速度只有 20-30K
    Raincal
        173
    Raincal   113 天前 via Android
    @yorath 可能吧,速度确实慢了不少
    hduwilsky
        174
    hduwilsky   112 天前
    @hanxiV2EX 貌似加密算法又改了 现在 js 也被加密了 基本上凉凉了
    hanxiV2EX
        175
    hanxiV2EX   112 天前
    @hduwilsky 确实凉凉了,如何解密就更难了
    hanxiV2EX
        176
    hanxiV2EX   112 天前
    可恶,在线看都看不了了。
    qxzzxw
        177
    qxzzxw   112 天前
    @hduwilsky ??宁是 hduwillsky 的小号吗?用宁最开始写的那个思路是可以的,不用 bookfile.Url ,只不过各 url 需要根据个数生成
    tianlanzhione
        178
    tianlanzhione   110 天前 via Android
    大佬您好,请问可以分享一部分嘛,貌似现在下不了了
    1  2  
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1163 人在线   最高记录 5168   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 22:02 · PVG 06:02 · LAX 15:02 · JFK 18:02
    ♥ Do have faith in what you're doing.