V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
kingdom8
V2EX  ›  程序员

求本地大量 PDF 文档管理工具推荐?

  •  
  •   kingdom8 · 72 天前 · 2338 次点击
    这是一个创建于 72 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我在 NAS 上放了很多计算机类的文档( PDF 居多),早期使用 Endnote 管理过,但是远程同步是个问题,后来换成 wps 会员存日常使用频率最多的。但我还有大量的专业类 PDF 存在 NAS ,也一直没有整理,希望有同样遭遇的大佬们给出出主意,需求:
    1. 能否整理大批量文档
    2. 针对非图的文档可以直接全局索引(这是我为啥还没弃用 wps 的原因)
    3. 方便导出(万一以后弃坑也方便转移)
    4. 如果能添加或者编辑元数据,类似 endnote 那样更好
    5. 方便导入(总共 70GB+)
    6. 能够分类,方便查找,不单 pdf ,可能也会存在 epub 之类的电子书
    第 1 条附言  ·  71 天前
    我的场景里,PDF 专业类的占大头,索引的目的就是会经常去查找,方便精确匹配,对于图片类 pdf 我已经 ocr 嵌进文件里可以直接搜索内容了
    22 条回复    2024-10-22 10:38:18 +08:00
    pxiphx891
        1
    pxiphx891  
       72 天前
    其实我也一直想这个事,我的 nas 上也有大量电子书。我尝试过百度的 ocr ,非常准。我想,如果用 ocr 一页一页把我 nas 上的电子书都整理成文本,再接入大模型,用来问答或分类,感觉都不错,就像在 iPhone 上搜索日落,能够搜到你拍的一些照片一样,你问大模型一个问题,他能从 nas 中找到几个和你问题相关的电子书的段落
    longredzzz
        2
    longredzzz  
       72 天前
    zotero + webdav
    ClearMoki
        3
    ClearMoki  
       72 天前
    如果需要笔记可以看看 zotero
    functionABC
        4
    functionABC  
       72 天前
    zotero
    sumu
        5
    sumu  
       72 天前 via Android
    以前我也是各种折腾,现在做统一传到微信读书中了(一百多本),然后开个会员,有正版的优先用正版,还没有正版的才用下载的版本。
    自带讲扫描版转电子版、听书、ai 问书都很好用
    regent
        6
    regent  
       72 天前
    有能跑在 docker 上的 calibre web ,楼主可以试试看
    iambic
        7
    iambic  
       72 天前
    我用的是 talebook ( https://github.com/talebook/talebook ),感觉还不错
    iambic
        8
    iambic  
       72 天前
    电子书 talebook ,文献类 zotero
    since2021
        9
    since2021  
       72 天前
    zotero + webdav
    ploud.fr 有 1T 的免费 webdav 空间,国内可以访问~
    itisqiang
        10
    itisqiang  
       72 天前
    刚想推荐 Zotero ,但是一看 70 个 G 的 PDF ,这可以问问爱思唯尔或者 Wiley ~
    Apol1oBelvedere
        11
    Apol1oBelvedere  
       71 天前
    @iambic #8 都试过,体验如下:
    1 、talebook:非常耗费资源,优化不好,对扫描类 PDF 支持不好。
    2 、zotero:全量数据同步,几十 GB 内容体验也不好。

    希望有一种服务器端做所有数据索引管理,客户端全量搜索,按需下载数据的是最好的。
    Charlot98
        12
    Charlot98  
       71 天前
    google 的 paperpile ,可以免费试用 1 个月,可以多标签管理,做笔记,多设备实时同步。
    缺点是,单个文件较大,不好同步
    kingdom8
        13
    kingdom8  
    OP
       71 天前
    @Apol1oBelvedere 是的,上一次从 endnote 转出来,就是进的 zetero ,但是大文件 webdav 同步确实麻烦,所以 zetero 也弃坑了,目前常用的还是 wps 云存储,一口气开了五年
    kingdom8
        14
    kingdom8  
    OP
       71 天前
    @longredzzz zotero 也用过,大量的同步也是个麻烦事
    kingdom8
        15
    kingdom8  
    OP
       71 天前
    @Apol1oBelvedere 是的,甚至像 @pxiphx891 这样有 AI 付费的我也可以接受
    fuis
        16
    fuis  
       71 天前
    zotero + webdav
    invzhi
        17
    invzhi  
       70 天前
    Devonthink + WebDAV
    zealinux
        18
    zealinux  
       69 天前
    DEVONThink 就是为这些需求而生,但是要你电脑换成 MacOS
    dode
        19
    dode  
       69 天前
    可以开发一个简单的 Web 系统,把 pdf 逐页转为 txt 文本,导入数据库,做一个全文索引搜索功能,结果,链接跳转到指定 pdf 下载&预览
    kingdom8
        20
    kingdom8  
    OP
       54 天前
    @zealinux 感谢,这个我去研究一下
    kingdom8
        21
    kingdom8  
    OP
       54 天前
    @iambic #7 感谢,我去研究下
    AusardiaTx
        22
    AusardiaTx  
       12 天前
    @zealinux devonthink 中文搜索太拉了,还得专门用 foxtrot
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2746 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 12:23 · PVG 20:23 · LAX 04:23 · JFK 07:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.