V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
LuliYanng
V2EX  ›  分享创造

周末花一天时间跟 Claude 复刻了沉浸式翻译的 pdf 翻译功能

  •  
  •   LuliYanng · 3 天前 · 1124 次点击
    上周我有个研究生同学告诉我翻译外文的 pdf ,最好还是能够翻译后保持跟原文版面一模一样功能的。再我去帮他找软件的过程中,发现沉浸式翻译做的 pdf 翻译功能还蛮不错,平时虽然用它来翻译网站比较多,但是翻译 pdf 还真没怎么用过。

    定眼一看,还是 beta 版,自信心上来了,感觉应该能捣鼓一个简单版的。于是周六花了一天的时间,跟 claude 尝试复刻这个功能,看看按照自己的方案能够做到什么样的程度。目前第一版就已经能够实现基本的翻译和排版效果,复杂的公式和图表还原的很不错。不过就像绝大多数翻译功能会遇到的问题一样,原文译文的长度难以控制,因此文本渲染上还有不少瑕疵,而且也只测试了 2 、3 篇论文,还不清楚真实能力是不是足够稳定😅。
    一开始没发现,干到一半才发现人家已经开源了,还没仔细看人家的方案。要是跟人家实现方式一样,那就纯纯造轮子小丑了🤡。

    但不得不说,vide coding 真上头,就是一天就差不多把我 cursor 一个月的额度干一半了,剩下得省着用了😥。

    i.imgur.com/zYRMnT9.png
    i.imgur.com/zHZSe1q.png
    i.imgur.com/cif5wnO.png
    18 条回复    2026-01-26 19:10:03 +08:00
    LuliYanng
        1
    LuliYanng  
    OP
       3 天前
    楼主第一次发有图片的图,怎么跟着教程来,还是显示不出来图片啊,评论区换个方式再发一次看看😠
    https://imgur.com/cif5wnO
    https://imgur.com/zHZSe1q
    https://imgur.com/zYRMnT9
    LuliYanng
        2
    LuliYanng  
    OP
       3 天前
    好吧 看来还是不行...
    Weixiao0725
        3
    Weixiao0725  
       3 天前
    Weixiao0725
        4
    Weixiao0725  
       3 天前
    ![test]( )
    Weixiao0725
        5
    Weixiao0725  
       3 天前
    @LuliYanng 你要用 ![]( https://xxx) 这种格式,url 写完整了。
    Weixiao0725
        6
    Weixiao0725  
       3 天前
    好像直接写 完整的 url 就可以,不要写 markdown , 因为回复框这里使用的 V2EX native 编辑器,你发帖的时候可以选 markdown
    SuperDaniel313
        7
    SuperDaniel313  
       3 天前 via Android
    其实豆包的效果还可以的,直接发给豆包就行,能打开双语对照模式,还能截图提问。但只能因为 Web 端,移动端不行。

    腾讯的 ima 也有类似的功能,但排版没豆包好,好像和微信读书一个模块出来的,排版效果很差。

    看原版书还是推荐豆包
    LuliYanng
        8
    LuliYanng  
    OP
       2 天前
    @Weixiao0725 回复框是直接贴完整 url 的和发帖也是用 native 编辑器,没选 markdown 。
    我再试试
    ![对比图 1]( )
    ![对比图 1]( https://imgur.com/cif5wnO)
    LuliYanng
        9
    LuliYanng  
    OP
       2 天前
    @SuperDaniel313 可以 我去试试
    LuliYanng
        10
    LuliYanng  
    OP
       2 天前
    @SuperDaniel313 ![doubao]( )
    豆包好像只能实现这样。他能生成翻译后的论文吗?豆包的那种方式实现起来也简单,但是交互还是挺不错的。适合深入去探讨论文内容,而不仅仅只是简单的点击翻译了。要是两个功能结合起来不就更好了,既可以一眼看到翻译后的论文,还能直接点击跟进询问内容。😋
    whats
        11
    whats  
       2 天前
    沉浸式翻译那个是假开源,实际并未开源
    SuperDaniel313
        12
    SuperDaniel313  
       2 天前 via Android
    @LuliYanng PDF 正上方有一个翻译全文,点击之后就是双排版的界面。左侧是原文,然后右侧会有一个译文。点击高亮块,它就能回显原文的对应文本。

    我只用过它的翻译,跟豆包讨论问题,感觉跟智障说话差不多。

    我更喜欢 NotebookLM ,不过 NotebookLM 更适合学习,双语对照好像没有。NotebookLM 的学习方式稍微割裂一点,也就是你自己有原版的 PDF , 然后看 PDF 之后不懂的就直接提问,没有划词提问。不过 NotebookLM 能干好几本书进去,可以进行主题学习。关键是背后的模型差异。Gemini 虽然被网友称为美国豆包,但是比中国豆包还是上好几个档次。
    LuliYanng
        13
    LuliYanng  
    OP
       2 天前
    @SuperDaniel313 okok ,看到这个功能了,虽然这个双语没有特别美观,不过基本够用了。notebooklm 我也有用,确实,模型的能力差距还是很大的。不过 gemini 还不至于跟豆包比,都不是一个水平的😂。像这种点击对照,然后自己设置 llm 的功能也完全可以做,不过暂时还没这个考虑,只是当个小项目玩玩。
    LuliYanng
        14
    LuliYanng  
    OP
       2 天前
    @whats 怎么说,还有假开源的吗?
    SuperDaniel313
        15
    SuperDaniel313  
       2 天前 via Android
    @LuliYanng 如果说搞着玩嘛,是可以玩玩。

    实际上只需要把豆包的翻译用上,然后把原版书扔到 NotebookLM 里面。然后就能畅读原版书了呀。豆包拿来读,NotebookLM 拿来问。配合语音输入法,根本不需要划词啊,只需要直接说第几页,什么问题,然后 NotebookLM 就能直接定位到那里,然后跟你讲解。关键最牛的一点是,那些图表也能解读出来,不是单纯的文字,包括公式啊,都可以。这点 Gemini 是真的牛逼。

    特别是那种翻译烂的,我觉得豆包的能力,即便再烂,也还是能解决基础的语言问题。至少在信息传递的这个层面上,不会像一些垃圾译本一样误人子弟。
    shawnli3299
        16
    shawnli3299  
       2 天前
    ocr 用的什么引擎或模型?
    LuliYanng
        17
    LuliYanng  
    OP
       2 天前
    @shawnli3299 ocr 就是用的百度的 paddle vl
    LuliYanng
        18
    LuliYanng  
    OP
       2 天前
    @SuperDaniel313 去豆包读在到 notebooklm 问当然可以,就是需要跨平台,在用户交互体验上始终还是差一点点
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2767 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 15:22 · PVG 23:22 · LAX 07:22 · JFK 10:22
    ♥ Do have faith in what you're doing.