V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sinecw
V2EX  ›  外包

做一个 pdf 对照翻译的功能

  •  
  •   sinecw · 2023-12-26 10:20:51 +08:00 · 1034 次点击
    这是一个创建于 370 天前的主题,其中的信息可能已经有所发展或是发生改变。

    类似沉浸式翻译,pdfjs 解析 pdf 文件,调用翻译接口生成对照翻译的排版。价格详单独细谈吧。

    9 条回复    2024-01-03 20:21:52 +08:00
    csulyb
        1
    csulyb  
       2023-12-26 10:33:10 +08:00
    先把 pdf 和翻译整明白了 再来发需求吧

    先不说翻译接口 api 如何处理这种大段落的翻译,pdfjs 加载一个 100M 的 pdf 文件会不会卡死。

    pdf 只是版式协议,并不知道语义,自己要处理文字合并和分割,还有翻译前后排版长短不一致,字体问题等都够喝一壶了
    其他 pdf 协议内各种版本兼容,随时给你来个失败
    zhwq
        2
    zhwq  
       2023-12-26 10:53:18 +08:00
    @csulyb 最后来个报价 300 ,最多 500
    sinecw
        3
    sinecw  
    OP
       2023-12-26 11:09:27 +08:00
    @csulyb 我知道难度挺大 主要是排版还原上 需要做算法处理 来判断段落和样式的还原 所以我才在这里发帖 这个东西没有更详细的需求 标题已经写的够清晰了 我自己写过一些代码 能力不足 确实没搞定 您如果有兴趣接这个需求 咱可以详细讨论一下
    sinecw
        4
    sinecw  
    OP
       2023-12-26 11:09:44 +08:00
    @zhwq 大哥 看出来你技术牛了 别加戏了
    UkDP86IAeTHJr9p3
        5
    UkDP86IAeTHJr9p3  
       2023-12-27 13:18:15 +08:00 via Android
    5000 个 w, 我来给你做
    sinecw
        6
    sinecw  
    OP
       2023-12-27 16:14:29 +08:00
    希望感兴趣的技术大牛们能联系~
    nesserrary66
        7
    nesserrary66  
       2023-12-28 13:19:10 +08:00
    pdf api 可以获取文本,但图片和表格多半要用 ocr 处理,处理后再封装回 pdf 。
    本人正在尝试复刻百度的图片翻译,下面是效果图,初期版本与百度的还是有差距
    sltkzbw
        8
    sltkzbw  
       2023-12-31 16:15:48 +08:00
    @sinecw 分场景吧
    1 、PDF 可解析+版式固定,可以抽文字坐标硬写规则
    2 、PDF 不可解析+版式固定,自己标点数据训个检测+白嫖个识别,再硬写规则
    3 、任意版式,这个比较难,我了解都是针对特定版式优化的,可能得等到 OCR 的 GPT4 出来了
    rickmotiyu1
        9
    rickmotiyu1  
       362 天前
    如果是固定的标准的 pdf 格式可以做
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1120 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 18:25 · PVG 02:25 · LAX 10:25 · JFK 13:25
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.