V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
jamel
V2EX  ›  程序员

好像发现 没有 文件转换 这类的库啊?

  •  
  •   jamel · 2024-01-11 13:50:01 +08:00 · 2274 次点击
    这是一个创建于 368 天前的主题,其中的信息可能已经有所发展或是发生改变。
    几乎市面上的 html 互转 pdf ,html 互转 word 的工具都要收费,都想打算自己做一个了。
    python 好像有一个,java 有一个 转 pdf 的,但是没有转 word 的。
    估计只能做一个了。。。难搞
    18 条回复    2024-01-12 10:46:42 +08:00
    murmur
        1
    murmur  
       2024-01-11 13:52:48 +08:00
    html 转 pdf 用无头浏览器打印就行了

    html 转 word 效果会很差 不建议使用 还是直接转 pdf 吧

    word 转 html 也是 得用在线 office 预览

    pdf 转 html 这个得 ocr 识别 收费没毛病

    基于你的需求除了 html 转 pdf 估计都做不出来
    xtreme1
        2
    xtreme1  
       2024-01-11 13:55:25 +08:00
    你比 knuth 还牛逼
    wWjd5V5L0636B5YV
        3
    wWjd5V5L0636B5YV  
       2024-01-11 13:57:32 +08:00
    之前做过 docx 转 html 的需求 恶心死了 关键字替换组件更恶心
    wWjd5V5L0636B5YV
        4
    wWjd5V5L0636B5YV  
       2024-01-11 13:58:30 +08:00
    @xiaogang530 用 Java 在后台硬拼接的 然后上传到 fastdfs
    kilasuelika
        5
    kilasuelika  
       2024-01-11 14:09:50 +08:00 via Android   ❤️ 1
    pandoc 不能满足要求吗
    zydxn
        6
    zydxn  
       2024-01-11 14:14:42 +08:00
    你自己做一个试试呗,别说转换了,导出 word 做的就很恶心,大多都是基于 FTL ( xml 格式)去做占位符和替换。
    cnoder
        7
    cnoder  
       2024-01-11 14:15:55 +08:00
    coyove
        8
    coyove  
       2024-01-11 14:16:46 +08:00
    html 转 pdf 还好,html 转 word 的需求点在哪,我们学校 60 岁的老教授都知道装个万能复制的插件了
    siweipancc
        9
    siweipancc  
       2024-01-11 14:37:38 +08:00 via iPhone
    直接调 C 库啊,你还在折腾什么?一大堆开源的工具,非得自己实现个四不像?
    charlestang
        10
    charlestang  
       2024-01-11 15:07:54 +08:00
    不是有什么 pandoc 么?支持狂多格式互转。另外以前我做过 html 转 pdf ,有一个叫 wkhtmltopdf 的库,挺好用,转得效果不错的。还能转图片。
    Mithril
        11
    Mithril  
       2024-01-11 15:14:56 +08:00
    唯一能正常支持几乎所有源文件效果的转换格式的,就是 HTML 转 PDF 。
    严格来说这都不能叫格式转换,而是“渲染”和“打印”。把 HTML 加 CSS 通过渲染得出结果,然后按照打印的方式将渲染结果输出到 PDF 里。
    你可以用 puppeteer 等工具做到这一点,比如前面说的 wkhtmltopdf ,实际原理都是一样的,要么套了 Chrome 或者 CEF ,要么直接 WebKit 。都是用浏览器来做的,这样才能做到完美转换和渲染样式。

    其他方法和格式转换都属于“勉强能用”。只有 PDF 这种可以通过虚拟打印机来做最终输出的格式,才能作为能适配大多数格式的转换目标。

    所以你看大多格式都能转成 PDF ,但 PDF 再转回去就有各种问题了。
    Aixtuz
        12
    Aixtuz  
       2024-01-11 15:16:55 +08:00
    之前用过 Pandoc ,对格式要求不苛刻的话,感觉还行。
    weijancc
        13
    weijancc  
       2024-01-11 15:17:52 +08:00
    node 有一个 html 转 word 的, 效果还可以, https://github.com/privateOmega/html-to-docx
    Skifary
        14
    Skifary  
       2024-01-11 15:24:06 +08:00
    因为文件转换特别是 pdf 几乎是没有通用转换方法的,只能根据特定的格式做解析去解决特定的需求
    abersheeran
        15
    abersheeran  
       2024-01-11 20:45:47 +08:00
    因为别人不想免费开发这种对于很多人都是刚需的东西。
    duzhuo
        16
    duzhuo  
       2024-01-12 08:57:12 +08:00 via Android
    pandoc 咯
    jamel
        17
    jamel  
    OP
       2024-01-12 10:34:24 +08:00
    @duzhuo pandoc 是不是收费的?
    dode
        18
    dode  
       2024-01-12 10:46:42 +08:00
    今年搞了 html 转 word 的功能,可以实现文字、图片、表格的全部转换
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5742 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 02:47 · PVG 10:47 · LAX 18:47 · JFK 21:47
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.