V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
cccy0
V2EX  ›  问与答

html 文本如何只翻译文本而不翻译 html 标签

  •  
  •   cccy0 · 2019-07-27 11:10:48 +08:00 · 2124 次点击
    这是一个创建于 1707 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有一些文本, 内容大概就是 这样的

    eKnLtK.jpg

    如何才能只把标签内的内容翻译成中文而不影响 html 标签呢

    (我用百度直接翻译总是把一部分标签也一起翻译了 = =

    11 条回复    2019-08-17 18:39:17 +08:00
    singerll
        1
    singerll  
       2019-07-27 11:15:19 +08:00 via Android
    文本过滤?
    cccy0
        2
    cccy0  
    OP
       2019-07-27 11:21:15 +08:00
    @singerll #1 html 标签需要保留的, 不只是把文本提取出来
    otakustay
        3
    otakustay  
       2019-07-27 11:23:08 +08:00
    用 HTML Parser,然后只翻译 Text Node
    otakustay
        4
    otakustay  
       2019-07-27 11:24:11 +08:00
    不过代价是有时候一句话是放在 2 个标签里的,就会失去翻译的上下文
    <p>This man is <em>colored</em></p>
    十有八九会变成:这个人是有颜色的

    这时候就需要 HTML 标签语义性来辅助判断怎么样算是一句话了,然而 99%的站点是不具备标签语义性的
    andong777
        5
    andong777  
       2019-07-27 11:27:06 +08:00
    我觉得应该有一些 parser 可以满足你的需求,以前搞过类似的。
    Mohanson
        6
    Mohanson  
       2019-07-27 11:37:06 +08:00 via Android   ❤️ 4
    估计楼主是想采集国外站然后谷歌翻译成中文祸害国内网络环境…
    delectate
        7
    delectate  
       2019-07-27 11:46:20 +08:00
    @Mohanson 一语中的。

    其实很简单,就是用正则去掉 html 标签,看:python 过滤 HTML 标签 https://tushare.pro/document/1?doc_id=91
    DovaKeen
        8
    DovaKeen  
       2019-07-27 11:53:07 +08:00
    @Mohanson 我记得搜索一些问题时候,会搜到某某云的论坛,里面的内容就是直接机翻 stackoverflow 的
    cccy0
        9
    cccy0  
    OP
       2019-07-27 17:17:35 +08:00
    @otakustay #3
    @andong777 #5
    好的准备采用这种方法了= =
    cccy0
        10
    cccy0  
    OP
       2019-07-27 17:18:37 +08:00
    @Mohanson #6
    @delectate #7
    @DovaKeen #8
    不是, 是项目需要, 采集国外数据进行分析
    heiheidewo
        11
    heiheidewo  
       2019-08-17 18:39:17 +08:00
    哈哈,腾讯云就是这么干的,权重没它的高,其他人没法搞
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5291 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 08:18 · PVG 16:18 · LAX 01:18 · JFK 04:18
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.