汉语古文断句预训练模型

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 1440 天前的主题，其中的信息可能已经有所发展或是发生改变。

https://github.com/cbdb-project/sentence-segmentation-for-chinese-historical-texts

这是基于 LSTM 的预训练模型。此模型可帮助您为汉语古文断句。任何人都可以在 CC BY-NC-SA 4.0 许可证下使用此预训练模型。

我们在 2018 年建立此模型。(Xu Han, Hongsu Wang, Sanqian Zhang, Qunchao Fu, and Jun S Liu. 2018. “Sentence Segmentation for Classical Chinese Based on LSTM with Radical Embedding.”)虽然模型已很老旧，我们发现当前并没有项目在 GitHub 上公开用于汉语古文断句的预训练模型。因此我们认为它仍能帮到一些项目。

此仓库并不是任何当下断句或者标点系统的竞争者。如果您有资金支持或者有其他选择，请选择那些当下的商业化断句、标点模型，或利用自己的资源训练合适的「现代」模型。

此仓库仅希望为以下项目、学者、爱好者提供帮助：1 ）希望标记成千上万条语料记录，研究结论对标点正确率容忍度高。2 ）无法建立自己的古汉语断句、标点模型。3 ）无力支付付费模型。

在本仓库的 training-data/ 目录下，您可以找到我们用于训练此模型的语料。如果希望帮助上述项目、学者、爱好者，您亦可基于这些训练集训练自己的模型，或丰富训练集的内容。我们欢迎任何人向本仓库提交代码或无版权问题的语料。我们期待在中国历史研究中，未来会有更多的预训练模型开放给公众。

我们丢失了用于训练模型的源代码，但未来如果找到，第一时间更新在此仓库中。

来自作者之一的私话：

「安得广厦千万间」，这个 repo 服务的对象是「天下寒士」。能吃饱、穿暖的项目和研究者，请一定购买和支持商业化方案。买不起、用不起但是想一试的「寒士」，至少还有一个选择。这个模型的正确率，论文作者们当时就认为距离真正能帮助人文研究还远得多，所以一直也没有发布，更不要说到今天大量更优秀的模型发布。但是看到直到 2021 年，GitHub 上完全搜不到一个用来断句的预训练模型，心里就很不舒服。

如果能用这个项目来刺激一些组分享自己的预训练模型，快速淘汰这个老旧的模型。即便是这样，我自己也会很欣喜。

模型

训练

标点

仓库

2 条回复 • 2021-11-19 10:46:23 +08:00

Chipmunker

2021-11-19 08:57:17 +08:00

好像训练数据集是简体的。那是不是不能直接用于繁体文本？

oopus

2021-11-19 10:46:23 +08:00 via iPhone

@Chipmunker 谢谢你的细心观察，繁简都可以的