原文:Lost (or gained) in translation
应了那句话,中文是信息熵最大的语言。哈哈哈
文中那个图挺具有说明意义,是说将一个长度为 1000 (包含空格)的英文文本转成其他语言后的长度变化:
中文锐减 70% 左右。
嗯……中华文化,博大精深。
1
wysnylc 2020-07-07 15:53:45 +08:00
这也是为啥中文以及其变种的视频弹幕能流行,其他语言例如英文弹幕流行不起来的原因它太长了
|
2
est 2020-07-07 15:55:09 +08:00 1
文言文表示不服
|
3
doveyoung 2020-07-07 15:59:57 +08:00
淦啊
|
4
kx5d62Jn1J9MjoXP 2020-07-07 16:04:02 +08:00
如果是讨论信息密度什么的,英文计算文本长度是用字母个数算长度的,换成中文应该计算笔画数,否则英文应该一个单词算一个数
Twitter 在英语世界一只不温不火就是因为 140 字限制对英文太短了 |
5
autoxbc 2020-07-07 16:07:40 +08:00 2
带宽成本逐渐稀释的情况下,语言精炼性的价值是不明显的,单位长度语义的解码成本才比较重要
就像站里时不时就有人寻求把复杂文本处理转化为正则表达式,实际这个表达式的编写耗费了大量时间,在维护者理解作者意图的阅读过程中,解码又耗费了大量时间。而如果用程序原语来描述,尽管把一个正则展开为一个块语句增加了长度,却节省了大量编码解码的时间,而且降低了歧义和边界错误的可能性 |
6
xingyuc 2020-07-07 16:25:16 +08:00 1
中文是最不适合 block 的语言
|
7
ltm 2020-07-07 16:29:28 +08:00 via Android 5
每一个方块都是二维码状的图形,信息量不大才怪
|
8
rogwan 2020-07-07 16:42:14 +08:00 via iPhone 1
人类语言中,英语是 C 语言,中文是 Python 。
|
9
liberty1900 2020-07-07 18:20:42 +08:00 3
英文的单词是字母排列组合而成的,中文的字符已经是笔画排列组合的结果了,而且是二维空间的排列组合,封装度不是一个级别
|
10
kikyous 2020-07-07 18:35:48 +08:00 1
中文牛逼,还有书法
|
12
darksword21 2020-07-07 20:05:49 +08:00
因为中文不仅有左右结构
|
13
neroransom 2020-07-07 22:23:41 +08:00 via Android 1
@ssynhtn 就是英语一个单词算一个数来算,中文也短啊
|
14
Anhedonia 2020-07-07 22:46:52 +08:00
台大教授史达林在一个关于练习英语听力的演讲里说过
非常羡慕中国人用汉字 太方便了 很多人看电影的时候就可以直接扫一眼字幕 甚至都不需要把声音语言过脑子翻译就能得到信息 英语的话就不行 这点确实就是中文的强大之处 |
15
hundan 2020-07-07 23:19:02 +08:00 via iPhone 2
|
16
murmur 2020-07-07 23:23:18 +08:00
微博进化的比推特早多了,只要能发图,什么可能性都有,能用表情解决的都不打字,长微博想写多少写多少
|
19
Biwood 2020-07-07 23:52:52 +08:00 via Android 2
@Anhedonia 电影本质上是画面与音效结合的艺术,中国人看电影最大的问题就是过于注重文本。不管是制作者还是观看者,本来可以用非文字传达的东西,非得加上大段大段的台词,失去了电影的优势。
观众习惯了字幕之后,眼睛总要盯着屏幕下方,总有那么几帧画面信息会因此而错过,而某些优秀的电影,每一帧都很重要,这是很可惜的。 |
21
Anhedonia 2020-07-08 07:37:12 +08:00
|
22
Building 2020-07-08 08:02:38 +08:00 via iPhone
实际上中文并不如英文严谨,非常容易产生歧义,只是大家都习惯了而已,老外发消息也是会用缩写的,不一定就比中文显得长。这种短就是好的结论就好像老外觉得中文这么多字那打字不是很费力一样。
|
23
SwagXin 2020-07-08 11:01:56 +08:00
中文这么强大吗
|
25
no1xsyzy 2020-07-08 13:38:23 +08:00
@di94sh #24 不对…… “没人能够解释清除熵是什么”,所以任何解释一定不对
那些 “用你们人类的语言无法解释清楚” 的所谓高级文明词汇,其实无外乎 “熵”、“量子化” 这种基于数学而不是直觉的词。语言是永远无法解释清楚的,除非全民数学家,但那样不必解释也清楚了。 |
26
no1xsyzy 2020-07-08 13:44:59 +08:00
信息量更大是好事吗?因为在 140 字的限制内使用中文能放进更多信息,难道就意味着更适合吗?
混过 codegolf 都知道,一些几百行代码的事换个语言可能一行甚至两个字符解决。 这意味着你们会去用那些一行的语言吗?你们觉得一行解决的语言更适合编程吗?那为什么不是人人 PERL 起步呢? |
27
Aaralyn 2020-07-08 16:12:00 +08:00
繁体中文更强大哦,然而共同的缺点就是学习起来费事费力,不利于传播。
|
28
tfdetang 2020-07-09 14:02:44 +08:00
@no1xsyzy 信息熵确实比较难解释清楚,但是毕竟是有明确定义和计算公式确定性的东西,何来 “没人能够解释清楚熵是什么?”
|
29
no1xsyzy 2020-07-09 14:16:54 +08:00
@tfdetang #28
> you should call it entropy ... no one knows what entropy really is, john von neumann, to claude shanon 对,熵是良定义的,但是它也是、甚至因此是不可解释的。因为解释的时候你总要拿现成的概念去对照,去拼凑,但这是不可能的。 请用你任何感觉舒服的语言使用这个函数:call-with-current-continuation (简称 call/cc ) call/cc 是良定义的,但大多数的语言想要表达这个函数是乏力的。任何人声称自己在这些语言中编写出了 call/cc 你都可以不必仔细调查而无错地断言:实现是不对的。 |
30
KennyMcCormick 2020-07-09 22:01:12 +08:00 via iPhone
昨天写了份报告,中文版 74k,英文版 122k
sigh |