游戏百科

AI翻译正在“毒害”维基百科,将弱势语言推向灭绝

(来源:MIT TR) 四年前,当 Kenneth Wehr 开始接管格陵兰语维基百科时,他的第一项举措是删掉几乎所

(来源:MIT TR)

四年前,当 Kenneth Wehr 开始接管格陵兰语维基百科时,他的第一项举措是删掉几乎所有内容。他认为,这是它唯一的生存机会。

现年 26 岁的 Wehr 并非来自格陵兰——他在德国长大,但在十几岁时访问过这座作为丹麦自治领的岛屿后,便对它深深着迷。他曾花费数年时间,用自己的母语撰写关于各种冷门主题的维基百科条目。

为了格陵兰语,他甚至最终搬到哥本哈根专门学习。这门语言的使用者约有 57,000 人,主要是因纽特原住民,他们散布在北极圈内几十个偏远的村庄里。

格陵兰语维基百科大约在 2003 年,即英文网站推出几年后上线。在 Wehr 近 20 年后接手时,已有数百名维基百科贡献者参与其中,共同撰写了约 1,500 篇文章,总字数超过数万。这似乎有力地证明了众包模式的成功,正是这种模式使维基百科成为在线信息的首选来源,表明它即便在最不可能的角落也能生根发芽。

然而,问题只有一个:格陵兰语维基百科只是一个幻象。

几乎每一篇文章都出自那些根本不会说这门语言的人之手。如今在丹麦教授格陵兰语的 Wehr 推测,或许只有一两位格陵兰人曾经贡献过内容。但更让他忧心的是另一件事:他注意到,随着时间的推移,越来越多由机器翻译生成的文章被直接复制粘贴到维基百科上。这些文章充斥着低级错误——从语法失误到毫无意义的词汇,再到更严重的失实信息,例如一个词条宣称加拿大只有 41 名居民。其他页面有时甚至包含一串随机字母,这是机器在找不到合适的格陵兰语词汇时随意拼凑的结果。

“对于那些发布者来说,这些内容或许看起来像是格陵兰语,但他们自己根本无从判断,” Wehr 抱怨道。

“这些句子要么完全不通,要么有明显错误,”他补充说。“AI 翻译在处理格陵兰语方面表现得非常糟糕。”

Wehr 所描述的困境并非格陵兰语版本所独有。

维基百科是继《圣经》之后最宏大的多语言项目:它拥有超过 340 种语言版本,另有 400 种更小众的语言版本正在开发和测试中。随着 AI 技术的普及,许多这类小型语言版本已被自动翻译的内容所淹没。例如,据《麻省理工科技评论》估计,在四个非洲语言的维基百科版本中,有 40% 到 60% 的文章是未经校对的机器翻译内容。而在对因纽特语(一种与格陵兰语相近、在加拿大使用的原住民语言)的维基百科版本进行审查后,《麻省理工科技评论》估计,超过三分之二包含多个句子的页面都部分采用了这种方式创建。

这正开始引发一个棘手的问题。从谷歌翻译到 ChatGPT,AI 系统通过抓取互联网上的海量文本来学习“说”一门新语言。对于那些使用者较少的语言来说,维基百科有时是其最大的在线语言数据库。因此,这些页面上的任何语法或其他错误,都可能污染 AI 赖以学习的“水源”。这会导致模型在翻译这些语言时尤其容易出错,从而形成一种语言学的恶性循环:人们继续使用这些工具添加更多劣质翻译的维基百科页面,而 AI 模型则继续从这些劣质页面中学习。这是一个复杂的问题,但可以归结为一个简单的概念:垃圾进,垃圾出 (Garbage in, garbage out)。

“这些模型是建立在原始数据之上的,” Kevin Scannell 说道。他曾是圣路易斯大学的计算机科学教授,现在专注于为濒危语言开发软件。“它们会试图从零开始学习一门语言的一切。没有其他输入,没有语法书,没有词典,输入的只有文本。”

关于这个问题的严重程度,目前还没有确切的数据,部分原因是许多 AI 训练数据是保密的,而且该领域仍在快速发展。但早在 2020 年,据估计,在用于翻译非洲数百万人口所使用的语言(包括马达加斯加语、约鲁巴语和绍纳语)的 AI 模型中,维基百科提供了超过一半的训练数据。2022 年,一个德国研究团队在调查可通过网络抓取获得的数据时发现,对于 27 种资源匮乏的语言,维基百科是唯一易于获取的在线语言数据来源。

在维基百科内容质量低劣的情况下,这可能会产生严重后果——它可能会将地球上最脆弱的语言推向悬崖,因为后代将开始对它们失去信心。

“维基百科的状况将反映在这些语言的 AI 模型中,” 挪威特罗姆瑟大学的计算语言学家 Trond Trosterud 说。多年来,他一直在就劣质维基百科版本可能带来的危害发出警告。“我很难想象这会没有后果。当然,维基百科的地位越主导,情况就会越糟。”

负责任地使用

自诞生之初,自动化就已融入维基百科。机器程序维持着平台的运作:它们修复损坏的链接、修正格式错误,甚至纠正拼写。还有一支机器人大军,它们通过将河流、城市或动物的名称填入固定句式,来生成简短的条目。总体而言,它们使平台变得更好。

但AI 是另一回事。任何人只需几次点击,就能用它造成巨大的破坏。

相比许多其他网站,维基百科在应对 AI 时代的到来方面做得更好。它没有像社交媒体那样被 AI 机器人或虚假信息所淹没,并在很大程度上保留了早期互联网时代的纯粹性。维基百科开放、免费,任何人都可以使用、编辑和引用,它由它所服务的社群来运营,公开透明且易于使用。但社群驱动的平台,其生死存亡取决于社群的规模。英语维基百科取得了巨大成功,而格陵兰语版本则走向衰落。

“我们需要优秀的维基百科贡献者。这一点人们习以为常,但这并非理所当然,” Amir Aharoni 说道,他是维基百科语言委员会的志愿者成员,该委员会负责监督语言版本的开设与关闭。“如果你负责任地使用机器翻译,它可以是高效且有用的。不幸的是,你不能指望所有人都这么做。”

Trosterud 研究了小型维基百科版本用户的行为,他表示,AI 赋能了一个他称之为“维基百科劫持者”的子群体。这些用户的范围很广——从天真的青少年创建关于自己家乡或喜爱的 YouTuber 的页面,到善意的维基百科人,他们认为通过创建少数族裔语言的文章是在以某种方式“帮助”这些社群。

“如今他们的问题在于,他们手握谷歌翻译这个武器,” Trosterud 说。他补充道,这让他们能够炮制出比以往任何时候都更长、更以假乱真的内容:“以前,他们的武器只有词典。”

这实际上将破坏行为工业化了——受影响最严重的是那些脆弱的语言,因为 AI 对它们的翻译通常最不可靠。原因有很多,但一个重要因素是在线可用的源文本数量相对较少。有时,模型难以识别一种语言,因为它与其他语言相似;有时则是因为某些语言,包括格陵兰语和大多数美洲原住民语言,其结构特点使其不适用于大多数机器翻译系统的工作方式。(Wehr 指出,格陵兰语是一种粘着语,即通过在词根上附加前缀和后缀来构词。因此,许多词汇具有极强的语境特异性,能够表达在其他语言中需要用一整个句子才能说明的复杂概念。)

谷歌在三年前大规模扩展其翻译服务前发布的一项研究发现,资源匮乏型语言的翻译系统质量普遍低于资源充足型语言。研究人员发现,他们的模型常常会错误翻译跨语言的基本名词,包括动物和颜色的名称。(谷歌在给《麻省理工科技评论》的一份声明中写道,它“致力于为其支持的所有 249 种语言达到高质量标准”,并“通过严格测试和改进其系统,特别是针对那些网络公开文本资源有限的语言”。)

维基百科自身提供了一个名为“内容翻译”(Content Translate) 的内置编辑工具,允许用户将文章从一种语言自动翻译到另一种语言——其初衷是通过保留原文的参考文献和复杂的格式来节省时间。但它依赖于外部机器翻译系统,因此也深受其他机器翻译工具的弱点所困扰——维基媒体基金会表示,这是一个难以解决的问题。是否允许使用该工具由每个语言版本的社群自行决定,一些社群已决定禁用。值得注意的是,英语维基百科已基本禁止使用该工具,声称约 95% 使用“内容翻译”创建的文章未达到可接受标准,需要大量额外修改。不过,至少可以轻易判断该程序是否被使用过,因为它会在维基百科的后端添加一个标签。

其他的 AI 程序则更难监控。尽管如此,我采访过的许多维基百科编辑都表示,一旦他们的语言被添加到主流在线翻译工具中,他们就会注意到质量低劣、很可能是机器翻译的页面数量相应激增。

一些使用 AI 翻译内容的维基百科贡献者偶尔会承认他们并不会说目标语言。他们可能认为自己是在为小语种社群提供可供修改的“草稿”,这本质上是在效仿那些在更活跃的维基百科版本中行之有效的模式。

然而,一旦充满错误的页面在小语种中被创建出来,通常是不会有一支庞大的、懂这门语言的专家队伍来随时准备改进它们的。这些版本的读者很少,有时甚至没有一个固定的编辑。

20 多岁的加拿大教师 Yuet Man Lee 表示,他曾使用谷歌翻译和 ChatGPT 的混合工具,将他为英语维基百科写的几篇文章翻译成因纽特语,他觉得这能为一个小社群做出贡献是件好事。他说,他在其中一篇文章中加了备注,说明这只是一个粗略的翻译。“我当时没想过会有人注意到这篇文章,”他解释说。“如果你在那些小众的维基百科上发布内容——大多数时候根本没人会看。”

但与此同时,他也表示,他仍然觉得“也许有人会看到并修正它”——他补充说,他曾想过 AI 系统生成的因纽特语翻译在语法上是否正确。自他创建那篇文章以来,没有任何人动过它。

在温哥华教授社会科学的 Lee 十年前开始在英语维基百科上编辑条目。他说,熟悉更活跃的维基百科的用户可能会陷入一种他称之为“大维基百科式傲慢”的心态:当他们尝试为小版本做贡献时,他们会想当然地认为别人会来修正他们的错误。有时这确实行得通。Lee 说,他之前曾为鞑靼语(一种主要在俄罗斯由数百万人使用的语言)维基百科贡献过几篇文章,其中至少有一篇后来被修正了。但相比之下,因纽特语维基百科则是一片“贫瘠的荒原”。

他强调自己的初衷是好的:他想为一个加拿大原住民语言的维基百科增加更多文章。“我现在觉得这可能是一个坏主意。我没有考虑到我可能在促成一个递归循环,”他说。“我只是出于好奇和好玩,想把内容发布出去,而没有认真思考后果。”

“彻底,完全没有未来”

维基百科是一个由理想主义驱动的项目。编辑工作可能吃力不讨好,需要花费数周时间与匿名的、身份不明的人争论,但奉献者们投入了大量无偿劳动,因为他们致力于一项更崇高的事业。正是这种奉献精神,驱动着我采访过的许多小语种编辑。他们都担心,如果垃圾内容继续出现在他们的页面上,后果将不堪设想。

26 岁的农业规划师 Abdulkadir Abdulkadir 在尼日利亚北部一条繁忙的公路边,通过一通信号不稳的电话与我交谈。他说他每天花三个小时,用他的母语富尔富尔德语(一种主要由萨赫勒地区的牧民和农民使用的语言)处理维基百科条目。“但工作量太大了,”他说。

Abdulkadir 认为,富尔富尔德语维基百科迫切需要正常运作。他一直建议将其作为偏远村庄农民为数不多的在线资源之一,为他们提供关于哪些种子或作物最适合他们田地的信息,并且是用他们能理解的语言。“如果你给他们一篇机器翻译的文章,” Abdulkadir 告诉我,“那很可能会‘轻易地伤害他们’,因为信息很可能没有被正确翻译。”

例如,谷歌翻译显示富尔富尔德语中“一月”的意思是“六月”,而 ChatGPT 则说是“八月”或“九月”。这些程序还暗示,富尔富尔德语中“收获”的意思是“发烧”或“安康”等其他可能性。

Abdulkadir 说,他最近被迫修正了一篇关于豇豆的文章,这是一种在非洲大部分地区至关重要的经济作物,因为他发现那篇文章几乎无法阅读。

Abdulkadir 表示,如果有人想在富尔富尔德语维基百科上创建页面,他们应该手动翻译。否则,“任何读你文章的人都无法获得最基本的知识,”他告诫这些维基百科贡献者。尽管如此,他估计仍有大约 60% 的文章是未经校对的机器翻译。Abdulkadir 告诉我,除非 AI 系统的学习和部署方式发生重大改变,否则富尔富尔德语的前景堪忧。“老实说,情况会很糟糕,”他说。“彻底,完全没有未来。”

在尼日利亚的另一端,Lucy Iwuala 为伊博语(一种在该国东南部有数百万人使用的语言)维基百科做贡献。“伤害已经造成了,”她告诉我,同时打开了最近创建的两篇文章。两篇都是通过维基百科的“内容翻译”工具自动翻译的,里面错误百出,她说读下去会让她头疼。“有些术语甚至根本没被翻译,还是英语,”她指出。她认出创建这些页面的用户名是一个惯犯。“这个人甚至用了伊博语里不存在的字母,”她说。

三年前,出于对伊博语正被英语取代的担忧,Iwuala 开始定期为维基百科做贡献。这种担忧在许多活跃于小语种版本的人中很常见。“这是我的文化,这是我的身份,”她告诉我。“这才是核心:确保你不会被抹去。”

如今作为一名英语和伊博语之间的专业翻译,Iwuala 说,造成最大破坏的用户是那些缺乏经验的人,他们将 AI 翻译视为快速提升伊博语维基百科影响力的方式。她发现自己经常要在她组织的线上编辑松,或通过电子邮件向各种出错的编辑解释,结果可能恰恰相反,这会赶走用户:“你会感到沮丧,然后不想再访问这个地方。你只会放弃它,然后回到英语维基百科。”

夏威夷大学的夏威夷语助理教授 Noah Haʻalilio Solomon 也表达了同样的担忧。他报告说,夏威夷语维基百科上某些页面约有 35% 的词语是无法理解的。“如果这就是将要存在于网络上的夏威夷语,那它带来的坏处将远大于好处,”他说。

几十年前曾一度濒临灭绝的夏威夷语,在原住民活动家和学者的努力下,正在经历一场复兴。在维基百科这样一个广泛使用的平台上看到如此拙劣的夏威夷语,令 Haʻalilio Solomon 感到不安。

“这很痛苦,因为它让我们想起我们的文化和语言曾无数次被盗用,”他说。“我们为了语言复兴,一直在艰难地向上攀登。这绝非易事,而这种现象会增加额外的障碍。人们会认为这就是夏威夷语的准确呈现。”

所有这些维基百科错误所带来的后果可能很快就会显现。毫无疑问已经吸收了这些页面作为训练数据的 AI 翻译器,现在正被用于制作充斥错误的 AI 生成书籍,这些书籍面向各种语言的学习者,如因纽特语和克里语(加拿大原住民语言),以及曼岛语(马恩岛上的一种小型凯尔特语言)。其中许多书籍已在亚马逊上架销售。“那完全是胡说八道,” 蒙特利尔魁北克大学的语言学家 Richard Compton 在评价一本他审阅过的、号称是因纽特语入门手册的出版物时说。

AI 非但没有让少数族裔语言变得更容易接触,反而正在为这些语言的学生和使用者创造一个不断扩大的雷区。“这简直是打脸,” Compton 说。他担心,在加拿大那些为了将传统传承下去而与歧视进行了艰苦斗争的社群中,希望学习语言的年轻一代可能会求助于像 ChatGPT 这样的在线工具或亚马逊上的短语手册,结果只会让事情变得更糟。“这是欺诈,”他说。

与时间赛跑

根据联合国教科文组织 (UNESCO) 的数据,每两周就有一种语言被宣布灭绝。但是,运营维基百科的维基媒体基金会是否有义务保护其平台上的语言,这是一个悬而未决的问题。当我与该基金会的高级总监 Runa Bhattacharjee 交谈时,她说,决定什么样的内容应该存在于他们的维基百科上,取决于各个社群自己。“最终,责任确实在于社群,他们需要确保没有破坏行为或不希望的活动,无论是通过机器翻译还是其他方式,”她说。Bhattacharjee 补充说,通常只有在收到具体投诉后,才会考虑关闭一个版本。

但如果没有活跃的社群,一个版本又如何能被修复,甚至如何能有人提出投诉呢?

Bhattacharjee 解释说,维基媒体基金会在这种情况下扮演的角色是维护维基百科平台,以防有人前来复兴它:“我们提供的是一个让他们成长和发展的空间。这就是我们的定位。”

伊纳里萨米语,一种仅在芬兰北部一个偏远社群使用的语言,是人们如何善用维基百科的典范。四十年前,这门语言正走向灭绝;当时只有四个孩子会说。他们的父母创建了伊纳里萨米语言协会,作为挽救语言的最后努力。这些努力奏效了。如今,已有数百名使用者,多所学校使用伊纳里萨米语作为教学媒介,维基百科上更有 6,400 篇文章,每一篇都由流利的使用者进行过审校。

这个成功案例凸显了维基百科确实可以为小而坚定的社群提供一个独特的工具,以促进他们语言的传承。“我们不关心数量,我们关心质量,” 伊纳里-萨米语言协会的成员 Fabrizio Brecciaroli 说。“我们正计划将维基百科用作书面语言的资料库。我们需要为年轻一代提供可以使用的工具。让他们能够以数字化的方式使用伊纳里萨米语,这很重要。”

这一举措非常成功,以至于维基百科已被整合到伊纳里萨米语学校的课程中,Brecciaroli 补充道。他会接到老师打来的电话,请求他撰写从龙卷风到萨米民间传说等各种主题的简单页面。维基百科甚至提供了一种将新词引入伊纳里萨米语的方式。“我们总是在创造新词,” Brecciaroli 说。“年轻人需要用它来谈论体育、政治和电子游戏。如果他们不确定怎么说,现在他们会去查维基百科。”

维基百科是一项宏伟的智力实验。伊纳里萨米语的例子表明,只要给予最大程度的关注,它在小语种中也能奏效。“最终目标是确保伊纳里萨米语能够存活下去,” Brecciaroli 说。“伊纳里萨米语没有谷歌翻译,这或许是件好事。”

这或许是真的——尽管像 ChatGPT 这样的大型语言模型可以将短语翻译成传统机器翻译工具不支持的语言。Brecciaroli 告诉我,ChatGPT 在伊纳里萨米语方面的表现并不好,但其质量因你提出的要求而异;如果你用该语言提问,答案会充满芬兰语词汇甚至它自己发明的词。但如果你用英语、芬兰语或意大利语提问,然后要求它用伊纳里萨米语回答,它的表现会更好。

有鉴于此,尽可能多地创作高质量的在线内容,成为了一场与时间的赛跑。“ChatGPT 只需要大量的词汇,” Brecciaroli 说。“如果我们不断输入好的材料,那么迟早我们会得到好的输出。这就是希望。” 这个想法得到了多位语言学家的支持——即有可能终结“垃圾进,垃圾出”的循环。(OpenAI 没有回应置评请求。)

尽管如此,整体问题很可能会持续恶化,因为许多语言不像伊纳里萨米语那样幸运——它们的 AI 翻译器很可能会在越来越多 AI 垃圾的基础上进行训练。不幸的是,Wehr 对他心爱的格陵兰语的未来似乎远没有那么乐观。

自从删除了格陵兰语维基百科的大部分内容后,他花了好几年时间试图招募使用者来帮助他复兴它。他登上了格陵兰的媒体,也在社交媒体上发出了呼吁。但他没有得到太多回应,他说这令人心灰意冷。

“格陵兰没人对此感兴趣,也没人愿意贡献,”他说。“这完全没有意义,所以它应该被关闭。”

去年年底,他开始申请,要求维基百科语言委员会关闭格陵兰语版本。在数十名维基百科官僚之间展开了数月的激烈辩论;一些人似乎对一个表面上看起来健康的版本竟会陷入如此多的问题感到惊讶。

然后,本月早些时候,Wehr 的提议被接受了:格陵兰语维基百科将被关闭,所有剩余的文章将被移至维基百科孵化器,那里是新语言版本进行测试和构建的地方。语言委员会引述的原因之一是 AI 工具的使用,这些工具“频繁产生可能歪曲该语言的无意义内容”。

但一切可能已经太迟了——格陵兰语的错误似乎已经固化在机器翻译器中。如果你让谷歌翻译或 ChatGPT 做一件像用标准的格陵兰语数到 10 这样简单的事,两个程序都无法做到。

原文链接:https://www.technologyreview.com/2025/09/25/1124005/ai-wikipedia-vulnerable-languages-doom-spiral/