提供高品质的翻译服务是卓越翻译的生存之道

语言研究漫谈巴别塔和机器翻译引擎

卓越翻译 2023年03月15日


最近几年,人类的世界的确热闹非凡。除了可控核聚变实验取得历史性突破外,去年年底发布的ChatGPT就颇让上帝惊呼了一番人类的疯狂,前几日常温超导的新闻横空出世也让人们浮想联翩。未来,一切常规工种也许都被AI和AI指挥的各种机器人承包了;人类也许解决了能源问题,出行不再依赖地面交通网络。那时候,世界必定更加精彩,也许更加无趣。

《圣经旧约创世记》第11章里面讲了一个关于巴别塔的故事。在很久很久以前,人类都讲着同一种语言。疯狂的人类产生了修建一座通天之塔,顺着通天之塔爬到天堂的想法。由于大家的语言统一,协调起来很快,通天之塔很快就进入修建状态。这座修建中的通天之塔被命名为Babel Tower,中文世界一般将之翻译为巴别塔。万能的上帝很不满于人类的狂妄自大和对神灵的亵渎,决定惩罚一下愚蠢的人类。上帝施展魔法,让全世界有了各种各样的语言。从此,人类世界的沟通不再畅顺,误解和嫌隙很快出现,巴别塔的修建因为这种误解半途而废。正是因为有了不同的语言和文化背景,人类世界从此冲突不断,战乱频仍。从这个故事来看,万能的上帝不但会魔法,而且不经意间创造了人类世界的种族冲突和战乱。但,就像古希腊神话中统治世间万物至高无上的天神宙斯一样,被供奉于殿堂之上。对于无神论者来说,这个故事显然只是一个故事。对于信奉上帝的人们来说,上帝永远是那么的仁慈。

获得奥斯卡提名的影片《Babel》在结束语中讲到,“the brightest light in the darkest night”,即便是在沟通困难重重的环境下,人类还是克服一切阻力来达到信息传递和交流。据说,巴别塔的故事,便是翻译这门职业的起源。在中国,最早的翻译起源于《越人歌》的翻译,相传是中国第一首译诗。鄂君子皙泛舟河中,打桨的越女爱慕他,用越语唱了一首歌,歌词中唱到“山有木兮木有枝,心悦君兮君不知”鄂君请人用楚语译出,就是这一首美丽的情诗。有人说鄂君在听懂了这首歌,明白了越女的心之后,就微笑着把她带回去了。不管是西方的故事还是东方的故事,翻译所起到的作用都是信息的传递和沟通。信息的传递和沟通是消除一切误会和嫌隙的必要手段。巴别塔的修建虽然半途而废,但是人类世界修建新的巴别塔的努力从来没有停止过。这“新的巴别塔”便是机器翻译引擎,它被誉为AI领域的明珠,人工智能的终极目标。

说起来,机器翻译引擎的发展也有了近百年的历史了。

1933年,苏联科学家Peter Troyanskii、法国科学家G.B. Artsouni提出了“自动翻译机”的想法。1954年1月7日,美国乔治敦大学在IBM协助下,首次完成了机器翻译试验,使用IBM 701计算机完成了史上首例机器翻译,自动将60个俄语句子翻译成了英语,正式拉开了机器翻译研究的序幕。1966年11月,美国科学院语言自动处理咨询委员会公布了一份名为《语言与机器》(简称 ALPAC 报告)的报告,全面否定了机器翻译的可行性,导致机器翻译的发展陷入了十几年的停滞。1976 年由加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发了TAUM-METEO 系统;1980年IBM开发了“翻译助手”工具。这些古老的翻译系统都是通过对句子的语法结构进行分析,构建语法树,通过词语及其形变等进行对应的翻译和修改,简称为RBMT。RBMT视图使用规则的方法来解释不规则的语言,这注定了它的结局。

1990年代,人类开发的机器翻译系统进入了基于机器统计引擎Statistical Machine Translation的时代,其特点是通过统计分析大量的翻译语料库Translation Corpus建立翻译模型来完成翻译任务。它背后的逻辑很简单,就是“如果人们都这么翻译,我也这么翻”。翻译引擎的质量终于达到了实用的阶段,但是仍然不够准确。

2014年,蒙特利尔大学学者Kyunghyun Cho等人发表论文《Learn Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation》,被称为是在机器翻译中应用神经网络的定鼎制作,这催生了两年之后谷歌翻译引擎的诞生。神经网络技术本身提出时间很早,但是人类重新注意到它也只是20年前的事情。今天,人们熟悉的谷歌翻译、DeepL,都采用了这一技术。简单来说,神经网络技术通过寻找语言文本里面的特征,对语言进行“理解”之后,用另外一种语言进行重新描述,从而达成翻译的任务。DeepL采用改进的神经网络技术,其翻译结果准确性较谷歌翻译引擎更为优异。

2022年底,美国OpenAI发布了基于大型语言模型Large Language Model理论的聊天机器人ChatGPT,把机器翻译的算法再次向前推进了一大步。ChatGPT通过处理大量数据来响应提示,这注定了其算法的优异之处在于,只要给它足够的数据,其翻译的结果必定会越来越准确。和别的翻译引擎不同的是,可以告诉ChatGPT需要翻译的句子的一些环境信息,这被称为提示词(Prompt)翻译。比如,你可以告诉它“这是医疗领域的一个句子,请将它从法语翻译成德语”。目前业界普遍认为,通过不同领域、不同语种的大量数据训练之后,ChatGPT前景光明。ChatGPT将来既可以适用于口语化的翻译,也足以适用于专业化的翻译。但是,就目前的实际测试结果来看,ChatGPT相较人工专业翻译,不论是准确性还是鲁棒性,仍然存在不小的差距。专业的翻译会对ChatGPT翻译的结果提出很多优化建议。不管怎么说,现在的谷歌翻译、DeepL和ChatGPT,已经能够解决很多问题。那么,机器翻译引擎何时能够达到并超过人工专业翻译的水平?时间,会告诉我们一切问题的答案,不是么?可以想象,随着人工智能引擎的发展,人类修建的新的巴别塔将越来越高,万能的上帝给人类设置的惩罚将迟早有一天不复存在。

文章最后,顺便探讨一个话题,人类是不是就可以不再学习新的语言了呢?人们在整个小学阶段、初中阶段,花费最大的精力进行学习的,其实是自己的母语。人们连自己的母语尚且需要花费大量的精力进行学习,何况新的语言乎?学习语言不仅仅只是为了推翻上帝的惩罚,不仅仅只是简单的沟通,更重要的,其实是在学习语言的过程中,体验各种文化的魅力。Ludwig Wittgenstein的一句名言:“我的语言之局限,即我的世界之局限”,可以作为这个问题的the Best Answer。

 

本文为本站(www.joylans.com)原创文章,转载请联系。