123,123,123

　一鍵部署OpenClaw

盡管川普的走馬上任更多與“逆全球化”綁定在一起，但考慮到人類歷史“螺旋狀”上升的演化軌跡，在技術(shù)進(jìn)步和文化擴(kuò)散的雙重推動(dòng)下，這個(gè)世界總體趨向互通互聯(lián)的趨勢似乎不可違——尤其當(dāng)全球化與網(wǎng)絡(luò)相遇的一瞬，不同國家之間平等便捷獲取信息，低成本地有效溝通即成一種必然。從這個(gè)意義上，全球化的最大敵人之一也許是各國千百年來夯實(shí)的語言壁壘。

作為一門交叉學(xué)科，機(jī)器翻譯涉及到認(rèn)知科學(xué)，計(jì)算機(jī)，信息論，語言學(xué)等多學(xué)科，其理論路徑同樣經(jīng)歷了螺旋狀上升：從最久遠(yuǎn)的“翻譯備忘錄”到后期基于規(guī)則，基于實(shí)例的機(jī)器翻譯，再到被視為機(jī)器翻譯重要轉(zhuǎn)捩點(diǎn)的統(tǒng)計(jì)翻譯模型(SMT)——后者是科學(xué)家初次察覺到通過大數(shù)據(jù)消弭信息不確定性是攻克“智能”的好辦法。

而最近兩年，機(jī)器翻譯正在擁抱另一個(gè)更重要的技術(shù)轉(zhuǎn)折點(diǎn)——基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯(NMT：Neural Machine Translation)。

機(jī)器翻譯的技術(shù)路徑

感同身受的是，無論是普通用戶還是資深譯員，無論使用WEB還是APP，都明顯察覺到近些年來的翻譯質(zhì)量有著迅猛的提升。

問題是：為何變化如此明顯?不妨從技術(shù)路徑上拆解來看。

直覺便知，當(dāng)人類試圖讓機(jī)器翻譯語言時(shí)，自然要對文字進(jìn)行解構(gòu)，就像同心圓的關(guān)系，文章由段落構(gòu)成，段落由句子構(gòu)成，句子由短語和字構(gòu)成，而遵循從易到難，機(jī)器翻譯的理論路徑也是從后向前：從最初的逐字翻譯到基于短語的翻譯——如今，依靠于神經(jīng)網(wǎng)絡(luò)，基于句子的翻譯成為可能。

于是，按照翻譯單元的不同，大體而言，目前機(jī)器翻譯有兩種類型：其一是上文提及的統(tǒng)計(jì)翻譯模型(SMT)，如你所知，互聯(lián)網(wǎng)的廣泛普及為統(tǒng)計(jì)翻譯提供了豐富的訓(xùn)練養(yǎng)料，而千禧年左右興起的基于短語的SMT更是讓機(jī)器翻譯質(zhì)量大為提高，也在很長一段時(shí)間占據(jù)機(jī)器翻譯的主流，但以短語作為翻譯單元的弊端即是，當(dāng)面對整句層面的翻譯時(shí)顯得非常生硬。

另一種類型當(dāng)然是基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯(NMT)，其翻譯路徑是所謂端到端(end-to-end)，將源語句整體編碼為一個(gè)向量，再通過解碼器對其進(jìn)行解碼，理論上僅需給定源語言句子，即可通過神經(jīng)網(wǎng)絡(luò)輸出目標(biāo)語言譯文。這里不妨舉個(gè)例子，若你在百度翻譯中輸入“蘿卜青菜各有所愛”，它可以輕松輸出“Every man has his hobbyhorse”的正確譯文，而非諸如“Turnip greens his taste”的荒誕結(jié)果。也正因如此，短短兩年，NMT就在多個(gè)公開測試集上超越了作為前輩的SMT系統(tǒng)。

而若要比較的話，整體而言，在數(shù)據(jù)訓(xùn)練比較充分的時(shí)候，NMT無疑要優(yōu)于SMT;在短句或數(shù)據(jù)量相對較小之時(shí)，SMT在處理固定搭配和習(xí)慣表達(dá)上具有優(yōu)勢。所以兩種方式談不上殊途同歸，只是在不同場景中分類而用——要知道，用戶的翻譯場景頗為多變，這要求一個(gè)優(yōu)秀的翻譯系統(tǒng)要成為集大成者。如今百度的翻譯系統(tǒng)就包含SMT，NMT，甚至更傳統(tǒng)的EBMT(基于實(shí)例的機(jī)器翻譯)。

當(dāng)然，倘若我們談?wù)摰氖俏磥?，幾乎可以肯定，神?jīng)網(wǎng)絡(luò)技術(shù)本身的向前奔進(jìn)，會讓NMT日趨成為主流(事實(shí)上，在百度中英日韓等多個(gè)系統(tǒng)中，它已是主流)——在今年8月的國際計(jì)算語言學(xué)年會上(ACL)，移動(dòng)端離線NMT被列為未來重要研究方向，即是為機(jī)器翻譯的未來畫了一個(gè)幾乎確定性的腳注。

機(jī)器翻譯的跑馬圈地

自二十世紀(jì)三十年代初法國科學(xué)家阿爾楚尼提出用機(jī)器進(jìn)行翻譯的想法至今，哪怕對人工智能的定義已幾經(jīng)翻折，機(jī)器翻譯都被長期視為人工智能的“終極目標(biāo)”之一。巨大的期許往往意味著目標(biāo)艱難，但這仍然無法阻擋這塊大蛋糕對全球頂尖科技大佬的吸引力。

而作為翻譯技術(shù)發(fā)展的初級階段，如果在這個(gè)時(shí)候硬要拼個(gè)排名或者高下，其實(shí)并沒有太大意義，而科技界的競爭也無非就是微軟、百度、谷歌這三家而已，孰輕孰重一看便知。只不過，從“百度更懂中國”的大思路能夠看出，百度在中國乃至亞洲市場更具侵略性，和搜索之爭同理，雖然誰都打不死誰，但區(qū)域優(yōu)勢已成不爭事實(shí)。

12月21日，從百度機(jī)器翻譯技術(shù)開放日上百度技術(shù)委員會聯(lián)席主席、自然語言處理部技術(shù)負(fù)責(zé)人吳華博士的觀點(diǎn)可以看出，百度其實(shí)已經(jīng)成為了翻譯技術(shù)領(lǐng)域的破繭者，他們早于谷歌一年就正式上線了基于神經(jīng)網(wǎng)絡(luò)的翻譯系統(tǒng)，同時(shí)也打造了全球首個(gè)互聯(lián)網(wǎng)在線NMT系統(tǒng)以及手機(jī)端離線NMT系統(tǒng)。據(jù)悉，百度翻譯每天已有上億次訪問，支持28種語言的互譯，開方的API接口也有超過2萬家第三方接入。

而就在前幾天，微軟發(fā)布全球首個(gè)萬能翻譯器，微軟官方表示它也可以實(shí)現(xiàn)多達(dá)100人間實(shí)時(shí)翻譯交談，并支持9種語言的語音輸入。而谷歌全球化帶來的影響無疑的巨大的，在收購科技公司的同時(shí)也在大力發(fā)展區(qū)域化優(yōu)勢，如谷歌2014年收購的Word Lens也在積極開展機(jī)器翻譯的工作，這李彥宏所說的話是一樣的道理：用人工智能打破一切邊界。

其實(shí)，百度的現(xiàn)狀其實(shí)并不令人意外，考慮到中國經(jīng)濟(jì)在全球化中的地位，在將更多人卷入全球化的社會協(xié)作網(wǎng)絡(luò)過程中，中國對翻譯行為的仰仗無疑更迫切。而更為現(xiàn)實(shí)的是：在全球數(shù)萬億網(wǎng)頁中，80%為非中文網(wǎng)頁;去年中國出境游人數(shù)超過1.2億，前20個(gè)旅游目的地國家和地區(qū)中共使用了12種語言，尤其是中英語——這個(gè)世界上使用人數(shù)最多和使用最廣泛的兩種語言之間的翻譯，在很多人眼中是純粹的剛需。

機(jī)器翻譯的未來

很簡單，翻譯技術(shù)最終是要服務(wù)大眾，否則就是鏡中月、水中花。

重要的是，技術(shù)也逐漸還原到更具體的實(shí)用場景，百度翻譯APP就通過結(jié)合OCR技術(shù)和語音技術(shù)，為用戶滿足各種碎片化的翻譯需求，舉幾個(gè)例子：當(dāng)你在國外游覽時(shí)，只需將手機(jī)屏幕對準(zhǔn)外文介紹，OCR翻譯即可呈現(xiàn)翻譯結(jié)果;面對天書一般的外文菜單，百度翻譯可以迅捷地將菜單翻譯結(jié)果顯示在手機(jī)上，從此不必再在點(diǎn)餐時(shí)聽天由命;在國外買買買時(shí)，它也能讓你快速讀懂說明書;另外，當(dāng)遇到不認(rèn)識的實(shí)物，實(shí)物翻譯可以用中英雙語告知其名，同時(shí)伴隨著準(zhǔn)確的發(fā)音;而結(jié)合語音技術(shù)的會話翻譯，能幫助用戶與外國人無障礙交流——我甚至還看到過這樣的新聞：靖江市民警在語言不通的情況下，用百度翻譯成功救助4名俄羅斯籍船員……

技術(shù)的福祉正在惠及每一位擔(dān)心語言關(guān)的人，而另一端，一部分人對技術(shù)的憂慮也在所難免。“未來若干年，我們很容易想象語言障礙會完全被打破，現(xiàn)在做同聲翻譯的人可能將來就沒有工作了。”上個(gè)月的烏鎮(zhèn)互聯(lián)網(wǎng)大會，李彥宏為人們勾勒了未來的場景。

機(jī)器雖然突破了固有翻譯原則的局限，但必須承認(rèn)的是，機(jī)器翻譯和真正意義上的“語言學(xué)”還關(guān)系不大，距離文人向往的“信雅達(dá)”目標(biāo)還很遙遠(yuǎn)，這也意味著，機(jī)器翻譯任重道遠(yuǎn)，人工翻譯可稍安勿躁。

究其原因，在基于端到端的翻譯手法中，神經(jīng)網(wǎng)絡(luò)無法理解自己翻譯出的句子，無法對譯文給出一個(gè)合理解釋——這正是它與專業(yè)人工翻譯最本質(zhì)的差別。譬如，遵循上文提及的從后向前(從易到難)的理論路徑，讓機(jī)器理解基于“段落”甚至“篇章”的翻譯自然再好不過，這要求機(jī)器在上下文理解和連貫性上飛躍一大步。

那么問題是：它會實(shí)現(xiàn)么?作為技術(shù)樂觀主義者，我個(gè)人答案當(dāng)然是會，一切或許只是時(shí)間問題。

在昔日古老的歲月，人類誕生語言的原始目的，一方面是增進(jìn)本族人的內(nèi)部溝通，另一方面是制造與外族的天然隔閡。而若你相信技術(shù)的發(fā)展內(nèi)嵌在全球化的偉大浪潮中，通過技術(shù)終結(jié)千萬年來人類語言互不相通的歷史就值得期許。畢竟，讓人們聽懂彼此，這是一個(gè)太過古老的夙愿。

李北辰/文(知名科技自媒體，致力于用文字優(yōu)雅的文章，為您提供談資與見識;微信公號：李北辰)

申請創(chuàng)業(yè)報(bào)道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！

當(dāng)前位置：首頁 > 科技 > 互聯(lián)網(wǎng) > 正文

神經(jīng)網(wǎng)絡(luò)革命能否讓機(jī)器翻譯打破人類語言壁壘？

相關(guān)文章

文思海輝智能多語言服務(wù)平臺亮相2020南通新一代信息技術(shù)博覽會

竇靖童談網(wǎng)絡(luò)暴力：語言是危險(xiǎn)的

多語言網(wǎng)絡(luò)營銷的5大技巧

搞網(wǎng)絡(luò)的人應(yīng)該注意的語言技巧

更理性更深入的理解計(jì)算機(jī)網(wǎng)絡(luò)語言的發(fā)展

熱門排行

信息推薦

熱門標(biāo)簽