一年半前,谷歌首先宣稱(chēng)其新的神經(jīng)機(jī)器翻譯(NMT)系統(tǒng)可以產(chǎn)生與人類(lèi)輸出“幾乎不可區(qū)分”的翻譯。
但是,盡管谷歌的“幾乎不可區(qū)分”主張深深地埋在了論文的技術(shù)討論的第18頁(yè),并且經(jīng)過(guò)了小心避免,但微軟在一篇新的研究論文的標(biāo)題中發(fā)表了槍聲,說(shuō)他們?cè)谥形暮陀⑽姆g之間實(shí)現(xiàn)了“人對(duì)等” 。
根據(jù)微軟于2018年3月14日發(fā)表的題為“在漢語(yǔ)自動(dòng)翻譯中實(shí)現(xiàn)自動(dòng)翻譯”的研究論文,他們開(kāi)發(fā)的新型NMT系統(tǒng)的一些變體已經(jīng)實(shí)現(xiàn)了“人類(lèi)平等”,即它們被認(rèn)為是平等的人文翻譯質(zhì)量“(本文將人的素質(zhì)定義為”WMT 2017中文到英文新聞任務(wù)的專(zhuān)業(yè)人類(lèi)翻譯“)。
在24小時(shí)之內(nèi),TechCrunch,GeekWire,TechRadar和ZDNet等主流技術(shù)網(wǎng)點(diǎn)發(fā)布了這個(gè)故事,可預(yù)見(jiàn)地將人權(quán)平價(jià)理賠視為面值。
微軟提出了一個(gè)新的人類(lèi)評(píng)估系統(tǒng)來(lái)得出這個(gè)方便的結(jié)論,但首先他們必須確保“人類(lèi)平等”不那么模糊和更明確。
因此,微軟在其研究中對(duì)人類(lèi)平等的定義是:“如果雙語(yǔ)人類(lèi)對(duì)人類(lèi)生產(chǎn)的候選翻譯的質(zhì)量進(jìn)行判斷,使其與由機(jī)器產(chǎn)生的翻譯質(zhì)量相當(dāng),那么該機(jī)器就實(shí)現(xiàn)了人類(lèi)的平等。”
在數(shù)學(xué)上,可測(cè)試的術(shù)語(yǔ)中,如果機(jī)器翻譯系統(tǒng)的候選翻譯測(cè)試集的人類(lèi)質(zhì)量得分與相應(yīng)的人類(lèi)翻譯的得分之間沒(méi)有統(tǒng)計(jì)學(xué)顯著差異,則實(shí)現(xiàn)人類(lèi)奇偶性。“
新的人類(lèi)評(píng)估方法
該研究團(tuán)隊(duì)使用2017年機(jī)器翻譯會(huì)議測(cè)試集來(lái)獲取新聞(WMT2017 newstest)數(shù)據(jù),用于培訓(xùn)和測(cè)試其新的NMT系統(tǒng)變體。
微軟團(tuán)隊(duì)使用了雙語(yǔ)人工評(píng)估器,并向他們提供了源自WMT2017新聞測(cè)試集的源文本和翻譯輸出,并要求他們對(duì)0到100的翻譯進(jìn)行評(píng)分.WMT2017會(huì)議中的頂級(jí)執(zhí)行引擎是搜狗公司的搜狗知識(shí)NMT系統(tǒng)。研究人員還讓他們的評(píng)估員評(píng)估了搜狗Knowing NMT的輸出。
他們向評(píng)估人員展示了九個(gè)系統(tǒng)的輸出結(jié)果。根據(jù)研究報(bào)告,每個(gè)系統(tǒng)大約有2000個(gè)評(píng)估(每個(gè)系統(tǒng)至少有1,827個(gè)評(píng)估)。
根據(jù)微軟的人力評(píng)估人員,從最好到最差的排名:
微軟新的NMT引擎變體(Combo-6)
參考用于此研究的人工翻譯
微軟新的NMT引擎變體(Combo-5)
微軟新的NMT引擎變體(組合-4)
WMT2017的參考翻譯是后編輯的機(jī)器翻譯
搜狗了解NMT
WMT2017在會(huì)議中使用的參考人類(lèi)翻譯
微軟現(xiàn)有的生產(chǎn)型NMT系統(tǒng)
谷歌現(xiàn)有的生產(chǎn)NMT系統(tǒng)
根據(jù)微軟研究人員的說(shuō)法,前四項(xiàng)是分組在一起的,并且彼此保持一致,即他們的分?jǐn)?shù)非常接近,彼此之間沒(méi)有區(qū)別。
微軟與搜狗
奇怪的是,微軟的研究報(bào)告還顯示,使用這種新的評(píng)估方法,搜狗Knowing NMT的得分非常接近WMT2017參考人類(lèi)翻譯的得分,因此他們被認(rèn)為難以區(qū)分。
看起來(lái)微軟還無(wú)意中使用了他們的新評(píng)估方法,即搜狗至少與WMT2017參考人工翻譯相比達(dá)到了人類(lèi)平等。
同時(shí),微軟和谷歌現(xiàn)有的生產(chǎn)型NMT系統(tǒng)得分最低。
請(qǐng)親自看看:微軟最高得分的NMT系統(tǒng)變體的英文輸出取自他們的開(kāi)源Github鏈接。從內(nèi)容看,平均句子長(zhǎng)度并不長(zhǎng),也不是非常復(fù)雜。
他們還使用雙語(yǔ)評(píng)估研究(BLEU)來(lái)衡量以前工作中的任何收益,這些收益也使用BLEU積分進(jìn)行評(píng)分,包括WMT2017對(duì)參與NMT引擎的排名。
據(jù)報(bào)道,微軟的NMT模型設(shè)置(包括基線在內(nèi)的12項(xiàng)中的10項(xiàng))大部分都是Sogou Knowing NMT的26.40 BLEU分?jǐn)?shù)。微軟的表現(xiàn)最佳的NMT變體以27.40分的優(yōu)勢(shì)擊敗了最先進(jìn)的1個(gè)BLEU,全部使用了與WMT2017相同的訓(xùn)練數(shù)據(jù)。
發(fā)光的新技術(shù)和培訓(xùn)方法
研究小組為他們的實(shí)驗(yàn)開(kāi)發(fā)了新的NMT引擎。他們嘗試了遞歸神經(jīng)網(wǎng)絡(luò),卷積網(wǎng)絡(luò)和變壓器,并且最終因?yàn)檩敵龈枚褂昧俗儔浩饕妗?/p>
接下來(lái),他們還升級(jí)了培訓(xùn)方案。
他們采用了最近稱(chēng)為雙重學(xué)習(xí)的技術(shù),使他們的模型能夠從雙語(yǔ)培訓(xùn)數(shù)據(jù)的源到目標(biāo)和目標(biāo)到源的方向?qū)W習(xí)。他們還使用了Deliberation Networks,它使用另一個(gè)解碼器層來(lái)“拋光”NMT系統(tǒng)中第一個(gè)解碼器的翻譯 - 就像編輯器打磨作者的草稿。此外,他們還采用聯(lián)合培訓(xùn)和協(xié)議正規(guī)化。
他們基本上混合并匹配所有這些方法,以迭代方式改進(jìn)跨同一NMT系統(tǒng)的多個(gè)變體的翻譯輸出。
微軟團(tuán)隊(duì)還過(guò)濾了WMT2017的訓(xùn)練數(shù)據(jù)。清理和過(guò)濾培訓(xùn)數(shù)據(jù)后,乳清中剩下1800萬(wàn)雙雙語(yǔ)句子和700萬(wàn)中英文單語(yǔ)句子。
未來(lái)的工作
微軟就這個(gè)新的研究開(kāi)源做了一切,引用外部驗(yàn)證和未來(lái)研究為理由。
至于何時(shí),微軟計(jì)劃將其新系統(tǒng)轉(zhuǎn)化為生產(chǎn),公司發(fā)言人告訴ZDNet:“我們正在努力盡快將其投入生產(chǎn),但目前我們沒(méi)有任何聲明。”