隨著NMT(神經(jīng)機(jī)器翻譯)正在成為新標(biāo)準(zhǔn),量化新技術(shù)的質(zhì)量收益越來越成為一項(xiàng)挑戰(zhàn)。在最近提交給arXiv.org的一篇論文中,ADAPT數(shù)字內(nèi)容技術(shù)中心副主任Andy Way教授解釋了機(jī)器翻譯(MT)的質(zhì)量預(yù)期。Way并沒有進(jìn)行大量的技術(shù)研究,而是討論了MT的質(zhì)量評(píng)估,以及這是NMT作為主要的行業(yè)變革者繼續(xù)發(fā)展時(shí)要解決的重要問題。
“公司經(jīng)常忽略技術(shù)中心實(shí)際上具有破壞性:它不僅影響技術(shù)培訓(xùn)的員工,還影響項(xiàng)目經(jīng)理,銷售和營(yíng)銷人員,培訓(xùn)團(tuán)隊(duì),財(cái)務(wù)人員,當(dāng)然還有后期編輯和質(zhì)量評(píng)審員,“Way在他的論文中說。“如果要在充分了解預(yù)期投資回報(bào)的情況下做出正確的決定,所有這些都應(yīng)該事先采納,但在實(shí)踐中很少。”
“公司經(jīng)常忽視技術(shù)MT實(shí)際上具有破壞性” - ADAPT數(shù)字內(nèi)容技術(shù)中心副主任Andy Way教授對(duì)于NMT,其中一個(gè)主要問題是雙語(yǔ)評(píng)估低級(jí)研究(BLEU),這是大多數(shù)研究中使用的長(zhǎng)期自動(dòng)評(píng)估指標(biāo)。
BLEU的限制
BLEU由于流行而成為事實(shí)上的自動(dòng)評(píng)估系統(tǒng):在MT研究中顯示獲益的最簡(jiǎn)單方法是使用先前使用的相同評(píng)分。然而,對(duì)于NMT而言,相對(duì)于前代MT的改進(jìn) - 更不用說設(shè)計(jì)上的差異(即NMT通常運(yùn)行在字符級(jí)編碼器 - 解碼器系統(tǒng)上) - 使BLEU更不適合量化輸出質(zhì)量。除了BLEU將MT輸出與單個(gè)參考人類翻譯進(jìn)行比較的問題之外,Way更具體地通過樣本參考翻譯和樣本MT輸出來說明BLEU的局限性。
參考翻譯是:"The President frequently makes his vacation in Crawford Texas.“
MT輸出是:
1、George Bush often takes a holiday in Crawford Texas
2、holiday often Bush a takes George in Crawford Texas
3、George rhododendron often takes a holiday in Crawford Texas
注意1和2和3得到相同的BLEU分?jǐn)?shù),這是由于BLEU計(jì)算分?jǐn)?shù)的固有限制。
他提出解決MT產(chǎn)量的最佳方法是考慮兩個(gè)因素:
1、適合翻譯的目的
2、內(nèi)容的易腐性。
用他自己的話說:“如何使用翻譯,以及我們需要多長(zhǎng)時(shí)間查閱翻譯?”
對(duì)NMT質(zhì)量度量的需求
Way繼續(xù)在他的論文中解釋說,“基于n-gram的度量標(biāo)準(zhǔn)如BLEU不足以真正證明NMT對(duì)[基于短語(yǔ),統(tǒng)計(jì)和混合] MT的好處”。
他解釋說,現(xiàn)有關(guān)于NMT與前代技術(shù)相比的收獲的研究表明,各個(gè)領(lǐng)域都有顯著的改進(jìn),但總體而言,BLEU總分的增加只能達(dá)到2 BLEU點(diǎn)左右。另外,在人機(jī)交互方面,Way說MT和翻譯記憶(TM)模糊匹配已經(jīng)是人類翻譯工具中常見的工具,因此它“迫使MT開發(fā)人員開始用他們的MT系統(tǒng)輸出翻譯伴隨著對(duì)翻譯人員有意義的質(zhì)量評(píng)估。“在這方面,“雖然BLEU成績(jī)無疑對(duì)MT開發(fā)者有用,但輸出BLEU成績(jī)(例如)0.435的目標(biāo)句對(duì)翻譯來說毫無意義。”
此外,這影響定價(jià)和支付。Way在他的論文中寫道:“根據(jù)TM系統(tǒng)為每個(gè)輸入字符串所建議的模糊匹配級(jí)別,翻譯者習(xí)慣于支付不同的費(fèi)率。在NMT驅(qū)動(dòng)的行業(yè)中尋找量化質(zhì)量的方法Way指出,由于許多NMT引擎都是角色級(jí)別的系統(tǒng),因此在角色級(jí)別運(yùn)行的ChrF(由MajaPopovi?在2015年提出)等評(píng)估指標(biāo)更為合適。“Slator作為我們NMT 2018年報(bào)告的主題專家接觸了柏林DFKI - 語(yǔ)言技術(shù)實(shí)驗(yàn)室的研究員Popovi? 。當(dāng)被問及BLEU時(shí),她說:“BLEU達(dá)到了任何翻譯的極限,不僅NMT。”
Popovi?對(duì)基于角色的評(píng)分進(jìn)行了信任投票,例如BEER,chrF和character等,因?yàn)樗麄冇袧摿M(jìn)行MT評(píng)估。“她還告訴Slator她期待將語(yǔ)言信息納入NMT系統(tǒng),“因?yàn)槲蚁嘈耪Z(yǔ)言知識(shí)很重要。”該領(lǐng)域的其他專家提供了他們對(duì)NMT質(zhì)量評(píng)估的展望,包括Yannis Evangelou,語(yǔ)言質(zhì)量保證公司LexiQA的創(chuàng)始人兼首席執(zhí)行官,他說明了NMT分為三個(gè)階段的過程:翻譯前,機(jī)器翻譯和后期編輯。
Slator報(bào)告中的其他受訪者,如Systran首席技術(shù)官Jean Sellenart,SDL機(jī)器學(xué)習(xí)解決方案副總裁Mihail Vlad,甚至紐約大學(xué)的NMT研究先驅(qū)Kyunghyun Cho也同意Way在他的論文中關(guān)于MT輸出質(zhì)量的衡量標(biāo)準(zhǔn)正在使用的場(chǎng)景的上下文。
弗拉德舉了一些例子:
1、翻譯員的質(zhì)量可以通過提高翻譯效率來衡量。
2、多語(yǔ)言電子發(fā)現(xiàn)的質(zhì)量是通過識(shí)別正確文件的準(zhǔn)確性來度量的。
3、多語(yǔ)言文本分析的質(zhì)量通過分析師識(shí)別相關(guān)信息的有效性來衡量。
4、多語(yǔ)言聊天的質(zhì)量由最終用戶的反饋評(píng)價(jià)來衡量。
Booking.com的研究員Pavel Levin認(rèn)為,在不久的將來,NMT質(zhì)量保證的標(biāo)準(zhǔn)化可能與需求一樣分散:“我們將看到從業(yè)者推出他們自己的與他們問題更相關(guān)的指標(biāo)(例如指標(biāo)與處理特定命名實(shí)體相關(guān),來自定制QA系統(tǒng)的分?jǐn)?shù),可能基于機(jī)器學(xué)習(xí)等),并將其中幾個(gè)組合使用。“Way在他的論文中寫道:“如果NMT確實(shí)成為最新的最新技術(shù),現(xiàn)場(chǎng)預(yù)計(jì),人們可以預(yù)見,更加精確地對(duì)這種范式進(jìn)行調(diào)整的更多新的評(píng)估指標(biāo)將會(huì)更快出現(xiàn),而不是更晚。