激情九九,六月婷婷七月丁香,天天五月天丁香婷婷深爱综合,国产色一区,国产一区二区三区免费在线观看,91最新网站

如何解決神經機器翻譯三大關鍵性問題?清華團隊發表NMT最新技術綜述

來源:智匯工業

點擊:12822

A+ A-

所屬頻道:新聞中心

關鍵詞:神經機器 翻譯


    如今,計算機技術滲透人們生活的方方面面,而要說對我們工作學習幫助極大的,機器翻譯(machine translation)必須榜上有名。


    近年來隨著計算機技術的不斷提高、AI 系統的日益精進,機器翻譯一直為人們所質疑的質量問題,也有了非常顯著的改善。其中,神經機器翻譯(neural machine translation)技術所作的貢獻與創新也是一大研究熱點。


    近日,清華大學計算機系與智能產業研究院的機器翻譯研究團隊發表了一篇關于神經機器翻譯技術的最新綜述論文,文章 對神經機器翻譯方法進行回顧,并重點介紹與體系結構、解碼和數據增強有關的方法,總結了對研究人員有用的資源和工具。最后,還討論了該領域未來可能的研究方向。 清華大學計算機系教授、歐洲科學院外籍院士 孫茂松 與清華智能產業研究院副院長、國家杰青 劉洋 是該論文的兩位教師作者。


    神經機器翻譯技術的發展


    在 70 年的發展歷程里,機器翻譯經歷了從興起到高峰,從低迷到打開新研究思路的種種變化。


    早在 1949 年,美國科學家 Warren Weaver 就首次提出 “使用計算機進行翻譯” 的思想,他也被公認為是機器翻譯的先驅者之一。1952 年,以色列著名哲學家、語言學家和數學家 Yehoshua Bar-Hillel 組織召開了第一次機器翻譯大會。


    此后,由于機器翻譯質量難以達到要求,其發展在長達 30 年間始終緩慢,直到 1990 年之后,大量的雙語、多語語料庫給機器翻譯注入新鮮血液,統計機器翻譯(SMT)應運而生。這期間 IBM 研究人員也發表論文,詳細論述了基于詞典和轉換規則的機器翻譯方法和基于平行語料庫的實例機器翻譯方法。


    近些年,基于深度學習的神經機器翻譯技術(neural machine translation,簡稱 NMT)發展迅猛。深度學習由圖靈獎得主 Geoffrey Hinton 等人在 2006 年提出,是一種深層的非線性數據處理技術,與傳統的淺層次線性處理相比,它在處理模型分析和分類問題上更準確,性能更高。


    NMT 與以前的機器翻譯方法完全不同,一方面,NMT 在 SMT 中采用連續表示而不是離散符號表示;另一方面,NMT 使用單個大型神經網絡對整個翻譯過程進行建模,從而無需進行過多的特征工程。而且,NMT 的訓練是端到端的(end-to-end),不像 SMT 中需要單獨調整組件。除了簡單之外,NMT 可適應多種語言之間的翻譯,實現最先進的性能。


    如何解決三大關鍵性問題?


    綜述中,論文作者首先闡釋了 NMT 系統的三個關鍵性問題:


    建模(modeling),即如何設計神經網絡來對條件分布建模?


    推理(inference),即給定源輸入,如何從 NMT 模型生成翻譯句子?


    學習(learning),即如何有效地從數據中學習 NMT 所需的參數?


    關于建模,NMT 通常采用編碼器 - 解碼器框架,由嵌入層 embedding,分類層 classifier,編碼器網絡 encoder 和解碼器網絡 decoder 組成。


    因此,構建強大的編碼器和解碼器對 NMT 性能來說至關重要,其方法大致可分為三類:基于遞歸神經網絡(RNN),基于卷積神經網絡(CNN)和基于自注意力網絡(SAN)的方法。文章不僅詳細闡釋了三種方法的機制,還對比了其優點與缺陷,并提出相應的解決辦法。例如 RNN 容易出現梯度消失 / 爆炸問題,CNN 接收領域有限較難擴張,SAN 則容易忽略序列中單詞的順序。


    關于推理,NMT 通常使用本地搜索算法(例如貪婪搜索或集束搜索)來找到最佳翻譯結果。此外,NMT 通常使用最大對數似然(MLE)作為訓練目標函數,這是一種估算概率分布參數的常用方法。


    除了 NMT 的計算機原理與構建機制,文中還綜述了不同的 NMT 研究方法與應用,例如有關使用單語言數據和無監督 NMT 的研究,以及有關提升 NMT 可解釋性和魯棒性的研究。


    未來可能的研究方向


    盡管 NMT 取得了巨大的成功,但仍有許多問題有待探索,因此,文章列出了 NMT 的一些重要且具有挑戰性的問題。


    第一,加深對 NMT 的了解。盡管如今已經有很多嘗試,試圖分析和解釋 NMT,但顯然,NMT 領域還有許多未 “解鎖” 之處。未來,要想窺破 NMT 技術的瓶頸和弱點,弄清 NMT 究竟如何產生其翻譯結果顯得格外重要。


    第二,設計更好的 NMT 模型。目前常見的是 Transformer 體系結構,設計一種比它更加優越、能夠平衡翻譯性能和計算復雜性的新體系結構,對于 NMT 研究和生產意義重大。


    第三,充分利用單語言數據。盡管如今單語言數據取得了顯著進步,但 NMT 在利用豐富的單語言數據方面,仍有巨大的上升空間。


    第四,對先前的知識進行整合。除了自然語言,將人類其他知識納入 NMT 也是一個重要的問題。如何實現離散表示和連續表示之間的互相轉換一直是 NMT 面臨的問題,仍需進一步探討。

    (審核編輯: monkey)

    聲明:除特別說明之外,新聞內容及圖片均來自網絡及各大主流媒體。版權歸原作者所有。如認為內容侵權,請聯系我們刪除。

    主站蜘蛛池模板: 婷婷六月久久综合丁香可观看 | 国产成人毛片精品不卡在线 | 久青草免费视频 | 狠狠五月婷婷 | 色婷婷婷丁香亚洲综合不卡 | 国产a级毛片 | 久久99这里只有精品 | 国产午夜精品久久久久免费视小说 | 国产视频入口 | 精品亚洲福利一区二区 | 欧美久久影院 | 久久国产精品99国产精 | 99re在线精品视频 | 暖暖喜欢你电视剧免费观看完整版高清 | 国产色综合久久无码有码 | 激情综合在线 | 精品理论片 | 99热国产这里只有精品免费 | 九九久久久 | 国产永久在线观看 | 91国偷自产一区二区三区蜜臀 | 免费看羞羞动漫视频网站 | 99精品国产成人一区二区在线 | 狠狠综合久久久久综 | 毛片一级免费 | 国产精品一二三区 | 欧美日韩国产人成在线观看 | 99精品视频免费 | 精品视频免费看 | 97在线免费观看视频 | 免费视频99 | 青草青在线 | 婷婷综合激情五月中文字幕 | 久久国产成人精品国产成人亚洲 | 精品樱空桃一区二区三区 | 国产精品视频免费视频 | 日本在线国产 | 欧美日韩高清一区 | 欧美自拍偷拍 | 久久天天躁狠狠躁夜夜 | 欧美性生活视频免费播放网址大全观看 |