全世界只有 20% 的使用者以英文為主要語言,網路上卻有 50% 以上的內容以英文產出,因此很多時候我們在使用網路或日常生活中經常以 Google翻譯 為常駐工具,看到不同的語言時也會很自然地說「找 Google翻譯」,而這次的 Google 機器學習座談會正是來談談關於神經網絡與 Google翻譯 之間如何相輔相成。
未來, Google翻譯 將會更聰明、更人性
就如同前面提到,以英文為母語人口比例和網路產出內容比例不成正比,所以 Google翻譯 的服務中每天進行超過 10 億次翻譯,每個月有超過 10 億個活躍用戶,更有高達 92% 的流量來自美國以外的地區與國家。
為了能夠更便利地提供多方位的翻譯服務,Google 翻譯整合了其他包含 Chrome、Google搜尋、Gmail 與 YouTube ,使用者只要在 Google 搜尋列輸入或用語音輸入想要翻譯的內容即可進行語言翻譯,目前台灣更是 Android 版本 Google翻譯 成長最快的市場。
雖然 Google翻譯 已經為我們提供這麼多服務,但在翻譯結果上總是與實際有差異,有時還會出現語焉不詳的詭異文字,未來 Google翻譯 將導入神經機器翻譯技術(NMT),藉由系統端對端機器學習系統持續優化精進,以帶給使用者更自然、精準的翻譯結果。
在神經機器翻譯系統中,一甩過去片段式翻譯的作業,藉由具備多層「神經元(neurons)」的「深度神經網絡(deep neural network)」一次針對整個句子做翻譯,讓系統學習識別句子中的模式和結構,最後翻譯出的語法會更貼近日常對話內容更順暢且更易於閱讀。
▲在過去,Google翻譯 是以單字或片段詞語來進行
▲ 片語式機器翻譯就像拼圖,以現有存在的片段進行組合,而神經機器翻譯則像繪圖,以全局且前後連貫地針對整個句子進行組合。
神經機器翻譯的教育並非一朝一夕可以完成,也非與生俱來的能力,必須經過多種模型反覆不斷地訓練間才能累進經驗進而成長。
▲目前大家已經能夠實際體驗的神經機器翻譯系統應用包含 Google翻譯應用程式中的即時鏡頭翻譯功能。
目前已有 41 組語言組合導入神經機器翻譯系統,包含英 / 中、英 / 泰、英 / 韓 、英 / 俄羅斯、英 / 印、英 / 法、英 / 德、英 / 西、英 / 葡、英 / 土耳其、英 / 越 之間的互譯,未來還將陸續增加更多語言組合,神經機器翻譯技術預計將在三年內正式推出。