未來科技一定能更好且淘汰,本質上就是很愚蠢的循環論證。
簡單說,人類翻譯會面臨的問題,不代表模型就能解決。
那麼我們就舉一個成語例子:
Jemandem einen Bären aufbinden.
你直接問模型的話,例如,翻譯為繁體中文:Jemandem einen Bären aufbinden.
你會得到一個:「對某人胡說八道」 或 「騙人/編故事騙人」的翻譯。
那正確性呢?事實上除非你懂德文,你不會知道這個翻譯到底省略了什麼。
所以你也只能接受這種翻譯結果,那麼我們來看其他的語言翻譯:
ok,那麼這次我們用德文翻譯為英文看看:
To pull someone's leg.
嗯,拉某人的腿,意思是扯後腿嗎?
(其實是開玩笑,它保留了開玩笑的語境)
那你就會陷入很常見的翻譯陷阱:語義偏離。(Semantic Bleaching)
不過要理解這點,我要先公布答案。
Jemandem einen Bären aufbinden 這句話直接翻譯是:給某人綁上一隻熊。
所以這句俚語的語境是:我把某人綁在一隻熊上了。
但常理而言,這聽起來就是很荒誕的騙人玩笑,所以德翻中實際上是捨棄了
讓你想像笑點的「我要把你綁在熊上」的玩笑畫面,直接告訴你意義。
而且每次生成的意思,受制於大語言模型本身的特性,它會有一定的隨機性。
所以你會看到英文比較偏向害人扯後腿的解讀。
然後如果是像網飛那樣,只是便宜行事來節省成本,先統一把原文翻譯為英文。
才從英文翻譯為其他語言,那語意捨棄與偏移的程度就會更大,最後只剩下開玩笑。
理論上來說,最好是全部針對原文客製化的翻譯。
但實際上會面臨資料集的不平均,也就是英語系資料偏多,因為它通常是常用語。
所以在多語言的大語言模型中,你躲不掉會以英文為向量座標原點翻譯的偏移。
同樣的狀況你其實應該很常見了,就像模型回答經常會回答"質量"而非"品質"
這種基於中國用語資料為居多,而造成原因又大多是資料集免不了直接幹別人文章
再用簡繁轉換的內容農場,資料早就被中國用語汙染了。
所以回答偶而會有這種看起來很不悅的語意偏移。
以英為尊來作為翻譯的座標之力的模型,就會造成更顯著的負面效果。
的確你不能說他錯,翻譯的輪廓還在,但裡面的語境,也就是玩笑的笑點消失了。
「那只是現在未來技術一定能解決阿」
首先你要理解一個事實,你現在看到的語言翻譯,模型的運作原理用猴子都能懂得解釋
就是把它變成一種向量座標,然後單純的翻轉(Mapping)找最接近的目標語言。
你可以想像把概念對折試圖找到最接近的點。
但問題是,不同語言不見得能完美對齊,必定會有因為不同文化/時空語境下的差異。
所以模型實際上只能妥協,捨棄了綁你綁在熊上的玩笑,而直接告訴你胡扯。
而與其在微弱的「德-中」直接路徑上冒險,因為樣本稀疏對折找不太到。
不如先跳到眾多的「德-英」空間,先對折一次,再對折成「英-中」
這就會導致模型翻譯結果不可避免地帶有「英文偏移濾鏡」。
原本翻譯的譯者是可以自己的語言專業,在潤飾校稿,來拉回有語境的翻譯。
但如果你都把人類砍了,那這基本上無解,你等於是自己把人工校正的途徑砍了。
我認為作品有濃厚的歷史背景,有時空和語言差異下,原本還可以靠人工校正,
但因為省錢砍掉的話,那可見的未來就不是翻譯更好,反而是可預期翻譯網飛化。
推文討論 94