不聰明的Siri,代表了人工智能的真實水平
2020年10月20日14:15

原標題:不聰明的Siri,代表了人工智能的真實水平

從手機里的Siri,到家用的“小愛同學”,再到眾所周知打敗了李世石的“阿爾法狗”,人工智能已經全方位介入了我們的生活。這導致很多人都相信它們足夠聰明,能聽懂提問,並在思考後給出答案,甚至在不久的將來,取代人類所有工作——事實上,這並不完全對。

日本理學博士、“機器人考東大”研究項目負責人新井紀子認為:計算機能做的基本只有四則運算,人工智能使用的則是加法和乘法;它們並不理解語言的含義,只不過是做出看似理解了的樣子罷了。因此,從完全不考慮詞義的機器翻譯的現狀來看,它恐怕永遠也無法取代人工翻譯,更不用說期待它們獨立寫出偉大的小說、譜出媲美巴赫作品的曲了……

人工智能只會加法、乘法,並不理解語言的含義

智能手機的普及把人工智能帶到了我們每個人的日常生活當中。走在街上,到處都能看到人們在用智能手機查詢哪有好吃的拉麵店或者應該在哪裡換車。

無論我身在何處,用智能手機查詢當前位置到公司所在的神保町的路線,都能立即得到答案。朋友送來了高級鬆茸,我也可以馬上用智能手機查到烹調方法。因此,很多人認為智能手機,也就是人工智能,能聽懂我們提出的問題,並在思考之後告訴我們答案。

但其實人工智能並不理解語言的含義。它只不過是根據我們輸入的信息,通過計算輸出答案而已。可能有很多人被人工智能的迅猛發展衝昏了頭腦,忘了“computer”就是計算機,而計算機能做的基本上就只有四則運算。人工智能無法理解含義,只不過是做出看似理解了的樣子罷了。而且它所使用的只有加法和乘法。

既然人工智能是計算機,這就意味著所有無法計算的問題,或者說無法轉換成加法和乘法的問題,它基本上都不能處理。因此,人工智能研究者才會每天絞盡腦汁地思考如何用算式來表示圖像處理的方法、回答提問的方法或者將英語翻譯成日語的方法。

語音對話系統Siri,其實並沒有多聰明

計算機無法理解語言的含義,這是實現真正意義上的人工智能的最大障礙。

當然,人們並不會就此罷休。人工智能研究人員一直在不懈努力,讓人工智能即使不理解含義,也儘量表現得像理解了一樣。Siri 等語音對話系統就是這些努力的成果之一。

那麼,Siri 到底有多聰明呢?

例如,您可以嚐試問它“這附近有好吃的意式餐廳嗎?”Siri 會通過GPS識別出位置信息,然後為我們推薦附近的“好吃的”意式餐廳。但問題的關鍵不在這裏。接下來,您再試著提問“這附近有難吃的意式餐廳嗎?”它還是會推薦類似的餐廳,而不是按照差評由多到少的順序來顯示結果。Siri不知道“好吃”和“難吃”的區別。接下來,您再問它“附近有意大利菜以外的餐廳嗎?”結果還是這些餐廳。也就是說,Siri 並不明白“以外”的含義。

為了避免誤解,我要聲明我並不是想破壞 Siri 的名譽。東大機器人也分不清冷和熱的區別。正如各位讀者發現的,在剛才的對話中,Siri 並沒有錯,錯的是我們不應該問它“意大利菜以外”這種複雜的問題。聰明的用戶只要說“日餐”或者“中餐”,而不是說“意大利菜以外”就可以了。只要方法 得當,Siri完全可以發揮出十二分的能力。至少我們不用像以前一樣去買美食雜誌或者當地信息,也不用站在書店翻看查找這些信息了。

日本共有172所國立和公立大學,以及584所私立大學,新井紀子團隊研發的“東大機器人”,通過模擬考分數檢測,顯示它有80%的概率可以考上其中23所國立和公立大學30個院系的53個專業,以及其中512所私立大學1343個院系的2993個專業。

不過另一方面,我也想告訴大家Siri的真實能力。這樣大家就可以知道,為什麼“將來人工智能會取代人類所有工作”或者“不遠的將來奇點就會到來”等武斷的預測和期待都是不切實際的了。

10-20年後將不複存在的職業前25名(數據來源:鬆尾豐《人工智能狂潮》)

Siri是一種問答系統,使用了語音識別技術和信息檢索技術。導致前面提到的問題的是信息檢索技術。後文還會詳細介紹,目前的信息檢索和自然語言處理基本上都放棄了依靠邏輯進行處理的方法,轉為嚐試通過統計和概率的方法讓人工智能來學習語言。也就是說,即使不明白某句話的含義,也可以根據這句話中出現的詞語及其組合進行統計推測,得出看似正確的回答。而且,統計所依據的數據會在人們每天與Siri對話的過程中越積越多,運用這些數據反複自動進行機器學習,Siri便能不斷提高精度。不過它的精度永遠達不到100%,因為概率和統計原本就做不到這一點。

Siri之所以會對“好吃的意式餐廳”和“難吃的意式餐廳”做出同樣的回答,是因為很少有人會查詢“難吃的意式餐廳”,因此“難吃的”這個詞的重要性便被低估了。而Siri不明白“以外”的含義,則是因為它在本質上無法應用邏輯。在依靠統計構建的系統中不倫不類地插入一知半解的邏輯,反而會導致精度下降。

不過在我這本書出版一段時間之後,您再問Siri“這附近有難吃的意式餐廳嗎”,結果可能會有所不同。因為如果有很多讀者都問Siri“難吃的意式餐廳”“難吃的拉麵店”等,Siri可能就能區分出“好吃”和“難吃”了。或者說,還有一種更大的可能,就是“內部人士”讀了這本書之後立刻廢寢忘食地去拚命調整了參數。“內部人士”是指Siri開發團隊的人。如果有人對Siri說“和我結婚吧”,它會極為巧妙地回答“我這種人可不會結婚的哦”或者“你是不是對其他產品也說了同樣的話”。這些並不是機器學習的結果,而是“內部人士”手動設置的。

接下來,我要給各位讀者出一道題,題目是還有哪些提問能證明已經變聰明了的Siri其實並不理解問話的含義呢?請大家一定動腦筋想一想。

我要再次重申,我並不是想貶低Siri。我只是想讓大家明白人工智能和自然語言處理以及其背後的數學的局限。除了Siri,Google和沃森也是一樣的。

2017年4月,我受邀參加TED演講時,設計Siri的主要工程師湯姆·克魯伯也在同一個區域。他本來要講 Siri是如何理解語言的,可我在東大機器人的演講中已經不經意地提前透露了人工智能解答世界歷史試題的方法,所以湯姆肯定就不太好講了。他小聲地和我打了一聲招呼,“紀子,你說的是對的,人工智能並不理解語言的含義。”

Siri採用的自然語言處理技術是通過統計和概率方法實現的,機器無法借此理解語言的含義。不過如果人們想找一家好評多的餐廳,查詢明天的天氣等需要盡快獲得一些實用的信息,或者閑來無事想找一個輕鬆的夥伴隨便聊聊天的話,今後一定還會出現更為優秀的人工智能。

人工智能自動寫作、作曲,靠的是隨機過程

除了Siri等語音問答系統之外,自動寫作、畫畫或者作曲等領域的研發也在不斷推進,它們應用的是隨機過程理論。有些研究人員預測,如果自動寫作或自動作曲技術進一步發展,終有一天人工智能寫的小說也能獲得直木獎,譜寫的樂曲為現代音樂開拓出嶄新天地,或者畫出的畫作能與畢加索媲美,但我卻完全無法理解這種想法。人工智能連語言的含義都不懂,更不可能達到這些水準。在說明原因之前,我先簡單地解釋一下隨機過程。

墨水或牛奶滴入水中之後慢慢擴散,吸煙的人吐出的煙圈在空氣中飄浮……這些都是布朗運動。牛奶或煙霧顆粒受到處於熱運動狀態的介質分子的不規則撞擊而隨機地運動和擴散。進入21世紀之後,這種現象成為數學的重要研究對象之一,形成名為隨機過程的研究領域。該領域的研究對像不像Apple從樹上落下來時只有一個結果,而是受到偶然因素影響的運動。

布朗運動實驗:把食用色素滴在水裡,它就會逐漸散開,這是由於色素與水分子不斷髮生碰撞。由於分子碰撞是隨機的,色素就會無規運動產生隨機圖案。

下面來看人工智能是如何作曲或寫作的。像“do”之後的下一個音符是“re”,“さ”之後的下一個假名是“て”a一樣,能確定“下一個”要素是什麼的話,就可以套用某個國家程式或函數,屬於我們在高中學過的二次函數或三角函數的擴展。但如果無法確定“下一個”是什麼,便無法依靠函數,即邏輯繼續下去。

遇到這種情況,工學和經濟學最常用的方法是從數學類書籍中尋找可用的工具,關鍵詞是“下一個”。“下一個”與時間順序密切相關,數學領域在處理“下一個”時,首先想到的是“隨機過程”。

我們可以想像飛行棋的玩法。玩飛行棋要先擲骰子,按照擲出的點數前進相應的步數。接下來再擲骰子,然後重複這個過程。樂曲的展開方式與此相似。首先決定第一個音符,接著決定下一個音符,之後反複重複。不過下一個音符並不像擲骰子一樣完全是隨機的,音符隨機排列在一起也無法形成樂曲。為了譜成樂曲,下一個音符必須遵從某種概率分佈,而不是完全隨機的。

不過任何教科書裡面都沒有寫著“do之後的下一個音符”是遵循何種概率分佈的。那怎麼辦呢?只能觀察。這是17世紀近代科學問世以來的傳統,無論是帕斯卡還是牛頓,都是通過觀察才有了偉大的發現。

人工智能自動作曲首先要聽過去的音樂。不過巴赫和甲殼蟲以及沖繩民謠之間的風格相差太大了,都混在一起的話,最後譜出的曲子可能就是四不像了。不同風格樂曲的概率分佈可能不同,所以必須先收集同一類型的音樂。

因阿爾法狗一炮走紅的英國DeepMind公司曾經讓人工智能學習浪漫派鋼琴曲,應用隨機過程自動作曲。該公司也因為被Google公司以4億美元高價收購而聞名。在他們的主頁上,大家可以聽到神經網絡學習了浪漫派鋼琴曲之後輸出的五種“樂曲”,都是10秒鍾左右。我第一次聽到這些曲子,竟然驚訝地笑出了聲:一聽就是浪漫派的抒情旋律,猶豫不決的漸強和充滿戲劇色彩的強標記……我雖然也只是外行看熱鬧,但畢竟碩士期間也曾經選修過鋼琴課。

英國DeepMind公司的人工智能“阿爾法狗”曾與韓國棋手李世石對戰

其實DeepMind公司沒有讓人工智能學習樂譜,而是直接輸入音樂。也就是說,無論是霍洛維茨、波利尼,還是阿格里奇,都是作為波形輸入計算機的,人工智能只是把所有這些都混在一起,提取出特徵量,然後再按照隨機過程編排出一個波形而已。這也就難怪我聽到的都這麼符合斯坦威鋼琴的特點了。

過去也有過很多使用隨機過程理論自動作曲或者自動寫作的研究。尤其是用具有抑揚頓挫和自然停頓的聲調來朗讀文字的語音合成技術,人們投入了很多力氣。我們現在在日常生活中能接觸到很多,例如交通工具中的廣播通知和在線學習軟件中的讀音等。過去我們聽到這些聲音時,一般都能意識到“哦,這是合成的聲音”,因為音調或停頓等都會帶有一些不太自然的地方。

DeepMind公司採用與創作浪漫派鋼琴曲同樣的方法,為語音合成界帶來了一場革命。這家公司的官網上有一段演示視頻,是自動合成的男聲和女聲朗讀的英語短句。視頻中的發音十分流暢,據說英語母語者仔細聽的話能辨別出來,但像我這樣的日本人則完全分辨不出朗讀者是計算機還是真人。想必會有很多語音合成技術的研究人員在聽到這個演示的瞬間,會痛若地發現自己苦心經營多年的研究課題已經無路可走了吧。

Google翻譯的缺陷,說明機器翻譯永遠無法取代人工翻譯

Apple的“Siri”、Google的“OKGoogle”和NTTdokomo的“shabetteconcier”在語音識別應答技術領域的競爭不相上下,此外在機器翻譯領域,各人工智能相關公司也在激烈角逐。日本有很多人不會講外語,這種夢寐以求的技術已經有很多人在用了。不過機器翻譯雖然能在日常會話或臨時翻譯中派上用場,但在更為正式的電器產品使用說明、合同或學術論文等方面,還遠遠沒有達到實用水平。

儘管如此,與20世紀幾乎完全派不上用處的機器翻譯相比,進入2000年以後,機器翻譯的準確度已經有了顯著改善。不過其實力應該還遠遠不夠,我曾在2014年試過Google翻譯的準確度。

不要在圖書館前面碰面嗎?

Google翻譯採用了基於大數據的統計機器翻譯技術,它翻譯的結果是:

Do not wait in front of the library。(不要在圖書館前面等。)

升學考試中這樣翻譯的話只能得零分。雅虎翻譯在機器翻譯領域也很有名,不過2014年前後各翻譯軟件的準確度都差不太多,估計沒人有勇氣把自己用日語寫的工作郵件用機器翻譯成斯瓦西里語發送出去的。還有一個不太能登大雅之堂的例子,我聽說有個日本人用Google翻譯把“明天哪個航班還有賸餘座位”譯成英語而出糗的。

在2016年11月上旬,我忽然發現Google翻譯日譯英和英譯日的準確度已經有了突飛猛進的提高。當時我和朋友一起寫一篇關於機器翻譯中的錯誤的論文。我想在寫之前再測試一下Google翻譯的實力,結果大吃了一驚。因為這時的翻譯質量與之前已經不可同日而語了。改善最為明顯的不是譯文的準確程度,而是它輸出的英語更像英語了。

微信翻譯“烏龍”

我認為Google團隊一定是全面引進了深度學習技術。為了研究Google翻譯到底怎樣實現如此順暢的日英翻譯,我試著輸了各種各樣的日語句子,結果發現了他們的一個缺陷。

我輸入的日語是:

“請按白、黑、白、黑、黑、黑、白、白、黑、白、白、白、黑的順序按下按鈕。”

在2017年10月30日時點,Google翻譯的結果是:

Press the button in order of white,black,white,black,black,black,white,white,black,white,white,black.(請按白、黑、白、黑、黑、黑、白、白、黑、白、白、黑的順序按下按鈕。)

“白”的個數與原文對不上,我隔了一段時間之後又試了幾次,每次都有些微妙的差別。有時翻譯對了,但下一次就又不對了。我由此得出的結論是,Google翻譯現在採用的方法應該是繼承了2014年之前統計機器翻譯的弱點。該方法可以用下面的圖來表示。

可以看作表示“這句話到此結束”的符號。

下面的內容可能略顯專業,沒有興趣的讀者可以跳過這一段。首先,依次輸入“太郎”“は”“走ってる”,深度學習會根據前一步隱層和已輸入單詞計算下一層,在日語輸入結束之後應用隨機過程依次輸出英語單詞。輸出部分的隱層是根據前一步隱層和已輸出的前一個英語單詞來計算的。

也就是說,它將“太郎は走ってる”整個作為“材料”,依據語言模型輸出應該輸出的單詞,“材料”用完了,翻譯便告結束。但“材料”其實只不過是排在隱層上的最多一千左右個數值序列而已,遇到比較長或者比較複雜的句子,就會變得有些含糊。我和朋友在論文中推測,正是這個原因導致機器翻譯弄錯了按鍵的個數。

Google翻譯“烏龍”

Google翻譯等統計機器翻譯需要大量平行數據才能實現。因為統計機器翻譯既不學習語法和詞彙,也不具備常識,只是根據學習過的平行語料庫和語言模型輸出看上去最準確的詞語序列,因此為了提高準確度,就只能依靠增加數據。

輸入:私は先週、山口と広島に行った(我上週去了山口和廣島)。

輸出:I went to Yamaguchi and Hiroshima last week.

這個翻譯是正確的。不過如果山口其實不是指山口縣,而是一位姓山口的朋友呢?那麼這樣翻譯就不對了。實際上,如果輸入“私は先週、山際と広島に行った”(我上週和山際去了廣島),Google翻譯也會輸出“I went to Yamagiwa and Hiroshima last week”,這就是機械翻譯不理解語言含義所帶來的局限。

翻譯對話的難度還要更高。因為普通語言與對話的性質完全不同。對話中包含很多疑問句和回答,日語又經常會省略主語。在2017年9月17日時點,Google翻譯還是會把比較簡單的句子翻譯錯。

輸入:How many children do you have?

輸出:あなたはどのように多くの子供がありますか?(你是怎樣有多個孩子的?)

類似錯誤有望隨著時間的推移得到改進,但最難翻譯的可能只是最簡單的一句“No”。在90%的情況下,“No”都應該翻譯成“不對”,但在回答否定疑問句時,“No”必須翻譯成“是的”。對現在的機器翻譯來說,這恐怕很難。

對全球化社會來說,機器翻譯是必不可少的工具。例如假設我們在巴黎的酒店打開電視,發現好像發生了恐怖襲擊,但是又聽不懂英語和法語。如果這時能馬上把播音員的話譯成日語,無疑會給我們帶來很大幫助。即使翻譯得不夠順暢,或者語序不對,也都不是問題,即使碎片信息也是難能可貴的。

這一點對於生活在日本卻不會讀寫日語的外國人來說也是一樣的。各地方政府發行的各種書籍、學校的官方網站等不一定都有預算可以翻譯成各國語言。日本電視上的雙語節目十分有限,即使有一般也只有英語。這時如果能用上機器翻譯該多好啊。

不過從完全不考慮詞義的機器翻譯的現狀來看,我覺得它恐怕永遠也無法取代人工翻譯吧。

本文節選自

《當人工智能考上名校》

作者: 新井紀子

譯者: 郎旭冉

出版社: 民主與建設出版社

出品方: 後浪

出版年: 2020-9

編輯 | 巴巴羅薩

主編 | 魏冰心

關注我們Facebook專頁
    相關新聞
      更多瀏覽