GAITC專題論壇丨金兼斌:虛假科學信息治理依靠社會民智,AI是整合關鍵
2020年07月28日19:30

  GAITC專題論壇丨金兼斌:虛假科學信息治理依靠社會民智,AI是整合關鍵

  7月26日,由中國人工智能學會主辦、新浪新聞聯合浙江大學承辦的2020全球人工智能技術大會(2020GAITC)“AI時代下的新媒體與社交娛樂”專題論壇拉開帷幕,新浪集團首席信息官、新浪AI媒體研究院院長王巍,浙江大學特聘教授、雪梨科技大學教授、百度研究院訪問教授楊易共同擔任論壇主席。

  清華大學大學新聞與傳播學院學術委員會主任、教授金兼斌在本次專題論壇上,與來自業界、學術界的嘉賓們分享了《人工智能助力虛假科學信息的監測》。

圖註:清華大學大學新聞與傳播學院學術委員會主任、教授金兼斌作主題演講。
圖註:清華大學大學新聞與傳播學院學術委員會主任、教授金兼斌作主題演講。

  金兼斌認為,社會化媒體時代,虛假科學信息的治理,必須充分依靠對分散在社會各個平台上的民智的整合,而人工智能則是實現這種有效整合的關鍵。

  關於應對虛假科學信息,利用人工智能技術進行更好的監測,他提到,基於虛假科學信息的語言特徵、內容特徵和對象特徵,“表示學習”、“知識圖譜”、“信息挖掘”是三種有針對性的解決思路。

  以下為金兼斌演講實錄,內容經編輯略有刪減:

  各位嘉賓好,首先非常榮幸受新浪新聞和浙江大學的邀請來參加這一論壇。剛才聽前面幾位專家分享的時候,頗感心有慼慼。諸多內容和觀點,嘉賓之間並未事先溝通過,但卻遙相呼應。

  今天我將主要談談虛假科學信息的監測問題。借用剛才Amy Bruckman女士的話,知識本質上是一種共識的社會建構。尼采有類似的表述,即世界上沒有所謂的事實,只有解讀。

  在日常的內容消費中,很多時候我們面臨這樣的場景:有一定共同認可的事實基礎的現象或事件,不同人對事件的性質以及可能的社會後果,可以有截然不同的解讀和判斷。諸多人與人之間、群體與群體之間、國家與國家之間的矛盾、爭執乃至交惡、撕裂,由此而生。

  7月24號,也就是兩天前,《科學》雜誌上發表了一篇中科院武漢病毒研究所研究員石正麗回答《科學》的18問專訪的文章,文章題目以“特朗普欠我們一個道歉”這一來自石正麗的引語開始。提問者對所提18個問題做了精心的準備,涉及到武漢病毒所和此次新冠疫情之間有無關聯的大量專業問答,雖然字裡行間不乏春秋筆法,但總體上問答雙方都十分克製,只講事實,沒有任何情緒化的表達。這是很難得的。因為在人們日常所見的大量涉及科學事實的各種網上內容表述中,“後真相”時代觀點先行、事實成為“任人打扮的小女生”,已經是見怪不怪的現象。這正是我今天給大家分享的這個主題的時代和信息傳播環境之大背景。

  今天,科學已經成為我們當代社會文明中的亮麗底色。另一方面,科學不光是科學,它還關乎政治,國際上圍繞疫情起源的爭議和汙名化就是明證。而對普通民眾而言,科學關乎日常生活質量和對現代文明帶來的福祉的享用。如何確保確保民眾日常生活接觸到的科學性信息的質量,可謂茲事體大。

  我將要介紹的內容,是由我們團隊的博士後陳慧敏和碩士生朱澤宇與我一起準備完成的。

  今天的主題是AI時代下的新媒體與社交娛樂。剛才王巍總講到內容生產從PGC到UGC再到現在TGC的多元化趨勢。我們身處信息生產的社會化、大眾化乃至萬物生生不息的時代。另一方面,人作為信息消費者,又有其永遠無法踰越的一些邊界條件,比如一天只有24小時,信息消費的時間和其他活動包括睡眠所占的時間,是一種此消彼長的零和遊戲。今天,社會的發展已經從規模發展轉變到高質量發展階段,其實信息的生產和消費,也必然面臨這樣的轉變。我們不缺內容,缺的是高質量的內容,特別是缺由消費者特定場景所定義的高質量內容,包括事關國計民生的優質科學性內容。

  剛才Bruckman教授講到,知識本質上是一種社會建構。其實各種各樣的虛假科學信息背後,常常也涉及到了很多不同的價值觀和社會力量之間的話語權角逐和爭鬥。諸如病毒起源、戴口罩的必要性等問題,不僅是科學性問題,當中所涉及的話語權和定義權,還關乎大國博弈、防疫政策和責任歸因的選擇和感知。因為我們對世界的認知,歸根到底是受各種所消費內容的涵化和型塑的。

  也正如此,提升民眾的科學素養,讓民眾對事關其生活質量的各種科學性信息具有基本的鑒別能力或解惑途徑,在大力推進科技創新的同時,同步推進科學普及,是一體兩面的重要舉措。面對海量的信息的觸手可及,真正有用的高質量信息如何為民所用,需要有可落地的方案。而有效監測民眾每日接觸到的內容中的虛假科學信息並及時加以提醒、清除、糾錯糾偏,是社會良治中信息治理的題中之義。

  無論是科學信息的生產還是虛假科學信息的監測,社會化協同都是核心機製。就科學信息的生產而言,不同機構、領域的專家或科技工作者通過專業發表和圈層日常交流,把科學信息源源不斷輸出到整個社會的信息傳播系統中。另一方面,科學信息在通過媒體特別是社會化媒體的多層、多級傳播過程中,大量民眾既作為內容的消費者又作為內容的傳播者參與生產,這一過程降低了科學信息的生產和傳播的門檻。這是我們進行虛假科學信息監測所面對的信息生態環境。

  下面我們首先把虛假科學信息的信息特徵做一個簡單的梳理。我們從三個方面進行總結,包括語言特徵、內容特徵和對象特徵。

  首先是語言特徵。虛假科學信息常常有一些明顯的語言表達方式上的特徵,比如“長期服用降壓藥會致死”這類說法,其陳述中通常特別強調致死、致癌、致殘這一類嚴重後果。從傳播學的角度來看,這樣的傳播策略叫訴諸恐懼。這類信息在涉及有關可能風險時,常常誇大其詞,或者斷章取義,典型如離開劑量談毒性。事實上,鑒別社會化媒體上司空見慣的各種食藥品風險內容,一定要和具體人群和應用場景結合起來,才有意義。

  還有一種常見的表述,是對某類疾病或危害的簡單歸因,即科學方法論上所說的還原論謬誤。這種表述常常有意無意混淆可能性和必然性之間的差異,把多種原因導致的現象,簡單歸咎於某一特定因素。比如“常吃米飯會誘發糖尿病”這類聳人聽聞的說法,背後就是一種還原論邏輯。

  第二是內容特徵。虛假科學信息的內容,不同於一般的虛假信息之處在於,其所關涉的事實是否準確,涉及到科學性和專業性知識或邏輯判斷問題,而在這方面,虛假科學信息可以巧妙地布下很多認知陷阱,在似是而非間,混淆是非,誤導人們的認知和行為。如“食鹽含亞鐵氰化鉀,不可食用”的說法,首先是有意引導民眾把亞鐵氰化鉀和氰化鉀進行聯想置換,產生恐懼。亞鐵氰化鉀跟氰化鉀是不一樣。其次,食鹽中只含有的極為微量的亞鐵氰化鉀,一般人每天食用的食鹽量里麵包含的亞鐵氰化鉀,完全不會對人體構成健康危險。但這些相對專業的知識和邏輯,可能並不為普通民眾所熟悉和瞭解。

  第三是對象特徵。很多虛假科學信息或者科學謠言的描述對象,常常是一些新興事物,如“量子波動速讀”“5G基站可致癌”“雙黃連可防新冠病毒”等流言或謠言,其中涉及的事物都比較新,超出大部分民眾的知識儲備。媒體或民眾對其真偽借助已有知識難以辨識,於是就會有寧可信其有不可信其無的心理,導致以訛傳訛。

  如何進行虛假信息的鑒別或監測?基本上有兩種思路,即人工鑒別和機器鑒別。當然在闢謠實踐中,常常是兩種方法結合起來的,即機器快速從海量、動態的信息中定位到一些可疑內容,然後通過一系列知識體系、專家系統和人工方法,來判定有關信息的真偽。值得指出的是,兩種方式各有優劣。機器識別效率高,但難以精準識別專業性較高的前沿科技內容,所以有時仍需要依賴人工;人工識別包括專家解讀的優勢在於,可以判別一些現有文獻和知識庫中尚未有明確論述的一些新興科學性內容表述的真偽,如新冠病毒爆發以來,伴隨病毒傳播的還有諸多虛假科學信息。由於人們對新冠病毒的性質的認知也有一個過程,因此,當有關新冠病毒特性的一些科學流言和謠言出現時,依賴已有的知識體系來進行機器識別,註定是不可靠的,而是需要仰仗一線醫務工作者和科學家的最新研究發現和臨床經驗才能判斷真偽。當然人工鑒別的缺點是效率低。因此,兩者需要有機結合。

  下面我針對我們前面對虛假科學信息三個方面特徵的總結梳理,談談人工智能助力虛假科學信息監測的解決思路。

  基於虛假科學信息的語言特徵,我們可以採用表示學習技術,來對海量動態的內容中的虛假科學信息進行快速的初步定位和識別。通過表示學習,把待判別文本轉化為低維度向量,隨後利用深度神經網絡,學習這些向量表示中的信息,達到快速進行語義分析的目的。基於語言特徵進行的語義分析技術,目前相對來說已經比較成熟。這是進一步對有關內容科學性進行判別的前提,即我們首先需要讓機器知道有關內容的主題和觀點具體是什麼。

  基於內容特徵,我們可以借助知識圖譜作為破解虛假科學信息的途徑。知識圖譜是人類已有知識的精華,是人類構建的知識網絡,網絡里的每個節點就代表了某一個概念,而節點之間的連邊,就代表了這些概念之間的關聯。我們可以將知識圖譜和神經網絡結合,識別虛假科學信息,即從待判別文本中,抽取出重要的概念以及概念之間的關聯,並與知識圖譜中這兩個概念對應的實體節點之間的關聯路徑進行對比,看看待判別文本中概念之間的關聯性(如“轉基因食品”引發“癌症”這一表述)的真偽或存在的可能性。在科學謠言的判別中,大部分謠言內容的破解,利用知識圖譜能夠高效地進行。

  基於虛假科學信息的對象特徵,即有關話題對象或主題通常較新,科學性和專業性較強,我們提出多層次信息挖掘這樣一個思路和對策。

  所謂多層次,根據廣義上的“知識圖譜”之“知識”的成熟度,我們區分了正式出版的文獻、預印本平台內容、以及各種知識問答類眾包平台。典型的出版文獻通常是經過同行評審的,其包含的概念和知識體系相對比較成熟、自洽,大致和上述通常意義上的“知識圖譜”中的來源知識對應;鑒於正式出版的審稿、修改週期通常比較長,而諸如新冠疫情這樣的公共衛生問題又人命關天十分緊急,因此,近年來興起一種預印本發佈製度,讓很多前沿研究成果可以第一時間可以為同行甚至媒體知曉和參考,雖然其中的內容和結論可能存在出錯風險,但在對有關新問題、新挑戰缺乏更好認知和對策的情況下,聊勝於無,預印本平台上看似不一定“成熟”的內容,對於有關新興科學主題的信息真偽的甄別,仍可能起到極有價值的參考作用。最後就是知識問答類眾包平台,以及廣義上存在於各種論壇、圈層上針對有關新興、前沿問題的專業內容探討和分享,理論上,這部分內容也應該作為一個社會知識生產的一種機製,納入到虛假科學信息鑒別可資參考和依賴的來源中。我們可以想像,在未來的某一天,我們的人工智能發展到這樣一種理想的水平,即每一個用戶在其生活場景中遇到的每一個不知真偽的科學問題,都可以第一時間通過諸如語音搜索引擎這種方式,向全網或全社會詢問或求助;而全網或全社會也能在第一時間,把對這個問題的最新、最優、最權威認知,以提問者所能理解的方式回應給他,實現無縫交互。借助於無所不在的像神經網絡一樣的社會信息傳播系統,一個社會通過人工智能,最終得以把整個社會的民智進行有效的萃取整合。由此,整個社會的知識和智慧,真正成為每一個個體予求予取的外腦般的不竭源泉。到那個時候,無論虛假信息如何千變萬化深藏不露,都將被人們輕易鑒別。

  顯然,我們離這一天還比較遙遠。要實現這樣一幅理想圖景,我們不僅需要整合知識,還需要協調社會不同民眾的價值觀,即對事實的解讀。不僅涉及到對知識的整合,還涉及到對一個社會倫理價值道德觀念的整合,體現一個社會的集體理性和智慧。因此,從根本意義上言,這種多層次信息挖掘和綜合研判,是對全社會智慧的有效整合。

  總結而言,我們提出了這樣一套基於人工智能進行虛假科學信息監測的框架和思路。基於語言特徵,機器學習和語義分析可以幫助我們識別海量內容中科學性方面可疑的信息,這方面的人工智能技術現在已經比較成熟。基於內容特徵的檢測,利用已有的知識圖譜,可以比較高效的解決大量的虛假科學信息的識別問題,但是它可能不能解決層出不窮的新興話題的真偽判斷問題。基於對象特徵的多層次信息挖掘,通過對分散在社會不同系統和平台上的知識體系和認知主體的智慧集成,理論上,我們可以對各種各樣的虛假科學信息的鑒別需求作出快速回應。

  值得強調的是,這個過程不僅涉及知識鑒別,還涉及到社會層面的組織和協同。事實上,大數據和社會化媒體的發展,一方面具有對普通民眾和整個社會進行賦能的潛力;另外一方面,大量虛假、不實信息充斥其中,也使得有效信息的甄別和利用成為新的挑戰,賦能不當,可能徒耗民眾的精力、時間和資源,變成耗能。這不是一個小問題。如我一開始所言,科學信息不光是科學,它還可能關涉到政治和經濟,關乎大國之間的博弈和競爭,涉及到普通人的日常生活,因此,如何進行一個社會的信息良治,值得我們投入更多的關注。

關注我們Facebook專頁
    相關新聞
      更多瀏覽