遇到歐盟最嚴數據保護條例,這家中國AI公司如何突出重圍
2020年03月30日19:04

原標題:遇到歐盟最嚴數據保護條例,這家中國AI公司如何突出重圍

由於自己在偷情網站Ashley Madison註冊的賬號信息被駭客意外泄露,一位美國神職人員在沮喪和痛苦中,最終選擇拔槍自殺。這起發生在2015年的慘案,將數據安全問題推到眾人面前。

隨著智能手機的普及,個人每天產生的數據越來越多,如何在互聯網保護自己的個人數據,更是棘手的問題。正如歐盟之前發佈的一則《保護個人數據》的公益視頻所描述的一樣:我們的個人數據,就像視頻里全身赤裸的男子一樣,在互聯網上“裸奔”。為了更好地保護公民的數據,經過4年多的協商,2018年5月,歐盟正式頒布了《通用數據保護條例》,簡稱GDPR。 GDPR推出後,就被外界稱為史上最嚴苛的數據保護條例。因為這項條例不僅賦予歐盟公民更多的個人數據控製權,另外對那些收集、處理和存儲個人數據的公司提出更高的責任要求,特別是數據泄露。

違反GDPR將面臨多重法律責任,包括行政責任、民事責任。其中,最受外界矚目的是,GDPR為違反行為劃了一條天價紅線:行政罰款上限為上財年全球營收4%或2000萬歐元中取高者。

這也意味著,眾多科技公司必須做出改變,否則就要與歐盟市場說再見。對於中國的科技公司來說,要想出海歐盟國家,GDPR成為了必須要跨過去的第一道檻。

據澎湃新聞瞭解,日前,國內人工智能企業第四範式宣佈,其企業級AI平台先知(4Paradigm Sage)已經率先完成ePrivacySeal EU認證,成為國內第一款通過該認證的AI平台產品。ePrivacy是全球數據安全與隱私保護最具權威性的認證機構之一,其認證過程均是按照GDPR對於產品的條例逐一審核,認證覆蓋面廣且細。

第四範式創始人兼CEO戴文淵在接受澎湃新聞採訪時表示,數據安全不完全是一個技術問題,其實也是一個人性的問題。要做好數據保護,需要我們充分的去理解人性所能接受什麼樣的方式。當下,拋開道德層面,成本最低,效率最高的方式確實是侵犯隱私,因為這是條捷徑。對於科技公司而言,要把技術調整到更加人性化,這其實是一直需要去研究,需要去打磨的問題。

第四範式成立於2015年,2016年獲“吳文俊人工智能科學技術獎”創新獎一等獎。目前,第四範式已將人工智能賦能醫療、金融、政府、能源、互聯網等多個行業,落地上萬個 AI 應用。

第四方式如何邁過GDPR

GDPR被稱為是史上最嚴個人數據保護條例,並不為過。生效後,全球科技巨頭公司都成為了被投訴、罰款的對象。早在生效的第一天,法國、比利時、德國、奧地利等國家的監管機構收到了四起訴訟,分別是針對Facebook及其旗下的Instagram、WhatsApp等強迫用戶共享個人數據的指控。2019年初,Google因違反GDPR條例被法國數據保護監管機構處以5000萬歐元罰款,這是迄今歐洲範圍內因違反隱私數據法遭受的最高額處罰金。

據第四範式透露,公司得到歐盟的認證前後大概花了2年時間,但數據安全的保護工作,以及相關的技術開發時間要更早一些。比如差分隱私和聯邦學習等技術,在國內還鮮有公司進行實踐的時候,第四範式就在自己的產品中開始應用這兩項技術,保護用戶數據安全。

差分隱私是《MIT科技評論》2020“全球十大突破性技術”之一。《MIT科技評論》認為未來數據保護的難度會越來越高,解決這個問題的方法之一就是差分隱私,這種技術可以建立信任機製。

差分隱私是一種數學技術,它能夠在給數據添加噪聲的同時,一直計算隱私提升的程度,從而使得增加 “噪音” 的過程變得更加嚴謹。目前,Apple和Facebook已經使用這種方法來收集聚合數據,而不需要識別特定的用戶。但是差分隱私也有過多的噪聲又會使數據變得無用。

第四範式主任科學家塗威威在接受澎湃新聞專訪時稱,公司對目前的差分隱私技術進一步優化,通過更好的分配隱私預算、更有效的分配噪聲等方法,做到了在保護數據隱私的同時,提升分析結果的有效性。目前,該技術可廣泛應用於數據收集、數據分析、數據發佈等階段。

同時,第四範式也將該技術與聯邦學習進行融合,直接拓展到遷移學習領域,形成了聯邦遷移學習技術,實現了隱私保護的模型發佈與遷移。該技術已應用在第四範式與瑞金醫院合作的“瑞寧知糖”中,系統可從數據較為完善的大型醫院中遷移出有價值且受隱私保護的知識,去幫助地方醫院、社區醫院、體檢中心等機構做更加完善的醫療診斷。

聯邦學習(Federated Learning)是一種新興的人工智能基礎技術,在2016年由Google最先提出,其設計目標是在保障大數據交換時的信息安全、保護終端數據和個人數據隱私、保證合法合規的前提下,在多參與方或多計算結點之間開展高效率的機器學習。

成本和效果

不斷開發、利用新技術,投入大量的人力,從數據收集開始到最後的數據結果產出,嚴格把關每個環節,成為第四範式通過GDPR的關鍵。但新技術的開發需要一家公司能持續不斷地投入,每個環節的嚴格把關,也意味著成本的增加。成本增加是否就能收到想要的結果,許多個公司,尤其是中小型企業對此都打了問號。

在戴文淵看來,國內的人工智能公司一直沒通過GDPR的“考試”的原因也在與此。他認為,從技術層面看,就有兩個原因一是效果,二是成本。在數據安全與用戶隱私達到保護強度前提下,能夠提出更有效的算法,這就要求一家科技公司需要有過硬的技術。在成本方面,核心的成本是人力,機器學習已經是很複雜的技術,而隱私保護技術是更加複雜的技術,因此落地的人才門檻更高。

據Gartner的統計,GDPR對於歐盟相關公司帶來的成本提昇平均在140萬美元,對美國相關公司的成本提升在100萬至1000萬美元。這對於一些中小型的企業幾乎是不可負擔的,對大企業而言也是一筆不小的費用。

為此,第四範式也提出了保護隱私的自動多方機器學習,將保護隱私的機器學習與自動機器學習相結合,自動機器學習的技術一方面有效降低了應用門檻,另一方面大幅降低了人為介入,進一步提升了安全性。

除了科技公司要從技術上做出改變外,戴文淵認為,在非技術層面,例如,在法律法規、行業標準、責任與利益分配方案等方面,還需要更廣泛的行業與專家的研究投入,也需要政府、企業、研究機構等一起聯合推動。只有這樣才能將數據安全的成本和效果提升到到最好。

國內科技公司如何做好用戶隱私保護

歐盟巨大的市場,對於國內科技公司來說相當重要。但要在海外順利開展業務,也非易事。許多國內能用的應用,在海外推廣的並不順利,有時甚至還會因為隱私問題遭到監管部門的下架。在戴文淵看來,國內外對待數據安全、用戶隱私等問題的差異是造成出國內科技企業出海受阻的原因之一。

“不同的國家它的風格不一樣,在中國可能是鼓勵大家先去試,然後監管部門發現問題,再開始治理一些亂象。但是在海外的一些國家不是這樣的,它很嚴格,不能打擦邊球。”戴文淵說。

那國內是否可以參考GDPR,一步到位地做好數據安全和隱私保護呢?戴文淵指出,目前國內在隱私數據保護方面還處於初期階段,整體上來看還不能滿足隱私保護的要求,攻擊者仍可能對從中得到原數據的敏感信息。歐盟和中國的環境和發展路徑不同,法律法規的製定還是需要因地製宜,在發展數字經濟和數據安全兩方面起到一個正確引導和平衡杆的作用。

2019年3月6日,國內最新版《個人信息安全規範》正式發佈,在現有《網絡安全法》的基礎上,積極推動《數據安全法》、《個人信息保護法》等,進一步加強隱私保護的力度,為個人信息安全栓上一道鎖。雖沒有GDPR嚴苛,但國內關於數據安全、隱私保護也在逐漸完善。

“在國內推出這些規範之前,是有些是亂象,是一定要杜絕的。比如,直接購買用戶的地址信息,然後進行暴力催收。但是國內是否需要一步到位到GDPR的要求層面,我覺得這個還是要根據整個社會的形態,以及整個國內的中國人對這件事情的接受程度。”戴文淵稱。

另外,在戴文淵看來,要解決好隱私問題,需要充分的去理解人性所能接受什麼樣的方式,不能接受什麼樣的方式。把技術調整到更加人性化,這個其實是一直需要去研究,需要去打磨的。

“現在有人開玩笑說在互聯網時代、大數據時代,人根本沒有隱私。我覺得我們還是要去建設環境,讓大家感覺到互聯網大數據時代,體驗很好,與此同時我也是有隱私的,我還是可以保留我的隱私權。對於公司來說,我們需要做的是當有關部門把這項標準不斷提升的時候,我們能給客戶最好的保障。”戴文淵表示。

關注我們Facebook專頁
    相關新聞
      更多瀏覽