給數據加“噪音”,差分隱私如何保護用戶數據安全和隱私
2020年04月01日14:13

原標題:給數據加“噪音”,差分隱私如何保護用戶數據安全和隱私

對於一家人工智能公司來說,數據是他們訓練、調整算法和模型的關鍵,也是安身立命之本。但要安全處理數據,並讓數據產生自己想要的結果,並不簡單。

舉個簡單的例子,Netflix曾舉辦了一場根據公開數據推測用戶電影評分的比賽(Netflix Prize),公開數據中抹去了可識別用戶的信息,但一年後,來自得克薩斯大學奧斯汀分校的兩名研究員將公開數據與IMDb(互聯網電影數據庫)網站公開紀錄進行關聯,通過差分攻擊等手段識別出了匿名用戶的身份。三年後,Netflix最終因隱私原因宣佈停止該比賽,並付出了九百萬美元的高額賠償金。

對於那些手握大量人口數據的部門,這種攻擊可能就是致命的。因為傳統的做法是對數據的敏感列作匿名化,但這些做法並不能完全保證數據安全,攻擊者還可以對分析結果的差分攻擊以及查表撞庫等方法反推原數據。

為了應對攻擊,有研究人員提出了一種數據加密技術,稱為差分隱私。《MIT科技評論》評選的2020年十大突破技術中,就有差分隱私。《MIT科技評論》認為未來數據保護的難度會越來越高,解決這個問題的方法之一就是差分隱私,這種技術可以建立信任機製。

什麼是差分隱私

那麼什麼是差分隱私?它是一種數學技術,它能夠在給數據添加噪聲的同時,一直計算隱私提升的程度,從而使得增加“噪音”的過程變得更加嚴謹。它是對所有數據查詢、分析過程進行約束,儘可能減少隱私泄露的風險。

具體的方法,是對原操作中的某些步驟,通過注入噪聲、混淆等形式,使得操作得到差分隱私保證。該技術可用於數據採集、數據分析建模、數據/模型發佈等階段。其研究的重點就是如何分配隱私預算,也就是怎麼加噪聲、加多少噪聲,減少對模型有效性的影響,能夠得到更加有效的結果,還能防止攻擊者通過查詢模型而泄露數據隱私。

目前,Apple和Facebook已經使用這種方法來收集聚合數據,而不需要識別特定的用戶。比如,Apple公司需要蒐集用戶數據,瞭解用戶習慣,從而更好地提升用戶體驗。在這一過程中,利用差分隱私,就可以在不知悉用戶隱私的情況下,還能知道用戶整體的使用偏好。

這裏需要提醒的一點是關於“隱私”的定義。隱私是針對個人的,通過攻擊方式獲得了一個人的性別是泄露隱私,但是獲得整體的性別比例或者一共多少個男性這種不屬於泄露隱私範疇。Apple、Google、Facebook等公司可能只是需要其用戶的性別數量或是比例用於統計分析或者建模,都無需知道每個人的性別,因此,差分隱私可以在保證企業達到分析的目的,又可以保護用戶的隱私。

國內AI公司如何使用差分隱私

“相比之下,差分隱私現在肯定還是國外研究地更好一些,因為整個技術在國外關注度更高,而且也更早一些。”第四範式主任科學家塗威威在接受澎湃新聞(www.thepaper.cn)採訪時說。

日前,第四範式宣佈,其企業級AI平台先知(4Paradigm Sage)已經率先完成ePrivacySeal EU認證,成為國內第一款通過該認證的AI平台產品。ePrivacy是全球數據安全與隱私保護最具權威性的認證機構之一,其認證過程均是按照偶們發佈的《通用個人數據保護條例》(簡稱“GDPR)對於產品的條例逐一審核,認證覆蓋面廣且細。

差分隱私是在第四範式的產品中就有應用。以醫療為例,利用差分隱私與聯邦學習進行融合,拓展到遷移學習領域後,第四範式在和瑞金醫院合作的“瑞寧知糖”產品中,將數據較為完善的大型醫院中遷移出有價值且受隱私保護的知識,去幫助地方醫院、社區醫院、體檢中心等機構做更加完善。

據塗威威介紹,第四範式對目前的差分隱私技術進一步優化,通過更好的分配隱私預算、更有效的分配噪聲等方法,做到了在保護數據隱私的同時,提升分析結果的有效性。目前,該技術可廣泛應用於數據收集、數據分析、數據發佈等階段。

另外,值得注意的是,無論是差分隱私還是聯邦學習,也都面臨著成本、安全、應用等方面的考驗。例如成本方面,由於技術門檻較高,其中的技術環節仍需要較多的專家介入到數據預處理、特徵工程、模型調參當中。另外,人力的介入又會給數據安全與隱私保護帶來一層隱患,每次人工查詢操作,均會消耗隱私計算,風險也越大。

為此,第四範式綜合了差分隱私、自動化機器學習等技術優勢,開闢了自動多方機器學習,讓機器自動完成數據預處理、特徵工程、模型調參等工作,大幅減少了專家人工的介入,提升安全性的同時,也大幅降低了隱私保護技術的使用門檻。

關注我們Facebook專頁
    相關新聞
      更多瀏覽