DeepMind首次在所有57款雅達利遊戲上超越人類玩家
2020年04月01日20:24

  原標題:DeepMind首次在所有57款雅達利遊戲上超越人類玩家

  挑戰雅達利遊戲,一直是DeepMind的研究日常。當地時間3月31日,這家全球最受矚目的人工智能公司在自己的官方博客上宣佈了挑戰的最新進展:在57款雅達利遊戲中全面超越人類,在該領域里是第一次。

57款雅達利遊戲
57款雅達利遊戲

  DeepMind 在最新發佈的預印本論文和博客中表示,他們構建了一個名為Agent57的智能體,該智能體在街機學習環境(Arcade Learning Environment,ALE)數據集所有57個雅達利遊戲中實現了超越人類的表現。

  如果Agent57真如DeepMind所描述的那樣優秀,那麼它將為構建更加強大的AI決策模型奠定基礎。想像一下,人工智能不僅可以自動完成平凡、重複性的任務(比如數據輸入),還可以自動推理環境。這對於那些希望實現自動化以提高生產力的企業而言,可能就是福音。

  為什麼選擇雅達利遊戲

  讓單個智能體完成儘可能多的任務是DeepMind一直以來的研究目標,也被該公司視為邁向通用人工智能的必經之路。而利用遊戲來評估智能體性能是強化學習研究中的一個普遍做法。遊戲中的環境是對真實環境的一種模擬,通常來說,智能體在遊戲中能夠應對的環境越複雜,它在真實環境中的適應能力也會越強。

  這次DeepMind挑戰的街機學習環境中包含57款雅達利遊戲,可以為強化學習智能體提供各種複雜挑戰,因此被視為評估智能體通用能力的理想試驗場。

  選擇雅達利遊戲作為挑戰目標的原因主要有3點。首先,雅達利遊戲足夠多樣化,可以評估智能體的泛化性能;其次,它足夠有趣,可以模擬在真實環境中可能遇到的情況;第三,雅達利遊戲是由獨立的組織構建,可以避免實驗偏見。

  早在2012年,DeepMind開發Deep Q-Network(DQN)來挑戰雅達利57中遊戲。DQN是雅達利2600遊戲眾多挑戰者中第一個達到人類控製水平的智能體。期間儘管取得了進步,但經過改進後的 DQN始終沒有克服四款比較難的遊戲:Montezuma's Revenge、Pitfall、Solaris和Skiing。此次新發佈的Agent57改變了這一局面。

  Agent57如何實現超越人類

  DeepMind在自己的博客上公佈了Agent57的框架。Agent57使用強化學習算法,同時運行在多台電腦上,這些AI賦能的智能體在環境中會選擇能夠最大化獎賞的動作去執行。此前,強化學習在電子遊戲領域已經展現出了極大的潛力。OpenAI的OpenAI Five和DeepMind的AlphaStar RL智能體分別打敗了 99.4%的Dota 2玩家和99.8%的星際2玩家。

Agent57的計算框架
Agent57的計算框架

  具體來說,Agent57通過將眾多actor(actor可以理解為一個有狀態的行為)饋入到可以采樣的一個中央存儲庫(也稱為經驗回溯緩衝器)中學習,進而實現數據收集。該緩衝器包含定期剪枝的過渡序列,它們是在與獨立、按優先級排列的遊戲環境副本交互的actor進程中產生的。

  DeepMind團隊使用兩種不同的AI模型來近似每個狀態動作的價值(state-action value),這些價值能夠說明智能體利用給定策略來執行特定動作的好壞程度,這樣就使得Agent57可以適應與獎勵相對應的均值與方差。他們還整合了一個可以在每個actor上獨立運行的元控製器,從而可以在訓練和評估時,適應性地選擇使用哪種策略。

  DeepMind研究團隊表示,這個框架模型具有以下兩大優勢:第一,得益於訓練中的策略優先級選擇,它可以使得Agent57分配更多的網絡容量,來更好地表徵與手邊任務最相關策略的狀態行動值函數;第二,在評估時,它可以用一種自然的方式來選擇最佳策略。

Agent57與MuZero、R2D2和NGU等領先算法進行了成績對比
Agent57與MuZero、R2D2和NGU等領先算法進行了成績對比

  DeepMind團隊將自己的算法與MuZero、R2D2和NGU等領先算法進行了對比。其中,MuZero在全部57種遊戲中達到了最高平均分(5661.84)和最高中值(2381.51),但在Venture等遊戲中表現很差,得分只到和隨機策略相當的水平。

  與之相比,Agent57的總體表現上限更高(100),訓練50億幀後即在51種遊戲上超越了人類,訓練780億幀後在Skiing遊戲上超越了人類。

  表現優於人類之後

  DeepMind團隊也在官方博客中透露了團隊的下一步計劃。“Agent57最終在所有基準測試集最困難的遊戲中都超過了人類水平。但這並不意味著雅達利遊戲研究的結束,我們不僅要關注數據效率,也需要關注總體表現……未來的主要改進可能會面向 Agent57在探索、規劃和信度分配上。”論文合作者之一在官方博客中寫道。

  不過,對於DeepMind此次的新進展,有不少網友在網上表示祝賀,但也有人提出質疑。有人就認為Agent57表現優於人類的說法並不準確,只能說表現優於人類平均水平,因為在Montezuma's Revenge這款遊戲中,Agent57並沒有打破人類的最高水平。另一方面,有人認為DeepMind的研究總是側重於在雅達利等遊戲上的性能表現,但如何利用這種模型來解決現實世界的實際問題才更關鍵。

關注我們Facebook專頁
    相關新聞
      更多瀏覽