《Nature》雜誌發佈電競AI最新論文：AlphaStar玩轉《星海爭霸2》三大種族戰力超越99.8%玩家

2019年11月04日 01:33 pm

UP_PT @ UPower

弊啦弊啦，咁搞法遲早出事……

人工智能公司 DeepMind 有關 AlphaStar 的論文最近發表在最新一期的《Nature》雜誌上，這是人工智能演算法AlphaStar 的最新研究進展，展示了AI 在「沒有任何遊戲限制的情況下」已經達到《星海爭霸2》的人類頂級水準。AlphaStar在Battle.net戰網上的排名已超越99.8%的活躍玩家。

雖然依然打不過世界第一人類選手 Serral，但 AlphaStar 已經登上了《Nature》雜誌。在 DeepMind 的最新博客文章中，研究者們對於AlphaStar 演算法的學習能力進行了詳細介紹。

在遊戲測試中，Exploiter型AI創造了一種「Tower Rush」策略，成功擊敗同樣是AI的對手。繼續進行AI對戰訓練之後，新的AI已經學會操控農民礦工去對抗「Tower Rush」策略。新的AI更通過經濟優勢、單位配合和精細操控擊敗了AI對手。最後更有AI發現了AI不懂得反隱形作戰的弱點，通過運用隱形單位將AI對手擊敗。

網上圖片

今年夏天 AlphaStar 曾嘗試與人類在《星海爭霸2》遊戲中對戰，但當時錄的慘敗的下場，被人類最強選手痛擊。不過在天梯與人類高手的對戰中，AlphaStar依然在 90 場比賽中贏了 61 場。基於在遊戲對戰上的表現，Google旗下公司在星際爭霸 2 上的研究或許可以在數字助理、自動駕駛等領域為人類帶來幫助。

《星海爭霸 2》堪稱人類游戲史上最困難、最成功的即時戰略遊戲，這個系列的遊戲歷史已經超過 20 年。其長盛不衰的原因在於擁有豐富的多層次遊戲機制，對於人工智能研究來說，這是一個非常接近現實世界的虛擬環境。自從國際象棋、圍棋、德州撲克領域相繼被AI攻破，電子遊戲成為了人工智能的「下一個重大挑戰」。而AlphaStar最先將目標鎖定在《星海爭霸2》。

網上圖片

《星海爭霸 2》巨大的操作空間和非完美信息給構建 AlphaStar 的學習和研究過程帶來巨大挑戰。與圍棋不同，《星海爭霸 2》有數百個完全不同的可操作單位，而且他們同時、實時移動，遊戲也不是以有序的回合製方式進行。棋盤博弈在規則中，策略和步數都是有限的，但 AlphaStar 在學習《星海爭霸2》時，每時每刻都有超過數千種動作行為選擇，操作可能性和空間極為龐大。而且與圍棋等完美信息遊戲不同，《星海爭霸 2》屬於是非完美信息遊戲，玩家剛開始是無法得知對手的行動，因此也難以預測對手的行為和策略。

DeepMind 在2017年宣布開始研究能進行即時戰略遊戲《星海爭霸 2》的人工智能——AlphaStar。但其實DeepMind 對這款遊戲的研究已經超過 15 年前開始。去年12月起，AlphaStar就開始陸續擊敗職業玩家，可以熟練操控遊戲中的神族、人族、虫族三大種族，更將自己在人類電子競技實力排名中的位置提升至前1%的實力。據《Nature》論文中描述，AlphaStar 在 Battle.net 上的排名已超越 99.8％的活躍玩家，並且在《星海爭霸 2》的三個種族比賽中都達到了最頂級的大師級水準。研究者表示，希望這些方法可以應用於諸多其他領域。

Deepmind 發現，AlphaStar 的遊戲方式令人印象深刻——這個系統非常擅長評估自身的戰略地位，並且準確地知道什麼時候接近對手、什麼時候遠離。雖然AlphaStar 已經具備了出色的控制力，但它還沒有表現出超人類的能力，至少沒有到那種人類理論無法達到的高度。

網上圖片

雖然研究非常成功，但人工智能AlphaStar的自我博弈卻會一個缺陷：它的能力確實會不斷提升，但它也會忘記如何戰勝之前的自己，會像小狗追著自己的尾巴一樣陷入一個循環，失去繼續提升的機會。

為了解決這個缺陷，Deepmind在《Nature》的論文中提到將自我博弈的AI變成「聯盟」AI的概念。即AI與人類玩家結盟一起訓練特定策略，AI要幫助人類盟友來找出策略的破綻，從而令人類盟友獲得進步。這種研究擺脫了單純的獲勝目的，而是盡可能地限制AI的資源，去幫助盟友發展策略。在這樣的環境下，可以讓AI自動學習到所有的複雜策略，亦能暴露出AI自我學習中存在的問題和不足。

儘管 AlphaStar 已經取得了不錯的成績，但是它並沒有完全打敗頂尖水平的人類玩家。今年 9 月，DeepMind 和暴雪放出了 AlphaStar 在天梯上與各路頂級玩家交手的視頻，其中不乏當世排名前 10 的職業選手。DeepMind 遇上了目前《星海爭霸 2》最強的玩家，芬蘭虫族選手 Serral。在這場 16 分鐘的比賽里，Serral 和 AI 進行了激烈的正面對抗，最終人類選手獲得了勝利。

儘管DeepMind 表示，他們永遠都不會讓這項研究進入軍事領域，而且《星海爭霸2》也並非一個模擬現實戰爭的遊戲，但University of Sheffield 的 AI和機器人學教授Noel Sharkey 表示，DeepMind 的研究結果必然會引起軍方的注意。今年 3 月份，美國政府就已經發佈過一份報告，講述了 AI 如何豐富戰爭模擬以及幫助戰爭玩家評估不同戰術的潛在結果。

Sharkey說：「軍事分析人士肯定會將AlphaStar 實時戰略的成功視為AI 用於作戰規劃優勢的一個明顯例子。但這是一個極度危險的想法，可能會帶來人道主義災難。AlphaStar 從某個環境的大數據中學習戰略，但來自敘利亞、也門等衝突地區的數據太少，無法使用。」「正如DeepMind 在最近的一次聯合國活動中所說的，這種方法對於武器控制來說將是非常危險的，因為這些舉動無法預測並且可能以意想不到的方式發揮作用——這違反了管轄武裝衝突的法律。」