【烽巢網(wǎng)-科技PRO】
谷歌旗下DeepMind開發(fā)的人工智能代理在《星際爭霸2》中擊敗了人類職業(yè)選手,這是人工智能領(lǐng)域的第一次。在YouTube和Twitch上的一系列比賽中,AI玩家連續(xù)10次擊敗人類。在最后一場比賽中,職業(yè)選手格里戈爾茲·“曼娜”·科明茲為人類贏得了一場勝利。
DeepMind的研究聯(lián)席負責(zé)人戴維?西爾弗(David Silver)在賽后表示:“人工智能的歷史被打上了許多重大的標桿性勝利的印記?!薄拔蚁MM管顯然還有工作要做——未來的人們可能會回顧(今天),或許會認為這是人工智能系統(tǒng)所能做的又向前邁進了一步?!?/p>
在電子游戲方面打敗人類似乎是人工智能開發(fā)中的一個小插曲,但這是一個重大的研究挑戰(zhàn)。像星際爭霸2這樣的游戲比像國際象棋或圍棋這樣的棋盤游戲更難玩。在電子游戲中,人工智能代理無法通過觀察每一塊棋子的移動來計算下一步棋,它們必須實時做出反應(yīng)。
這些因素似乎對DeepMind被稱為AlphaStar的人工智能系統(tǒng)并不構(gòu)成多大障礙。首先,它打敗了職業(yè)球員達里奧·溫什(Dario“TLO”Wunsch),然后開始恢復(fù)法力。奧運會最初于去年12月在DeepMind的倫敦總部舉行,但今天與MaNa的最后一場比賽進行了直播,為人類提供了唯一的勝利。
職業(yè)星際爭霸評論員形容AlphaStar的表現(xiàn)是“非凡的”和“超人的”。在《星際爭霸2》中,玩家在建立基地、訓(xùn)練軍隊和入侵敵人領(lǐng)土之前,會從同一地圖的不同側(cè)面開始。AlphaStar尤其擅長所謂的“微觀管理”,即在戰(zhàn)場上快速、果斷地控制部隊的能力。
盡管人類玩家有時能夠訓(xùn)練出更強大的單位,AlphaZero還是能夠在近距離內(nèi)智勝他們。在一場游戲中,AlphaStar用一個名為“跟蹤者”的快速移動單位獲得了大量法力。評論員凱文·“鹿特丹”·范德庫伊(Kevin“RotterdaM”van der Kooi)將其描述為“非凡的單位控制,只是我們不太常見”。曼娜在賽后說:“如果我和任何人比賽,他們都不會對跟蹤者這么好?!?/p>
這與我們在其他高級游戲AI中看到的行為相呼應(yīng)。當(dāng)OpenAI的經(jīng)紀人去年在Dota 2與人類職業(yè)選手比賽時,他們最終被擊敗了。但專家們指出,這些特工再次以一種“清晰而精確”的方式進行表演,這是一種“催眠”。毫不奇怪,快速做出沒有任何錯誤的決定是機器的本分。
專家們已經(jīng)開始仔細分析這些比賽,并就AlphaStar是否擁有任何不公平優(yōu)勢展開辯論。這位人工智能特工在某些方面步履蹣跚。例如,它被限制在每分鐘執(zhí)行比人類更多的點擊。但與人類玩家不同的是,它能夠一次查看整個地圖,而不是手動導(dǎo)航。
DeepMind的研究人員表示,這并沒有提供真正的優(yōu)勢,因為該代理在任何時間只關(guān)注地圖的一個部分。但是,正如比賽所顯示的那樣,這并沒有阻止AlphaStar同時熟練地控制三個不同區(qū)域的單位——評論員們表示,這對人類來說是不可能的。值得注意的是,當(dāng)MaNa在直播比賽中擊敗AlphaStar時,AI使用的是受限的攝像機視角。
另一個潛在的痛處是,人類運動員雖然是專業(yè)運動員,但卻不是世界冠軍的標準。TLO還必須玩星際爭霸2中他不熟悉的三個種族中的一個。
撇開這個討論不談,專家們說這場比賽是向前邁出的重要一步。Dave Churchill,一個長期參與星際爭霸AI場景的AI研究人員,告訴the Verge:“我認為代理的力量是一個重大的成就,至少比我在AI研究人員中聽到的最樂觀的猜測提前了一年?!?/p>
然而,邱吉爾補充說,由于DeepMind尚未發(fā)布任何關(guān)于這項工作的研究論文,因此很難說它是否顯示出任何技術(shù)上的飛躍。邱吉爾說:“我還沒有讀過這篇博客文章,也沒有接觸過相關(guān)的論文或技術(shù)細節(jié)?!?/p>
喬治亞理工學(xué)院(Georgia Tech)人工智能副教授馬克?里德爾(Mark Riedl)表示,他對結(jié)果不那么驚訝,這場勝利只是“時間問題”。里德爾補充說,他不認為這些游戲表明星際爭霸II已經(jīng)被徹底打敗。“在上一場直播的比賽中,把AlphaStar限制在窗口確實消除了它的一些人為優(yōu)勢,”里德爾說?!暗覀兛吹降母蟮膯栴}是……”他說:“人工智能的問題在于,(人工智能學(xué)到的)政策是脆弱的,當(dāng)一個人可以把它推出舒適區(qū)時,它就會崩潰?!?/p>
最終,這類工作的最終目標不是在視頻游戲上打敗人類,而是改進人工智能訓(xùn)練方法,尤其是為了創(chuàng)建能夠在《星際爭霸》等復(fù)雜虛擬環(huán)境中運行的系統(tǒng)。
為了訓(xùn)練AlphaStar, DeepMind的研究人員使用了一種被稱為強化學(xué)習(xí)的方法。經(jīng)紀人基本上是通過反復(fù)嘗試來達到某些目標,比如贏球或者僅僅是活著。它們首先通過模仿人類玩家來學(xué)習(xí),然后在類似競技場的比賽中相互比賽。最強的藥劑存活下來,最弱的被丟棄。DeepMind估計,它的AlphaStar代理每一個都以這種方式積累了大約200年的游戲時間,游戲速度也在加快。
DeepMind很清楚自己開展這項工作的目標。“首先,也是最重要的是,DeepMind的任務(wù)是建立一個人工通用智能系統(tǒng),”AlphaStar項目的聯(lián)合負責(zé)人奧里爾·維尼亞斯(Oriol Vinyals)說?!耙龅竭@一點,重要的是對我們的代理在各種任務(wù)上的表現(xiàn)進行基準測試?!?/p>
請登錄以參與評論
現(xiàn)在登錄