2021世界人工智能大會走到了第四年,給人最明顯的感受就是AI已經(jīng)慢慢從酷炫的概念,逐漸被應(yīng)用到了更多的場景中?;行斡跓o形,潤物細無聲,不知不覺中人們與AI的交集已經(jīng)越來越多。
不過,就如馬化騰在開幕式中提到的“對AI的未知仍然大于已知”,在考慮到未來“通用AI”成熟后面臨的道德?lián)u擺問題之前,可能先要去解決的是路徑上的技術(shù)難題。而在這次的AI大會上,騰訊帶來的策略協(xié)作型AI王者絕悟,也許能夠成為未來通用AI探索之路上的一個“急先鋒”。
王者絕悟的“武林高手”晉升之路
王者絕悟,實際上是王者榮耀與騰訊AI Lab在游戲場景下研究的成果。
用通俗一點的話來理解“策略協(xié)作型AI”,“策略”指的是AI能夠通過獲取到的信息,分析局勢優(yōu)化策略,做出更有利于獲勝的行為;“協(xié)作”指的是操作不同英雄的多個智能體能夠互相配合,協(xié)同推進博弈。
一旦明白了所謂的“策略協(xié)作型AI”的定義,也許就能理解為什么在8日下午的“職業(yè)人氣選手 VS 王者絕悟”表演賽上,王者絕悟能夠表現(xiàn)如此出色 —— 團戰(zhàn)越塔收割,完美撤退;以一敵眾,掩護隊友撤退,穩(wěn)固優(yōu)勢等等。
有趣的是,王者絕悟并非一開始就這么“聰明”。事實上,回顧它的發(fā)展歷程,特別像經(jīng)典武俠小說里,一個武林高手的成長故事。
在18年面世的時候,王者絕悟通過監(jiān)督學(xué)習(xí),模擬了職業(yè)選手的操作,達到了頂尖業(yè)余水平。19年,它開始往深度強化學(xué)習(xí)課題上深入,達到了職業(yè)電競水平。
好比一個初出茅廬的毛頭小子,開始只能靠跟著師傅,“模仿”招式學(xué)習(xí)武功。但畢竟只是“模仿”,運氣好學(xué)到的是“九陽神功”,運氣不好可能就只能學(xué)到個“葵花點穴手”。而到了深度學(xué)習(xí)階段,他決定不再模仿,而是開始自己修煉,逐漸擺脫了那些“套路化”的招式。
到了2020年,王者絕悟又通過課程化自我博弈,從單個或者固定英雄組合,高效地擴充到更多英雄組合的學(xué)習(xí)。
而在騰訊AI Lab高級研究員、王者絕悟AI模型負責(zé)人邱福浩描述的王者絕悟最新版本中,它進一步引用了多輪組合博弈和層次化的強化學(xué)習(xí)算法。也就是說,現(xiàn)在王者絕悟不僅能和你直接戰(zhàn)斗,甚至在戰(zhàn)斗之前的BP環(huán)節(jié),就已經(jīng)開始思考策略,并且戰(zhàn)局中也能夠持續(xù)調(diào)整策略來應(yīng)對各種局面。
用邱福浩的來說,如今的王者絕悟,已經(jīng)達到全英雄職業(yè)電競水平。
但是,就像改變世界的是“武道”,不是“武術(shù)”。王者絕悟在游戲場景、電競行業(yè)中都有著直接、有效的幫助。但是,這還不足以稱其為“通用AI路徑上的一個急先鋒”。
真正值得一提的,是王者絕悟背后所代表的技術(shù)發(fā)展浪潮。
“人工+智能”向自主智能的進化
現(xiàn)如今,AI對于各行各業(yè)的賦能,已經(jīng)不用多說,從上下班打卡的人像識別、到陪玩游戲的語音助理… 其價值已經(jīng)被大家廣泛認知并認可。
但是,AI的開發(fā)、訓(xùn)練、調(diào)試的過程中,如果完全放到現(xiàn)實中去進行,存在成本高、風(fēng)險大的問題。因此,游戲是最好的虛擬化場景。從簡單到復(fù)雜、從低級到高級,AI研究的不同歷史時期,都能找到對應(yīng)的、不同復(fù)雜度的游戲作為測試相關(guān)技術(shù)主要難題的技術(shù)試驗場。
2016年,AlphaGo一戰(zhàn)成名。作為許多年前的“第一批AI網(wǎng)紅”, AlphaGo的技術(shù)邏輯并不難理解:通過“走棋網(wǎng)絡(luò)”模仿棋手,然后借助樹搜索,分析戰(zhàn)況,推演未來的每一步棋的變化,接著憑借估值網(wǎng)絡(luò),分析局勢,判斷勝率,最后做出行動。
但是,AlphaGo僅僅是單體智能決策,而且圍棋是一個規(guī)則明確、完全信息透明的單人游戲。如今,真正在各個場景下發(fā)揮重大應(yīng)用價值的,是技術(shù)相對更加復(fù)雜的多智能體決策,這也就對測試環(huán)境提出了更高的要求。
簡而言之,就是要模擬出一個工廠之類的環(huán)境,測試如何讓工廠里的各個機器人在不吵架(或者可以吵架)的前提下,既完成自己的小目標(biāo),也完成好組織要求的“裝好一輛汽車”的大目標(biāo)。
現(xiàn)實情況下,不可能天天給科學(xué)家們找?guī)准夜S來實驗。于是,谷歌、Facebook、特斯拉等公司,開始直接或者讓投資組合下的公司開啟多智能體AI在多人競技游戲環(huán)境下的實驗,而在中國,王者榮耀與騰訊AI Lab一同推出了王者絕悟。
不過,為什么偏偏是王者絕悟;或者說,為什么說王者榮耀能成為一個絕佳的研究環(huán)境呢?
“王者榮耀的游戲機制具有很強的多人協(xié)作性、在不對稱信息下博弈空間極大、協(xié)作競技性很強,非常適合使用多智能體人工智能技術(shù)來提高生產(chǎn)和測試效率。此外,王者榮耀產(chǎn)品中的視野非全局性,敵我雙方的實時位置、狀態(tài)能信息非理想透明,游戲測試環(huán)境中能提供豐富的數(shù)據(jù),模擬的場景,為研究模仿學(xué)習(xí)提供了保障;再者,天然的層次結(jié)構(gòu),在高層次對應(yīng)大局觀,在低層次中對應(yīng)了微操,適合層次強化學(xué)習(xí)研究?!彬v訊互動娛樂天美L1工作室總經(jīng)理、王者榮耀執(zhí)行制作人黃藍梟說到。
與AlphaGo相比,王者絕悟在技術(shù)復(fù)雜度與應(yīng)用價值上,都有了顯著的提升。據(jù)了解,王者絕悟在一局里有高達10的20000次方種操作可能性,整個宇宙原子總數(shù)也只是10的80次方。
面對這么復(fù)雜的決策,王者絕悟這幾年飛速成長,訓(xùn)練效率非常高,一天的訓(xùn)練強度高達人類 440 年。
表面上,選手和王者絕悟打了一場電競表演賽。但是實際上,王者絕悟背后,是AI從單體智能交互,到與多智能體交互的發(fā)展變化,這是其一。其二,是AI成長模式的進化:人工干預(yù)開始減少,機器智能對于環(huán)境的自主學(xué)習(xí)能力大大增強,從模仿學(xué)習(xí),到深度學(xué)習(xí),從“人工+智能”向自主智能轉(zhuǎn)化。
如今,王者絕悟已經(jīng)有了幾個兄弟,可以應(yīng)用于足球、FPS、RTS游戲,并且都達到了國際領(lǐng)先水平,其可遷移性得到了論證。此外,當(dāng)王者絕悟從0到1去學(xué)習(xí)進化,并發(fā)展出一套合理的行為模型之后,其中的方法和經(jīng)驗,也能夠在其他醫(yī)療、制造、無人駕駛等場景中得到運用。
以上種種,一方面,代表著人們距離多智能體的大范圍實際應(yīng)用在技術(shù)層面又向前走了一步;另一方面,也意味著“通用人工智能”在技術(shù)路徑上,也不再那么遙不可及。這才是王者絕悟背后真正的價值所在。
【結(jié)束語】
1943年,圖靈制造了一個叫做“巨人”的機器,用于破解德軍的密碼電報,標(biāo)志著AI的誕生。2012年,華裔科學(xué)家吳恩達展現(xiàn)了一個超強的神經(jīng)網(wǎng)絡(luò),在自助觀看千萬張圖片之后,識別圖片內(nèi)容,開啟了AI的新時代。
可以發(fā)現(xiàn),AI與人類對戰(zhàn),并不是其誕生的理由;AI戰(zhàn)勝人類,也不是其誕生的目的。這是人們在走向通用AI上的一條“捷徑”,讓人們以一種更低成本、更安全、更有效的方式走向那個科幻般的未來。
王者絕悟的多智能體博弈和自生長能力,是通用人工智能(AGI)成長路徑上的關(guān)鍵技術(shù)節(jié)點。在如此復(fù)雜的虛擬環(huán)境下,如果AI能夠表現(xiàn)出較高的智能水平,那么,在真實世界中的應(yīng)用前景就更值得期待了。
當(dāng)然,在這其中,王者絕悟并不是第一個,也不會是最后一個。但是,數(shù)字時代的潮水還在向前奔流,每一朵大的浪花都值得銘記。
請登錄以參與評論
現(xiàn)在登錄