色播桃花网,精品20p在线观看,十八岁以后免费观看的黄

王者絕悟：AI江湖里的“武林高手”-鋒巢網(wǎng)

2021世界人工智能大會走到了第四年，給人最明顯的感受就是AI已經(jīng)慢慢從酷炫的概念，逐漸被應(yīng)用到了更多的場景中?；行斡跓o形，潤物細無聲，不知不覺中人們與AI的交集已經(jīng)越來越多。

不過，就如馬化騰在開幕式中提到的“對AI的未知仍然大于已知”，在考慮到未來“通用AI”成熟后面臨的道德?lián)u擺問題之前，可能先要去解決的是路徑上的技術(shù)難題。而在這次的AI大會上，騰訊帶來的策略協(xié)作型AI王者絕悟，也許能夠成為未來通用AI探索之路上的一個“急先鋒”。

王者絕悟：AI江湖里的“武林高手”-鋒巢網(wǎng)

王者絕悟的“武林高手”晉升之路

王者絕悟，實際上是王者榮耀與騰訊AI Lab在游戲場景下研究的成果。

用通俗一點的話來理解“策略協(xié)作型AI”，“策略”指的是AI能夠通過獲取到的信息，分析局勢優(yōu)化策略，做出更有利于獲勝的行為；“協(xié)作”指的是操作不同英雄的多個智能體能夠互相配合，協(xié)同推進博弈。

一旦明白了所謂的“策略協(xié)作型AI”的定義，也許就能理解為什么在8日下午的“職業(yè)人氣選手 VS 王者絕悟”表演賽上，王者絕悟能夠表現(xiàn)如此出色 —— 團戰(zhàn)越塔收割，完美撤退；以一敵眾，掩護隊友撤退，穩(wěn)固優(yōu)勢等等。

王者絕悟：AI江湖里的“武林高手”-鋒巢網(wǎng)

2021世界人工智能大會，“職業(yè)人氣選手 VS 王者絕悟”表演賽現(xiàn)場

有趣的是，王者絕悟并非一開始就這么“聰明”。事實上，回顧它的發(fā)展歷程，特別像經(jīng)典武俠小說里，一個武林高手的成長故事。

在18年面世的時候，王者絕悟通過監(jiān)督學(xué)習(xí)，模擬了職業(yè)選手的操作，達到了頂尖業(yè)余水平。19年，它開始往深度強化學(xué)習(xí)課題上深入，達到了職業(yè)電競水平。

好比一個初出茅廬的毛頭小子，開始只能靠跟著師傅，“模仿”招式學(xué)習(xí)武功。但畢竟只是“模仿”，運氣好學(xué)到的是“九陽神功”，運氣不好可能就只能學(xué)到個“葵花點穴手”。而到了深度學(xué)習(xí)階段，他決定不再模仿，而是開始自己修煉，逐漸擺脫了那些“套路化”的招式。

到了2020年，王者絕悟又通過課程化自我博弈，從單個或者固定英雄組合，高效地擴充到更多英雄組合的學(xué)習(xí)。

而在騰訊AI Lab高級研究員、王者絕悟AI模型負責(zé)人邱福浩描述的王者絕悟最新版本中，它進一步引用了多輪組合博弈和層次化的強化學(xué)習(xí)算法。也就是說，現(xiàn)在王者絕悟不僅能和你直接戰(zhàn)斗，甚至在戰(zhàn)斗之前的BP環(huán)節(jié)，就已經(jīng)開始思考策略，并且戰(zhàn)局中也能夠持續(xù)調(diào)整策略來應(yīng)對各種局面。

用邱福浩的來說，如今的王者絕悟，已經(jīng)達到全英雄職業(yè)電競水平。

王者絕悟：AI江湖里的“武林高手”-鋒巢網(wǎng)

王者榮耀與騰訊AI Lab團隊成員現(xiàn)場答疑

但是，就像改變世界的是“武道”，不是“武術(shù)”。王者絕悟在游戲場景、電競行業(yè)中都有著直接、有效的幫助。但是，這還不足以稱其為“通用AI路徑上的一個急先鋒”。

真正值得一提的，是王者絕悟背后所代表的技術(shù)發(fā)展浪潮。

王者絕悟：AI江湖里的“武林高手”-鋒巢網(wǎng)

“人工+智能”向自主智能的進化

現(xiàn)如今，AI對于各行各業(yè)的賦能，已經(jīng)不用多說，從上下班打卡的人像識別、到陪玩游戲的語音助理… 其價值已經(jīng)被大家廣泛認知并認可。

但是，AI的開發(fā)、訓(xùn)練、調(diào)試的過程中，如果完全放到現(xiàn)實中去進行，存在成本高、風(fēng)險大的問題。因此，游戲是最好的虛擬化場景。從簡單到復(fù)雜、從低級到高級，AI研究的不同歷史時期，都能找到對應(yīng)的、不同復(fù)雜度的游戲作為測試相關(guān)技術(shù)主要難題的技術(shù)試驗場。

2016年，AlphaGo一戰(zhàn)成名。作為許多年前的“第一批AI網(wǎng)紅”， AlphaGo的技術(shù)邏輯并不難理解：通過“走棋網(wǎng)絡(luò)”模仿棋手，然后借助樹搜索，分析戰(zhàn)況，推演未來的每一步棋的變化，接著憑借估值網(wǎng)絡(luò)，分析局勢，判斷勝率，最后做出行動。

王者絕悟：AI江湖里的“武林高手”-鋒巢網(wǎng)

AlphaGo對陣李世石

但是，AlphaGo僅僅是單體智能決策，而且圍棋是一個規(guī)則明確、完全信息透明的單人游戲。如今，真正在各個場景下發(fā)揮重大應(yīng)用價值的，是技術(shù)相對更加復(fù)雜的多智能體決策，這也就對測試環(huán)境提出了更高的要求。

簡而言之，就是要模擬出一個工廠之類的環(huán)境，測試如何讓工廠里的各個機器人在不吵架（或者可以吵架）的前提下，既完成自己的小目標(biāo)，也完成好組織要求的“裝好一輛汽車”的大目標(biāo)。

現(xiàn)實情況下，不可能天天給科學(xué)家們找?guī)准夜S來實驗。于是，谷歌、Facebook、特斯拉等公司，開始直接或者讓投資組合下的公司開啟多智能體AI在多人競技游戲環(huán)境下的實驗，而在中國，王者榮耀與騰訊AI Lab一同推出了王者絕悟。

不過，為什么偏偏是王者絕悟；或者說，為什么說王者榮耀能成為一個絕佳的研究環(huán)境呢？

“王者榮耀的游戲機制具有很強的多人協(xié)作性、在不對稱信息下博弈空間極大、協(xié)作競技性很強，非常適合使用多智能體人工智能技術(shù)來提高生產(chǎn)和測試效率。此外，王者榮耀產(chǎn)品中的視野非全局性，敵我雙方的實時位置、狀態(tài)能信息非理想透明，游戲測試環(huán)境中能提供豐富的數(shù)據(jù)，模擬的場景，為研究模仿學(xué)習(xí)提供了保障；再者，天然的層次結(jié)構(gòu)，在高層次對應(yīng)大局觀，在低層次中對應(yīng)了微操，適合層次強化學(xué)習(xí)研究?！彬v訊互動娛樂天美L1工作室總經(jīng)理、王者榮耀執(zhí)行制作人黃藍梟說到。

王者絕悟：AI江湖里的“武林高手”-鋒巢網(wǎng)

2020年，王者絕悟正式與玩家“見面”

與AlphaGo相比，王者絕悟在技術(shù)復(fù)雜度與應(yīng)用價值上，都有了顯著的提升。據(jù)了解，王者絕悟在一局里有高達10的20000次方種操作可能性，整個宇宙原子總數(shù)也只是10的80次方。

面對這么復(fù)雜的決策，王者絕悟這幾年飛速成長，訓(xùn)練效率非常高，一天的訓(xùn)練強度高達人類 440 年。

表面上，選手和王者絕悟打了一場電競表演賽。但是實際上，王者絕悟背后，是AI從單體智能交互，到與多智能體交互的發(fā)展變化，這是其一。其二，是AI成長模式的進化：人工干預(yù)開始減少，機器智能對于環(huán)境的自主學(xué)習(xí)能力大大增強，從模仿學(xué)習(xí)，到深度學(xué)習(xí)，從“人工+智能”向自主智能轉(zhuǎn)化。

如今，王者絕悟已經(jīng)有了幾個兄弟，可以應(yīng)用于足球、FPS、RTS游戲，并且都達到了國際領(lǐng)先水平，其可遷移性得到了論證。此外，當(dāng)王者絕悟從0到1去學(xué)習(xí)進化，并發(fā)展出一套合理的行為模型之后，其中的方法和經(jīng)驗，也能夠在其他醫(yī)療、制造、無人駕駛等場景中得到運用。

以上種種，一方面，代表著人們距離多智能體的大范圍實際應(yīng)用在技術(shù)層面又向前走了一步；另一方面，也意味著“通用人工智能”在技術(shù)路徑上，也不再那么遙不可及。這才是王者絕悟背后真正的價值所在。

王者絕悟：AI江湖里的“武林高手”-鋒巢網(wǎng)

2021世界人工智能大會現(xiàn)場，王者絕悟展區(qū)：觀眾圍觀王者絕悟演示

【結(jié)束語】

1943年，圖靈制造了一個叫做“巨人”的機器，用于破解德軍的密碼電報，標(biāo)志著AI的誕生。2012年，華裔科學(xué)家吳恩達展現(xiàn)了一個超強的神經(jīng)網(wǎng)絡(luò)，在自助觀看千萬張圖片之后，識別圖片內(nèi)容，開啟了AI的新時代。

可以發(fā)現(xiàn)，AI與人類對戰(zhàn)，并不是其誕生的理由；AI戰(zhàn)勝人類，也不是其誕生的目的。這是人們在走向通用AI上的一條“捷徑”，讓人們以一種更低成本、更安全、更有效的方式走向那個科幻般的未來。

王者絕悟的多智能體博弈和自生長能力，是通用人工智能（AGI）成長路徑上的關(guān)鍵技術(shù)節(jié)點。在如此復(fù)雜的虛擬環(huán)境下，如果AI能夠表現(xiàn)出較高的智能水平，那么，在真實世界中的應(yīng)用前景就更值得期待了。

當(dāng)然，在這其中，王者絕悟并不是第一個，也不會是最后一個。但是，數(shù)字時代的潮水還在向前奔流，每一朵大的浪花都值得銘記。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31