被AI人机疯狂单杀?王者荣耀AI“绝悟”亲测体验
文章目錄
- (一) 如何評(píng)測(cè)“絕悟”的智能程度?
- (二)“絕悟”個(gè)體操作能力分析
- 2.1 草叢埋伏
- 2.2 越塔強(qiáng)殺
- 2.3 技能避傷
- 2.4 技能combo
- (三)“絕悟”團(tuán)隊(duì)意識(shí)能力分析
- 3.1 團(tuán)隊(duì)支援
- 3.2 團(tuán)隊(duì)控龍
- 3.3 反野意識(shí)
- (四)“絕悟”的一些“愚蠢行為”
- 4.1 戀泉行為
- 4.2 莽夫行為
- 4.3 滯留行為
- 4.4 自信回頭
2019年12月20號(hào),騰訊AI Lab發(fā)布了一篇paper,稱他們利用深度強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練了出了一個(gè)超強(qiáng)AI“絕悟”,該AI能輕松擊敗頂尖水平的職業(yè)選手。在論文發(fā)出不久后,我寫了一篇我個(gè)人對(duì)論文思想的理解:利用Deep Reinforcement Learning訓(xùn)練王者榮耀超強(qiáng)AI,雖然論文中貼出了該 AI 與職業(yè)選手們的交戰(zhàn)數(shù)據(jù),但無一敗場(chǎng)的戰(zhàn)績(jī)實(shí)在是令我激動(dòng)的同時(shí)也產(chǎn)生了一些疑惑,到底“絕悟”能進(jìn)行哪些操作能夠把職業(yè)玩家打的毫無脾氣。時(shí)隔半年,王者團(tuán)隊(duì)終于開放了絕悟的接口,在2020年5月1日-2020年5月2日讓所有玩家在線上都能和“絕悟”過過招,于是我集結(jié)了我的小伙伴,在5月1日00:00的時(shí)候開始了自虐性的挑戰(zhàn),下面我根據(jù)保存的回放來帶大家看看“絕悟”的實(shí)力吧。
“絕悟”一共有5個(gè)關(guān)卡,其難度從低到高,一晚上我們玩了3把,還剩下2關(guān)未挑戰(zhàn),不過看名字也大概知道難度不小了。我們小隊(duì)的實(shí)力并不算強(qiáng),平均只有鉆石星耀的水平,所以在接下來我貼出的對(duì)戰(zhàn)視頻中我會(huì)重點(diǎn)分析敵方AI的玩法策略,請(qǐng)大家不要在意我們蹩腳的操作,畢竟珍貴的數(shù)據(jù)是AI算法模型,而不是我們的平民操作…。以下是我們未挑戰(zhàn)的兩個(gè)關(guān)卡,分別是 KPL 春季冠軍陣容和秋季冠軍陣容,昨晚打完第 3 關(guān)已經(jīng)是深夜了所以我們沒有繼續(xù)玩下去,所以在這篇博客中貼的對(duì)戰(zhàn)數(shù)據(jù)均是來自前 3 關(guān),“絕悟” 會(huì)有一些看起來很 “愚蠢” 的行為,我在之后會(huì)詳細(xì)分析,但我不確定這些 “愚蠢” 的行為是否在后 2 個(gè)關(guān)卡仍然存在,等我們挑戰(zhàn)完了最后 2 關(guān)后我會(huì)更新這個(gè)博客中的內(nèi)容。
(一) 如何評(píng)測(cè)“絕悟”的智能程度?
游戲 AI 這個(gè)概念其實(shí)并不新鮮,但在早年間人們?cè)黾?AI 強(qiáng)度都是通過一些 “作弊” 的手法,例如讓 AI 有著更快的經(jīng)濟(jì)發(fā)育速度,或是觀測(cè)視野比人類玩家更寬廣,甚至縮減 AI 單位的技能CD,這些不公平的設(shè)定讓那些輸給 AI 的玩家都十分的不服氣,這根本不能叫做 “智能”。所謂智能,AI 應(yīng)該擁有和人類完全等同的信息輸入,即利用人類能獲得信息進(jìn)行行為決策,這才叫智能。“絕悟AI” 在設(shè)計(jì)之初就被定義為一個(gè) “智能AI”,AI 模型所能看到信息的和人類一樣,包括當(dāng)前游戲畫面和一些敵我雙方人頭數(shù)等游戲狀態(tài)信息(具體參見我在引言中貼出的博客鏈接),這樣,“公平智能”的問題就得以解決。
那么,我們?nèi)绾蝸碓u(píng)價(jià)“絕悟”的“智能程度”呢?玩 MOBA 游戲的人都知道,玩好這類游戲都需要以下 2 個(gè)必備素質(zhì):個(gè)體操作 + 團(tuán)隊(duì)意識(shí)。個(gè)體操作是指對(duì)英雄的行為控制,包括技能combo、走位、技能避傷、草叢埋伏等;團(tuán)隊(duì)意識(shí)是指在如何和隊(duì)友進(jìn)行配合,共同取得有利于己方隊(duì)伍的戰(zhàn)場(chǎng)條件,包括反野、偷野、支援、團(tuán)戰(zhàn)等。接下來我會(huì)對(duì) “絕悟” 挨個(gè)進(jìn)行上述能力的分析,其中每一小節(jié)貼出的視頻均來自我們小隊(duì)的戰(zhàn)斗回放。
(二)“絕悟”個(gè)體操作能力分析
對(duì)于個(gè)體操作來說上“絕悟”算是比較強(qiáng)的了,我在之前的論文分析那篇博客中有提到過,AI Lab 在進(jìn)行模型訓(xùn)練的時(shí)候是為每一個(gè)英雄訓(xùn)練了一個(gè)獨(dú)立的模型,連職業(yè)選手也難以獲勝,下面我們就結(jié)合實(shí)際視頻來看看 “絕悟” 都有哪些令人驚嘆的個(gè)體操作吧。
2.1 草叢埋伏
說到“蹲草叢”想必大家并不陌生,作為一個(gè)控制類的英雄一定要學(xué)會(huì)埋伏,等到敵人進(jìn)入到攻擊范圍內(nèi)后一套帶走。但是想總結(jié)出一套“埋伏”的規(guī)則其實(shí)是很難的,人類很難寫出一個(gè)完整的“蹲草叢”規(guī)則告訴 AI 應(yīng)該在什么情況下在草叢里等待,等待多久,到什么時(shí)候放棄等待,什么時(shí)候發(fā)起進(jìn)攻等等。因此,選擇在何時(shí)進(jìn)行埋伏,埋伏多久全都是由 “絕悟” 自己通過思考得出的,極大程度的還原了人類玩家在玩王者時(shí)的思路。下圖是敵方虞姬埋伏我方伽羅的畫面,在兵線交鋒的邊路敵方虞姬并沒有著急清線而是躲在一旁的草從中,等到我方伽羅走到其技能范圍內(nèi)后開出1 技能并隨即接大,這樣一套下來差點(diǎn)帶走我方伽羅,可以說在這種“埋伏意識(shí)”上,“絕悟”已經(jīng)符合了一個(gè)基本人類玩家的水平了。
除了邊路埋伏,“絕悟”還會(huì)在野區(qū)偷偷藏起來等待獵物上鉤。比如下圖這個(gè)敵方孫策在敵方紅區(qū)埋伏狩獵的畫面,當(dāng)時(shí)我方在上路處于很大優(yōu)勢(shì),邊路兵線也已經(jīng)帶到了敵方高地了。在通常情況下,處于優(yōu)勢(shì)的一方在途經(jīng)敵方紅區(qū)時(shí)會(huì)順手拿掉敵方的紅 buff,“絕悟” 恰好對(duì)我們的心里做好了預(yù)判,提前埋伏在草叢中等待鎧來偷紅。但這一次我們的鎧并沒有選擇優(yōu)先拿紅,而是想優(yōu)先推掉高地,計(jì)謀未能得逞的孫策立馬改變策略,從草叢中現(xiàn)身和隊(duì)友鬼谷子一起進(jìn)行兵線攔截。
在草叢埋伏行為里,選擇突進(jìn)的時(shí)機(jī)是十分重要的,即操控者需要知道什么時(shí)候應(yīng)該在草叢中發(fā)動(dòng)突進(jìn)攻擊。在下圖中,敵方后裔一個(gè)人在邊路對(duì)線,此時(shí)我方大小姐和瑤都在線上,如果貿(mào)然發(fā)起進(jìn)攻,后裔很難1v2還能全身而退。因此后裔選擇等待從野區(qū)趕來的李白,等到李白入場(chǎng)眩暈大小姐后才選擇從草叢現(xiàn)身配合其一起進(jìn)行圍剿。“絕悟”的這次等待隊(duì)友支援的行為是不是特別像我們?nèi)祟愅婕以谕嬗螒驎r(shí)候的行為呢?
2.2 越塔強(qiáng)殺
越塔強(qiáng)殺是指在無視敵方防御塔直接選擇擊殺敵方殘血的目標(biāo)單位,這個(gè)舉動(dòng)是一個(gè)極具風(fēng)險(xiǎn)的行為,也被人們稱為一種很“秀”的操作。越塔強(qiáng)殺需要操作者有十足的把握,對(duì)自己英雄的技能combo和場(chǎng)上的局勢(shì)分析十分準(zhǔn)確。在我們和“絕悟”的交戰(zhàn)中,“絕悟” 操控?cái)撤酵駜簩?duì)我方云中君發(fā)起過一次越塔進(jìn)攻,下圖畫面中婉兒在判斷此時(shí)自身血量充足且大招已就緒后選擇強(qiáng)飛收掉我方殘血云中君,最后利用大招再從野區(qū)撤退。萬幸的是我方云中君即時(shí)開大剁掉了傷害,緊接著我方妲己及時(shí)趕到控住并帶走了敵人。雖然這是一次失敗的收割,但“絕悟”能在如此短時(shí)間內(nèi)果斷做出一次大膽的“越塔”決策實(shí)屬不易,如果不是妲己及時(shí)趕到,上官還是有很大可能性是活著走掉的。
2.3 技能避傷
技能避傷是指利用自身技能效果來規(guī)避敵方傷害,靈活使用技能避傷屬于比較高端的一個(gè)操作了,這需要玩家熟知自身技能效果,留好技能cd,在適當(dāng)?shù)臅r(shí)機(jī)釋放技能以規(guī)避傷害。下面是敵方李白在受到我方米萊迪大的鎖定后,利用自身 2 技能避傷的畫面片段,這也是我個(gè)人非常驚訝的一點(diǎn),因?yàn)?AI 不僅要學(xué)會(huì)自身技能是可以規(guī)避傷害的,同時(shí)還要能夠記住敵方英雄技能造成傷害的時(shí)間。舉例來講,下圖米萊迪的大招并非瞬間造成高額傷害,而是在一段時(shí)間后延時(shí)爆炸,“絕悟” 不僅需要提前計(jì)算好米萊迪大招爆炸的時(shí)間還要在一瞬間內(nèi)釋放2 技能實(shí)現(xiàn)傷害躲避,由于不同技能的延時(shí)時(shí)間不同,這就要求 “絕悟” 需要具備很高程度的學(xué)習(xí)能力。
2.4 技能combo
技能 combo 是指技能釋放連招,選擇適合的技能釋放順序能夠讓英雄打出高額的瞬發(fā)傷害?!敖^悟” 的技能釋放順序是通過不斷的“自我學(xué)習(xí)” 學(xué)習(xí)出來的,這在 AI Lab 的論文中也有提到。其實(shí)在整局比賽中技能 combo 表現(xiàn)的非常頻繁,combo 也是個(gè)體操控中最基本的操控技術(shù),這里貼一個(gè)敵方孫策利用自身技能 combo 一套帶走我方伽羅的片段:
(三)“絕悟”團(tuán)隊(duì)意識(shí)能力分析
在我們看完了“絕悟”的個(gè)體操控技術(shù)后,我們?cè)賮砜纯础敖^悟”的團(tuán)隊(duì)意識(shí)怎么樣吧。其實(shí)說實(shí)話,我對(duì) “絕悟” 的個(gè)體操作能力并不感到意外,畢竟強(qiáng)化學(xué)習(xí)在單體操控上取得不小的成就已經(jīng)不是頭一次了,但對(duì)于團(tuán)隊(duì)配合的任務(wù),“絕悟”的表現(xiàn)還是令我眼前一亮。對(duì)于多單位之間的協(xié)同配合問題一直以來在強(qiáng)化學(xué)習(xí)領(lǐng)域都是備受人們關(guān)注,各個(gè)單位之間應(yīng)該采取什么樣的個(gè)體決策,最終使得整個(gè)團(tuán)隊(duì)的收益最大化,這是一個(gè)非常復(fù)雜的問題。但 “絕悟” 能夠很好的進(jìn)行團(tuán)隊(duì)行為分析,包括支援邊路隊(duì)友,分工清龍,共同反野等在內(nèi)的多個(gè)行為都令我感到十分驚嘆,這證明強(qiáng)化學(xué)習(xí)在“多單位合作”任務(wù)上又取得了一次進(jìn)步,下面就讓我們來看看這些行為的案例。
3.1 團(tuán)隊(duì)支援
團(tuán)隊(duì)支援是指英雄對(duì)其他路的英雄給予適當(dāng)?shù)膸椭?#xff0c;輔助完成擊殺或是解救瀕死隊(duì)友。下圖是敵方中路和輔助在完成中路清線后選擇到下路幫忙擊殺我方伽羅和夏侯惇的片段:
除了“輔助擊殺”,“絕悟”還會(huì)在隊(duì)友處于危險(xiǎn)的時(shí)候選擇“營(yíng)救”。下圖是我方追擊敵方殘血耀時(shí),婉兒進(jìn)行解救的畫面片段??梢钥闯?#xff0c;敵方上官并沒有開團(tuán)的意向,只是在意識(shí)到了殘血隊(duì)友的危險(xiǎn)處境后,選擇在側(cè)面釋放技能進(jìn)行封路和干擾來營(yíng)救隊(duì)友,也算的上是一次相當(dāng)不錯(cuò)的“營(yíng)救”決策了。
3.2 團(tuán)隊(duì)控龍
暴君和龍王是王者里比較強(qiáng)力的野怪了,在適當(dāng)時(shí)機(jī)拿龍可以幫助團(tuán)隊(duì)快速獲取場(chǎng)面優(yōu)勢(shì),我一直以為王者的 AI 在控龍的方面能力應(yīng)該不強(qiáng),甚至一場(chǎng)下來控龍次數(shù)為 0 也不足為奇,畢竟要想做出控龍的決策需要整個(gè)團(tuán)隊(duì)的極好配合才能完成。令我沒想到的是,“絕悟” 在控龍決策上竟然有不小的主動(dòng)性,這里節(jié)選了 2 段敵方主動(dòng)開龍的場(chǎng)面,注意觀看第一個(gè)畫面中上官婉兒的行為,她一直在充當(dāng)一個(gè)“偵察哨兵”的角色,并不參與打龍,而是好像任務(wù)很明確般的在側(cè)面守住入口,當(dāng)我方伽羅靠近龍坑時(shí)立馬沖向了伽羅想要將其擊退,此時(shí)龍坑中的耀也發(fā)現(xiàn)了入侵伽羅,果斷選擇暫時(shí)放棄打野,留鬼谷子在原地拖住小龍,釋放 2 技能越墻逼退伽羅,在成功逼退后才回到龍坑繼續(xù)輸出。這一次的控龍,整個(gè)團(tuán)隊(duì)可以說是配合的非常好了,尤其是在“及時(shí)任務(wù)分配”上,誰放哨,誰擊退敵人,誰留在原地控龍,這些都是在一瞬間做出的任務(wù)分配,這一次的配合真的是令我非常意外。
除了控龍時(shí)各英雄之間的“任務(wù)分配”外,“絕悟” 還知道在什么時(shí)候應(yīng)該“開龍”,這是敵方李白在清完中路超級(jí)兵線后直接選擇開風(fēng)暴龍王的畫面,當(dāng)時(shí)我方處于劣勢(shì),線也被壓得很緊,“絕悟” 預(yù)測(cè)我方此時(shí)需要花大量時(shí)間清線,此時(shí)是他們最好的開龍機(jī)會(huì),于是立即召集隊(duì)友進(jìn)攻風(fēng)暴龍王,這個(gè)決策展露了“絕悟”擁有著相當(dāng)了不起的局勢(shì)評(píng)估能力。
3.3 反野意識(shí)
反野是指我方英雄入侵對(duì)方野區(qū)進(jìn)行經(jīng)濟(jì)發(fā)育的行為,通常我們會(huì)選擇在己方野區(qū)發(fā)育,在一些順風(fēng)局勢(shì)的時(shí)候,我們也會(huì)入侵?jǐn)撤揭皡^(qū),趁敵方英雄不注意的時(shí)候收掉敵方野區(qū)的野怪來增加己方的團(tuán)隊(duì)優(yōu)勢(shì)?!敖^悟” 似乎也能明白這個(gè)道理,在我方處于劣勢(shì)時(shí)選擇入侵我們的野區(qū),例如下圖中敵方虞姬正在清掉我方野區(qū)的野怪,整個(gè)片段看下來好像一個(gè)目的明確的人類玩家做出的行為決策一樣——先收掉中路的豬,再收掉邊路的鳥,最后清掉線上的龍。
(四)“絕悟”的一些“愚蠢行為”
我在最開始也說了,盡管“絕悟”在很多方面都已經(jīng)貼近人類玩家的操作甚至要優(yōu)于人類玩家,但還是會(huì)存在一些看起來比較“呆萌”的行為,讓人們一看就知道不是真實(shí)的人類在玩游戲,我也不確定是不是因?yàn)槲覀冃£?duì)玩的不是最高難度的關(guān)卡才會(huì)出現(xiàn)這些行為,如果我們小隊(duì)能夠順利挑戰(zhàn)玩剩下的 2 個(gè)關(guān)卡我會(huì)回來更新這篇文章的,下面我們就來列舉一些我發(fā)現(xiàn)的呆萌行為吧。
4.1 戀泉行為
“絕悟”會(huì)偶爾讓某些英雄在家里呆著不出泉水一段時(shí)間,這個(gè)現(xiàn)象不是一次兩次,在我看視頻回放的時(shí)候發(fā)現(xiàn)了好幾次,比如下面這種單人戀泉行為:
或是這種多人戀泉行為:
這個(gè)現(xiàn)象非常的有趣,我猜想大概是因?yàn)?“絕悟” 是一個(gè)全局決策模型,當(dāng)前線英雄行為決策非常忙碌的時(shí)候,這些呆在“安全區(qū)域”的英雄就會(huì)暫時(shí)“失寵”吧。
4.2 莽夫行為
在和“覺悟”的對(duì)決中,有一段著實(shí)是令我感到非常歡樂,就是下面這個(gè)敵方牛頭企圖單殺打龍最終被打龍反殺的片段,一個(gè)輔助在輸出不在的情況下竟然敢獨(dú)自開龍,并且在血限極低的情況下也不選擇撤離,就是要和打龍硬剛。這個(gè)應(yīng)該是我所有回放里最愚蠢的一次行為了,但通過仔細(xì)觀察可以發(fā)現(xiàn),當(dāng)時(shí)敵方后裔本來是朝著牛頭的位置奔去了,哪知走到一半扭頭刷紅去了,完全無視了自己的輔助在龍坑持續(xù)被拍,這應(yīng)該算的上是“絕悟”的一次決策失誤吧。有趣的是,在牛頭被打死之前,我們小隊(duì)有人在全體聊天頻道打出了 “你們這樣很影響我充錢的心情啊”,隨機(jī)牛頭就被龍拍死了,也不知道 “絕悟” 是不聰明呢還是太聰明了。
4.3 滯留行為
作為一個(gè)成熟的 AI 系統(tǒng),“絕悟”還是會(huì)和大多 AI 一樣偶爾迷茫一下,比如下面這個(gè)鬼谷子就卡在墻邊不知何去何從,在那一瞬間,“絕悟” 不知道該為這個(gè)英雄選擇怎么樣的行為,于是只能讓它在原地不斷徘徊,直到我方伽羅對(duì)他發(fā)起攻擊后才開始慌忙撤退,我之所以把這個(gè)行為歸類為一次失誤,是因?yàn)樗磉叢輩怖锊]有任何隊(duì)友,如果有隊(duì)友在的話可以理解為鬼谷子是想進(jìn)行一次“勾引”,但事實(shí)并非如此,應(yīng)該就是一次單純的迷惘決策吧。
4.4 自信回頭
相信自信回頭在人類操作中是非常常見的一個(gè)迷惑行為了,在血量極低的情況下認(rèn)為我能行我能秀,結(jié)果被反殺的毫無還手之力?!敖^悟” 在進(jìn)行自我學(xué)習(xí)的時(shí)候也非常完美的繼承了人類玩家的這一特點(diǎn),下面就是一個(gè)最好的例子,敵方絲血耀在逃亡過程中經(jīng)過一番深思熟慮后決定要回頭反殺這兩個(gè)滿血的弟弟,一波果斷的開大回閃之后被我方夏侯拿掉了人頭。
總體來說,這次和“絕悟”的交手確實(shí)令我大開眼界,機(jī)器在玩游戲的時(shí)候不會(huì)帶有任何的感情因素,該開團(tuán)就開團(tuán),不像我們?cè)谕娴臅r(shí)候會(huì)上頭,不分三七二十一沖上去就是開團(tuán),“冷靜” 和 “理智” 是人類永遠(yuǎn)無法戰(zhàn)勝機(jī)器的兩點(diǎn)。另外,“絕悟” 在對(duì)戰(zhàn)過程中還加入了一些人類互動(dòng)的因素,例如在我方被團(tuán)滅的時(shí)候絕悟會(huì)在公屏上說 “好安靜啊” 來嘲諷我們,這也算是天美團(tuán)隊(duì)一個(gè)比較俏皮的設(shè)計(jì)元素。也不知道隨著 AI 技術(shù)的發(fā)展,以后的 AI 系統(tǒng)是否能夠賦予計(jì)算機(jī)人類一樣的思維。其實(shí) “絕悟” 通過自我學(xué)習(xí)后,在王者上的好多行為決策已經(jīng)和人類非常相似了,如果一旦讓機(jī)器完全繼承了人類玩家的思維,那么憑借著超快的計(jì)算能力,未來 AI 想要擊敗人類玩家或許就輕而易舉了吧。距離 “挑戰(zhàn)絕悟” 活動(dòng)還有3天,今晚我們小隊(duì)會(huì)繼續(xù)嘗試挑戰(zhàn)剩下的兩個(gè)超難關(guān)卡,祝我們好運(yùn)!
(文中視頻高清地址:https://v.youku.com/v_show/id_XNDY1NjY2NTc4NA==.html,因csdn上傳gif大小限制,文中所有畫面都比較模糊,如對(duì)完整視頻內(nèi)容比較感興趣的可以點(diǎn)擊鏈接觀看)
總結(jié)
以上是生活随笔為你收集整理的被AI人机疯狂单杀?王者荣耀AI“绝悟”亲测体验的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于文本知识库的强化学习技术——Lear
- 下一篇: Sigmoid函数与逻辑回归