DeepMind用AlphaZero开发国际象棋新规则!
DeepMind用AlphaZero開發國際象棋新規則!
?
道翰天瓊認知智能機器人平臺API接口大腦為您揭秘。還記得《生活大爆炸》里謝耳朵完虐舍友倫納德時玩的三維國際象棋嗎?三維國際象棋或者空間國際象棋指任何一種在空間中(也就是不局限于一個平面棋盤)的棋類游戲。從20世紀早期就有這種象棋形式,最早的版本之一是“德國式空間國際象棋”,并在《星際迷航》系列中頻頻出現,后來也被用到了《生活大爆炸》中,是典型的理工男影視道具。三維國際象棋或許難度太高,但如果只是稍微改改二維的國際象棋規則,會帶來什么不一樣的體驗呢?只是對于棋類游戲而言,規則非常重要,往往牽一發而動全身。如果改的不好,很可能會導致游戲變得不公平,或者無趣。但要確認新規則的有效性,特別是對于國際象棋這類探索空間非常大的游戲,需要大量的玩家玩大量的游戲后,才能確定新規則是否公平,新游戲是否有趣。有沒有更智能的方法呢?當然有!這一次,DeepMind創始人Demis Hassabis聯手國際象棋世界冠軍Vladimir Kramnik,用AlphaZero玩出了新花樣。他們嘗試了多種不同的國際象棋變體,每一種變體都對經典國際象棋的規則做了些許改變,并用AlphaZero在新規則下進行自我對弈(self-play)。Vladimir Kramnik是俄羅斯國際象棋特級大師,并且2000年至2007年間的國際象棋世界冠軍。2017 年底,DeepMind 發表了 AlphaZero的論文,AlphaZero是可以從零開始自學國際象棋、將棋和圍棋的系統,并最終在這三個棋類游戲上都打敗了世界最頂尖的程序。2018年底,DeepMind 對 AlphaZero 進行全面評估的論文發表在Science封面上。AlphaZero不需要任何內置的人類專業知識,只知道基本的游戲規則,并從隨機游戲開始訓練,就能實現世界最強。所以,用AlphaZero來探索新規則下的國際象棋非常合適。
1
9種新型國際象棋
設計一套足夠吸引人、而且公平的游戲規則并非易事。現代國際象棋已經發展了幾個世紀,如果沒有相關經驗,盲目修改游戲規則對整個棋局的影響是很難預測的。AlphaZero提供了一種替代性的計算手段來評估棋局的公平性。它可以不斷從自身獲得的經驗中學習,不需要任何人類監督,就能對任何規則改動進行評估進而得到近乎最優的策略。在本研究中,作者使用AlphaZero來創造性地探索和設計新的國際象棋規則。目前人們對費舍爾隨機棋(Fischer Random Chess)越來越感興趣,因為其涵蓋了經典國際象棋的大量開局理論、職業比賽中高比例的平局的特點,此外還需要雙方棋手在開戰前進行大量的練習。作者比較了另外9種國際象棋的變體棋種,這些規則的變化可以激發出很多新的戰略和戰術模式,同時還能使對局接近于原來的水平。通過使用AlphaZero學習每個棋種變體的最佳策略,我們就可以清楚,如果采用這些變體,人類高手之間的對局會是什么樣子。從定性上看,這些棋種變體具有動態的特點。分析表明,相同棋子在不同棋種變體中的重要性不同,一些棋種變體比經典的國際象棋在整體棋局中表現出了更強的決勝性。該發現證明了現代國際象棋有更多規則變化的可能性。
2
規則一直是活的
流行的游戲往往會隨著時間的推移而不斷發展,現代國際象棋也不例外。最初的國際象棋游戲起源于6世紀的印度,然后傳到波斯和穆斯林世界,后來傳到歐洲和全球。在中世紀,歐洲國際象棋主要還是以沙特蘭茲為基礎,這是一種起源于薩珊帝國的早期變體,是以印度的Chaturanga為基礎的,在這種變體中,皇后和主教的走法受到更多限制,棋子的威力也不如現代國際象棋,城堡當時還不存在。除了將軍以外,還可以通過暴露對方的國王來取勝,即吃掉對方所有其他棋子。在沙特蘭茲中,僵局被認為是勝利,而現在則被認為是平局。幾個世紀以來國際象棋的演變可以看作是搜索空間復雜性的變化和游戲最終結果的不確定性變化,現代規則比較重視后者,認為這是國際象棋游戲體驗的重要因素。人們對國際象棋進一步發展的興趣并沒有消退,特別是近來職業比賽中決定性的對局越來越少,選手們對于經典象棋的理論越來越依賴,再加上人們對象棋千變萬化的玩法的好奇心和不斷探索的欲望,產生了許多國際象棋的變體。這些變體涉及對棋盤、棋子位置或整體規則的改變,為棋手提供了"一些在普通國際象棋中無法體會到的微妙的有趣的東西"。目前最著名和最流行的國際象棋變體可能是Chess960或費舍爾隨機棋,其中第一橫排的棋子是從960種隨機排列中選取的,這使得前期的理論準備變得不可行。?國際象棋和人工智能有著千絲萬縷的聯系。圖靈(1953年)提出:"能不能制造一臺機器來下棋,并逐漸改進它的下法,人們再從它的經驗中獲取技巧?"雖然計算機國際象棋自20世紀50年代以來穩步發展,但圖靈問題的第二部分直到最近才完全實現,即AlphaZero的誕生。它的出現又催生了新的項目,如Leela Chess Zero和對現有國際象棋引擎的改進。CrazyAra采用了相關的方法來對Crazyhouse(也是一種國際象棋變體)進行了實驗,不過它需要從現有的人類游戲數據進行預訓練。原始AlphaZero系統的一些特性被證明可以泛化到Atari等領域,即使在沒有精確環境模擬器的情況下也能保持其在國際象棋上的性能。AlphaZero還顯示出超越游戲環境的能力,最近有研究表明可以將該模型應用在量子動力學的全局優化中。在任何游戲上訓練AlphaZero時,并不需要事先的游戲知識。因此,我們可以快速探索不同的規則集,并通過定量和定性的比較來確定所產生的游戲風格。這篇文章中,作者以AlphaZero的視角來研究國際象棋規則的幾種假設性變體,進而推測出國際象棋界可能感興趣的棋種變體。作者用AlphaZero研究了被Vladimir Kramnik公開倡導的No-castling變體,其出現在了2019年12月19日的職業比賽中。當時Luke McShane和Gawain Jones在倫敦國際象棋精英賽期間進行了有史以來第一場特級大師的No-castling比賽。此后,2020年1月在印度金奈舉辦了第一屆No-castling國際象棋比賽,出現了89%的決勝局。
3
規則變更示例
更改國際象棋的規則有多種方式,在這項工作中,作者限于考慮原子級變化,以使游戲盡可能接近經典的國際象棋。在某些情況下,需要對50步規則進行更改,以避免出現游戲無法結束的情況。這是為了保留原始游戲的對稱性和美學吸引力,同時希望通過新的開局、中局或尾局模式以及新穎的開局理論來發現動態的變體。考慮到這一點,作者沒有考慮任何涉及棋盤本身、棋子數或棋子布局的更改。表1列出了作者研究的規則變更。目前還沒有進行嚴格的審查,將僵局視為勝利在國際象棋界是一個懸而未決的問題。表1中列出的每個規則更改都可能以期望或不期望的方式影響游戲。例如,考慮No-castling變體(不允許使用城堡)。不使用城堡的一個可能結果是,如果國王在比賽中暴露更多,并且需要時間來確保國王的安全,那將導致游戲風格更傾向于進攻。然而,由于防御方也有反擊的機會,因此無法輕易保護自己的國王可能使攻擊成為糟糕的選擇。在經典象棋中,玩家通常在發動攻擊之前先進行防御。因此,這種改變可能導致比賽變得無趣,以及游戲方式變得更加受限。按照傳統,評估規則的唯一方法是讓大量的人類玩家長時間玩游戲,直到積累了足夠的經驗和理解為止。這不僅是一個漫長的過程,而且還需要大量玩家的支持。借助AlphaZero,可以自動化這一過程,并在一天內模擬相當于幾十年的人類游戲,從而使我們能夠通過計算機測試這些假設,并觀察游戲中每個已考慮變化的新興模式和理論。
?
道翰天瓊認知智能未來機器人接口API簡介介紹
- 認知智能是計算機科學的一個分支科學,是智能科學發展的高級階段,它以人類認知體系為基礎,以模仿人類核心能力為目標,以信息的理解、存儲、應用為研究方向,以感知信息的深度理解和自然語言信息的深度理解為突破口,以跨學科理論體系為指導,從而形成的新一代理論、技術及應用系統的技術科學。 認知智能的核心研究范疇包括:1.宇宙、信息、大腦三者關系;2.人類大腦結構、功能、機制;3.哲學體系、文科體系、理科體系;4.認知融通、智慧融通、雙腦(人腦和電腦)融通等核心體系。 認知智能四步走:1.認知宇宙世界。支撐理論體系有三體(宇宙、信息、大腦)論、易道論、存在論、本體論、認知論、融智學、HNC 等理論體系;2.清楚人腦結構、功能、機制。支撐學科有腦科學、心理學、邏輯學、情感學、生物學、化學等學科。3.清楚信息內涵規律規則。支撐學科有符號學、語言學、認知語言學、形式語言學等學科。4.系統落地能力。支撐學科有計算機科學、數學等學科。
認知智能CI機器人是杭州道翰天瓊智能科技有限公司旗下產品。認知智能機器人是依托道翰天瓊10年研發的認知智能CI體系為核心而打造的認知智能機器人大腦,是全球第一個認知智能機器人大腦。具有突破性,創新性,領航性。是新一代智能認知智能的最好的產品支撐。 認知智能機器人技術體系更加先進,更加智能,是新一代智能,認知智能領域世界范圍內唯一的認知智能機器人。 認知智能機器人是新時代的產物,是新一代智能認知智能的產物。代表了新一代智能認知智能最核心的優勢。和人工智能機器人大腦相比,優勢非常明顯。智能度高,客戶粘性大,客戶滿意度高,易于推廣和傳播等核心特點。 依托認知智能機器人平臺提供的機器人大腦服務,可以賦能各個行業,各個領域的智能設備,各類需要人機互動的領域等。認知智能機器人平臺網址:www.weilaitec.com,www.citec.top。歡迎注冊使用,走進更智能機器人世界。
認知智能和人工智能的優劣勢對比主要可以分為四大方面: 第一:時代發展不同。人工智能是智能時代發展的第二個階段,認知智能是智能時代發展的第三個階段。時代發展上決定了認知智能更顯具有時代領先性。 第二:基礎理論體系不同。人工智能的基礎理論體系以數學為基礎,以統計概率體系為基礎。認知智能基礎理論體系以交叉許可理論體系為基礎。包含古今中外哲學體系,心理學體系,邏輯學體系,語言學體系,符號學體系,數學體系等學科。其基礎理論體系更加具有創新性,突破性和領先性。且交叉學科理論體系的研究也是未來智能發展的大方向。其具體理論體系,還包含三體論(宇宙,信息,大腦三者關系),融智學,和HNC等。 第三:技術體系不同。人工智能的核心技術體系主要是算法,機器學習,深度學習,知識圖譜等。其主要功用在感知智能。感知智能其核心主要是在模仿人類的感知能力。認知智能的核心技術體系是以交叉學科理論體系而衍生出來的。具體包含三大核心技術體系,認知維度,類腦模型和萬維圖譜。認知智能的技術體系核心以類腦的認知體系為基礎。以全方位模仿類腦能力為目標。人工智能以感知智能為基礎的體系,只能作為認知智能中的類腦模型技術體系中的感知層技術體系。類腦模型大致包含,感知層,記憶層,學習層,理解層,認知層,邏輯層,情感層,溝通層,意識層等9大核心技術層。因此人工智能的核心只是作為認知智能類腦模型中的感知層。因此在技術體系上,人工智能和認知智能基本上沒有太多的可比性。 第四:智能度成本等方面的不同:人工智能產品的綜合智能程度,普遍在2-3歲左右的智力水平。認知智能產品其智能程度大致在5-8歲左右。認知智能體系構建的機器人更加智能。且更省時間,更省人力和資金。優勢非常多。具體請看下列的逐項對比。
?
?
?
?
總結
以上是生活随笔為你收集整理的DeepMind用AlphaZero开发国际象棋新规则!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 硅麦 (PDM)转USB接口芯片
- 下一篇: 用java语言如何编写圆面积_用java