UT2014学习笔记
3.1 踢
之前:模仿另一個代理的現有踢球來學習從已知的起點進一步踢球。
現在:采取必要的步驟接近球后可靠地踢球。
改進的方法:通過學習為團隊的全方位步行引擎設置的一個新的踢進方式步行參數。
目的:在目標點的一個小邊界框內停止,同時保證代理不會超出該目標。
踢進方式:
“踢進方式”參數集根據以下公式更新X和Y方向上的目標行走速度:
其中:maxDecel[X,Y]和buffer的值是使用CMAES算法在一個任務上進行優化的,在這個任務中,機器人向上走到一個可以將球踢出的位置。機器人有12秒的時間到達可以踢球的位置,在優化過程中會得到以下獎勵:
3.2 帶球傳球
判斷條件:是否能踢到球并從球的當前位置得分
可以得分:這樣去做
不可以得分:將以10度方向增量對目標進行踢球采樣,對于所有可行的踢球方向目標(那些沒有將球踢出界外或向后太遠的目標),代理將根據公式(1)為每個目標分配一個分數。
對公式1的解釋:公式1獎勵將球移向對手球門的踢腿,懲罰使球靠近對手的踢腿,也獎勵靠近隊友落地的踢腿。公式1的所有距離均以米為單位。選擇的踢向是目標球位置得分最高的踢。當代理接近球(0.8米以內)時,其選擇的踢向是固定的,并保持5秒,以防止在踢向之間的顛簸。
接下來:一旦一個代理決定了一個目標向它踢球,然后將這個目標廣播給他的隊友。然后,一對經紀人使用“踢預期”,根據球被踢后的預期位置,他們跑向場地上有利于接球的位置。分配到這些預期位置的代理由動態角色分配系統選擇。
優勢:這樣一個去踢球的經紀人將在任何時候廣播它打算踢球的地方,而不僅僅是在靠近球的時候,只要滿足有時間踢球而不是運球的要求(沒有對手在離球兩米以內,沒有對手比考慮踢球的經紀人更靠近球)。
通過延長經紀人在踢球前廣播的時間,隊友可以有更多的時間跑到預期的踢球地點,以便接到踢球經紀人的傳球。另外,2014年新的隊友避免在球被踢之前妨礙球的投射軌跡,以防止他們意外阻擋球。
3.3 線路數據定位
之前的定位:僅使用對地標(四個角旗和球場兩端的兩個門柱)的觀察以及里程計更新。
缺點:有時機器人會走出場地中央附近的邊界,那里沒有地標,迷失方向,再也不會回到賽場。
改進措施:在particle filter(種子過濾器)中增加了line information(線信息)
具體的實施:將觀測到的最長K條譜線分別與場地存在的所有譜線的已知位置進行比較。使用端點之間的距離、直線之間的銳角和直線長度比等度量來確定觀察直線與每條實際直線的相似性。對于每一條觀察到的線,最高的相似度值被表示為一個概率,并用于更新種子。
結果:由于有線完全圍繞著場地,假設一個機器人站起來,它應該總是能夠看到至少一條線,如果它目前在球場上。如果機器人長時間(4秒)看不到一條線,機器人會自動假設它現在已經丟失并離開場地,這樣機器人就會停止并原地轉動,直到看到一條線重新定位。
此外,如果機器人看不到任何線條,它會向隊友廣播它不在場地。如果任何隊友看到一個報告自己沒有被定位的機器人,他們將廣播未定位機器人的當前x、y位置和(2014年新增)定向角度,以便它可以使用其他機器人的觀察來定位自己。根據經驗,我們發現,在將線路數據納入本地化后,我們的代理在離開現場時不再迷路。
4. 主要結果及分析
優勢:(1)開球能夠得分(2)傳球時使用踢預期(3)使用線數據
不同類型的機器人:(1)腿長的1型和3型步行速度最快(2)帶腳趾的4型機器人也相對較快,比其他類型的機器人踢得更長更有力。
使用的機器人:(1)盡可能使用4型機器人(2)使用0型機器人在開球時得分(3)3型機器人跑的快(4)1型機器人進行守門,因為它的身體更大,有助于攔網投籃和良好的長距離射門。
5. 技術挑戰
(1)替補隊員挑戰賽也被稱為特別小組挑戰賽,是由從參賽者中隨機挑選的不同隊員組成的代理隊互相比賽。每支參賽球隊都會派出兩名經紀人參加一支替補隊員隊伍,替補隊員的比賽是10比10,沒有守門員。挑戰的一個重要方面是代理能夠適應其隊友的行為。
(2)在跑步挑戰中,7個機器人被給予10秒的時間盡可能向前跑,然后根據他們的平均速度和雙腳離地時間的百分比進行評分。
(3)在自由挑戰賽期間,各小組就與他們團隊相關的研究主題進行五分鐘的演講。然后,聯盟中的每一支球隊將前五名的表現進行排名。
總結
以上是生活随笔為你收集整理的UT2014学习笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MySQL数据库系列培训教程
- 下一篇: c语言个人理财系统设计报告,毕业论文--