為理解自動駕駛汽車如何在復雜道路上行駛,研究人員經常會使用一種數學模型——博弈論,此種模型代表了理性的代理人為實現目標而采取的戰略行為。

dejan milutinovic教授(圖片來源:加州大學圣魯克茲分校)
據外媒報道,美國加州大學圣魯克茲分校電子與計算機工程系教授dejan milutinovic長期以來一直與同事們研究博弈論的復雜子集——微分博弈論,該理論與運動中的游戲玩家有關。其中一種游戲名為貼墻追蹤游戲,是一種相對簡單的游戲模式,即速度較快的追蹤者的目標就是抓住速度較慢的逃跑者,而逃跑者被限制必須貼著墻移動。
自從該游戲在60年前被人首次闡釋以來,游戲中一直有一個困境——游戲中一組位置被認為并非是最優解的位置。不過,現在,milutinovic教授與同事發表了一篇新論文證明該長期存在的困境實際上并不存在,還介紹了一種新分析方法,證明貼墻追蹤游戲總會有一種確定的解決方案。該發現為解決微分博弈領域中存在的其他類似挑戰打開了大門,還能夠讓人們更好地推理無人駕駛汽車等自動駕駛系統。
博弈論被用于對經濟學、政治學、計算機科學和工程學等各種領域內的行為進行推理。在博弈論中,納什均衡是被最普遍認可的概念之一。該概念由數學家約翰納什提出,定義了博弈中所有參與者以最少的遺憾完成博弈的最優策略。不選擇最優策略的任何玩家最終都會后悔,因此,理性的玩家都會積極選擇均衡策略。
該概念適用于貼墻追蹤游戲,經典的納什均衡策略恰好用于游戲中的兩個玩家,追蹤者與逃跑者,描述了雙方幾乎在所有位置上的最佳策略。不過,在追蹤者與逃跑者之間有一組位置,在經典的分析中并沒有得出最優的博弈策略,從而出現了困境。該組位置被稱為奇異曲面,多年來,研究界都接受了該困境是真實存在的。
不過,milutinovic與同事不愿意接受這一點。他表示:“這讓我們感到困擾,因為我們認為如果逃跑者知道有一個奇異曲面,就可能去到該奇異曲面并錯用了該面。逃跑者能夠迫使你去到你不知道如何采取最佳行動的奇異曲面,那么大家就不知道在更復雜的游戲中此種情況會有什么影響。”
因此,milutinovic與同事想出了一種新方法來解決該問題。他們采用了一種貼墻追蹤游戲出現時并不存在的數學概念。通過使用hamilton–jacobi–isaacs方程的粘性解,并引入求解奇異曲面的損失率分析,他們發現一個在游戲所有環境下都可以確定的最優解,從而解決了該困境。
偏微分方程的粘性解是一個數學概念,直到20世紀80年代才出現,提供了一個hamilton–jacobi–isaacs方程解的獨特推理線。眾所周知,該概念與最優控制和博弈論問題的推理有關。
使用粘性解,也就是函數,來解決博弈論問題涵蓋用微積分來求此類函數的導數。當與游戲相關的粘性解具有定義良好的導數時,很容易就能找到最佳博弈解決方案。但在貼墻追蹤游戲中,情況并非如此,沒有定義良好的導數導致了該困境。
通常而言,當困境存在時,一個實用的方法是玩家隨機選擇一種可能出現的行動,并接受此類決定帶來的損失。但是出現了一個問題:如果出現了損失,每個理性的玩家都會希望將損失降至最小。
因此,為了找出玩家如何將損失最小化,研究人員分析了hamilton-jacobi-isaacs方程在導數未明確定義的奇異曲面周圍的粘性解。然后,在方程的奇異曲面狀態上引入損失率分析。他們發現,當每個參與者都將自己的損失降至最低時,他們在奇異曲面上的行動就會有明確的博弈策略。
研究人員發現,此種將損失最小化的行為不僅定義了奇異曲面的最佳博弈行動,也與經典分析中找到的每種可能狀態下的最優博弈行動相一致。
milutinovic與同事還對探索擁有奇異曲面的其他博弈論問題感興趣,在此類情況下他們的新方法能夠得到應用。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“機電號”用戶上傳并發布,本平臺僅提供信息存儲服務
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of JDZJ Hao, which is a social media platform and only provides information storage services.
