最新のニュース

20 世紀以來，電腦遊戲（Computer game）就一直被視為 AI 界的果蠅，意思是如果想深入研究 AI 技術，電腦遊戲會是人工智慧的最佳縮影。棋局多變、難度極高的電腦圍棋更視為 AI 的挑戰，打敗職業棋士一直是圍棋程式開發者的終極目標。

2016 年，AlphaGo 擊敗南韓最強棋士李世乭後，AI 頓時成了全世界最熱門關鍵字，關於 AI 的產業應用及哲學思辨如雨後春筍冒出；然而 AlphaGo 問世，宣告的不僅是程式打敗人類的結果，研究方法與技術才是接下來加速全球產業革新的關鍵，圍棋只是 AI 顛覆世界的起點。

國內從事電腦遊戲研究的知名學者吳毅成教授，是台灣在 AI 領域最具指標性的學者之一。吳毅成教授目前正在參與科技部 AI 研究計畫「深度強化式學習技術之應用研究」，聚焦 AI 如何從虛擬環境走入真實世界的應用。透過本次專訪，大眾有機會深入了解吳毅成對 AI 未來趨勢的見解，以及他在深度強化式學習技術的 3 種應用研究。

▲ 吳毅成教授。（Source：交通大學）

深度強化式學習（Deep Reinforcement Learning，DRL）是深度學習（DL）與強化式學習（RL）的結合，兩者同屬於機器學習（ML）領域的技術。如果說人工智慧是模擬人的大腦運作，深度學習就如同視覺感知，如學習辨識物件，強化式學習則是學習決策布局，深度強化式學習整合兩者，學習感知及其後決策。

過去單純的強化式學習，需要仰賴人為編寫規則或繁複工具才能獲取訓練特徵，例如傳統西洋棋需要辨識優劣棋型，必須先經過研究分析等步驟，並利用演算法歸納出棋型特徵，再透過獎懲機制強化電腦的認知，以做出最佳的決策。

而深度學習則是具備自動抓取特徵的能力。例如辨別貓狗的問題，只要餵給電腦大量的圖片，深度學習技術就能自動分類出屬於貓或狗的特徵，相當於一顆擁有超強記憶力的「高級人腦」。由於這個學習過程需要相當強大的運算單元來支持，因此深度學習是到近十年硬體設備有了明顯升級，才開始爆炸性的成長。

2016 年 AlphaGo 就是結合這兩種技術（DL＋RL＝DRL），先利用深度學習技術分析與模仿人類棋譜，判別棋型與局勢優劣，而後再加入強化式學習的訓練，並結合重要的強化式學習方法──蒙地卡羅樹搜尋法創新招數，因此獲致打敗世界最強職業棋士的重大成果。

聚焦於探索更泛化的人工智慧（Artificial General Intelligence），2017 年 AlphaGo 的開發團隊 Deepmind 進一步在《Nature》期刊發表 AlphaGo Zero，採用更進階的 DRL 技術，訓練程式從「零知識」開始學圍棋，過程無需人類專家的棋譜資料，AlphaGo Zero 靠著「自己打自己」學習得勝策略，實力直接超越所有人類棋士和圍棋 AI，包括 AlphaGo。

這套從圍棋程式發展的「自學技術」，已不再局限於圍棋，AlphaGo Zero 的進階版 AlphaZero 甚至延伸到其他如西洋棋、將棋等棋類，同樣透過自學取得頂尖成績，這樣的結果不僅開啟學界對 DRL 技術的研究熱潮，同時也預告未來 AI 將更有機會應用於多方領域，走向產業化發展。

DRL 應用類型一》持續精進演算法，延伸圍棋教學應用

過去由吳毅成領軍的電腦遊戲與智慧實驗室（Computer Games and Intelligence Lab，簡稱 CGI Lab）曾在 2017 年 7 月 IEEE FUZZ 國際會議舉辦的人機圍棋賽中，以圍棋程式「CGI」（全名 CGI Go Intelligence）打敗紅面棋王周俊勳，成為第一個在正式的人機賽打敗職業九段棋士的學界程式。一個月後，CGI 在世界智能圍棋公開賽擊敗中國騰訊公司的絕藝、日本 DeepZenGo 等知名 AI，獲得預賽全勝冠軍、決賽亞軍的好成績，成為注目焦點。

與其他投入大量計算資源的企業相比，學界程式能獲得如此成績很不容易，而 CGI 靠得就是持續開發新方法來精進演算法，以減少計算資源的消耗。吳毅成提到，在這次「深度強化式學習技術之應用研究」，他將研究主軸依應用環境分成三類，第一類就是以 DRL 技術持續精進 CGI 的演算法，同時延伸至圍棋的教學應用。

2017 年在世界智能賽獲得亞軍之後，吳毅成與國內知名的海峰棋院及職業棋士合作，藉由 CGI 程式輔助棋士的對弈訓練，並且進一步研發出「圍棋終身學習系統」，在 2018 年科技部主辦的「未來科技展」獲得相當高的人氣。技術論文更被 AI 領域極具權威的會議 AAAI-19 接受，顯示國際學術社群也相當肯定這項研究。

吳毅成表示，這個想法是在與海峰棋院創辦人周俊勳棋王交流時誕生的。當時周俊勳提到一個狀況，如果棋士實際棋力有進步，但與 AI 對弈卻還是輸了，那麼對棋士來說就會變成困擾：他們沒辦法知道自己棋力的程度。即便有很強的圍棋程式，甚至出現更強的，對棋士而言沒辦法分辨強度變化。

「所以如果有棋力跟他們差不多的程式，說不定就能讓棋士抓到感覺。」吳毅成說。這項從使用者回饋而來的建議，讓團隊開始鑽研動態調整棋力的技術，因此開發出多達 40 種棋力、從初學到職業棋士等級都有的圍棋教學系統，使用者可以根據棋力選擇適合的等級來玩，同時程式也會在過程中自動檢測對手棋力強度，以提供棋士客製化訓練。

這款圍棋教學系統最大的意義，在於 AI 從打敗人類棋士的里程碑，躍升至教學相長的層次。即使現在圍棋 AI 已無人能敵，但人類仍未完全理解 AI 為什麼這樣下棋，甚至有些棋譜人類未曾看過；藉由 AI 教導人類，一方面將能協助棋士挑戰更強的對手，一方面也能幫助人類更理解 AI 的決策邏輯。

▲ 2018 年未來科技展中，紅面棋王周俊勳和吳毅成團隊研發的「圍棋終身學習系統」對弈。（Source：交通大學）

今年 2 月，吳毅成再度刊登論文於 AAAI-20，發表團隊改良 AlphaZero 的新方法，是名叫「PBT」（Population Based Training）的方法。過去 AlphaZero 主要以自我對弈，如同金庸小說裡的周伯通「左手打右手」的方式訓練，過程相當耗費運算資源。對此，吳毅成表示：「我們學校跟大公司比，相對來說沒有那麼多的資源，所以我們希望提出新想法，而不是單純按照 AlphaZero 的做法訓練，因為這樣就永遠追不上別人」。

這次改良的新方法，就是想看能否不只左手打右手，而是像「武林大賽」，同時訓練十多組程式隨機互打，以此獲得更好的訓練成果。比起自己打自己，與不同人互打更容易發現程式盲點。實驗證明此方法確實能讓 CGI 棋力大幅提升，對 Facebook 的 FAIR 研究中心研發的 OpenGo 圍棋程式勝率，從原來 47% 提升到 74%，大幅超越 OpenGo，而 OpenGo 圍棋程式是當時同規格的最強開源圍棋程式。

PBT 方法的另一個好處，是超參數（hyperparameters）可在「武林大賽」後自我調整，自我對打的棋譜數量卻無需增多，因此運算可維持穩定數量。比起自己打自己的傳統方法，大都必須分別用很多不同超參數組合來訓練，因此與其他發展團隊相比，PBT 方法可省下將近 10 倍的計算資源。節省大筆經費支出之外，同時還能增強棋力，是相當創新且實用的做法，對未來其他應用問題也提供很重要的參考。

不斷加強演算法的背後，吳毅成心中仍有一個清楚的目標，他希望這些研究出的新方法，能實際幫助生活應用問題。因此在圍棋之後，他的下一步決定投入當前 AI 熱門話題──電玩遊戲 AI Bot 研發。

DRL應用類型二》強度夠強、行為像人的電玩遊戲 AI Bot

早在 AlphaGo 問世之前，2013 年 DeepMind 已在《Nature》期刊發表使用 DRL 技術教電腦玩 Atari 遊戲的論文，並推出名為 Deep Q Network（DQN）的新演算法，可說是電玩 AI 機器人（AI Bot）的開山始祖。

▲ DeepMind 展示以 DQN 技術訓練 A I玩 Atari 遊戲的突破。

在電玩遊戲，由於玩家訊息來自畫面且移動自由性高次數更多，因此相較圍棋、西洋棋的維度高出許多，這使設計難度更高。近年隨著軟硬體各方面技術的提升，電玩 AI 研究屢創佳績，例如 2019 年 4 月，馬斯克創立的 OpenAI 研究團隊，在堪稱最複雜的戰略遊戲《Dota 2》，以 OpenAI Five 的 AI 機器人打敗職業電競團隊 OG，登上世界第一寶座；同年 10 月，DeepMind 也發表 AlphaStar 在高難度策略遊戲《星海爭霸 2》的成果論文，並表示 AlphaStar 的排名已超越 99.85% 人類玩家，再次驗證遊戲 AI 驚人的學習能力。

吳毅成表示，以遊戲公司的立場來看，AI Bot 可扮演陪玩角色，當遇上組隊人數不足、新手需要陪練等狀況時，AI Bot 能根據玩家需求及時支援，同時引導玩家在挑戰其他玩法，因此電玩 AI 的強度必須夠強，才不會因為玩太差讓玩家覺得無趣。

除了強度夠強，AI Bot 的行為還要「合理」才行。所謂的合理即是 AI 的表現要像人類，包含移動方式、速度、平衡等方面，不會讓玩家覺得 AI 行為怪異。另外從遊戲品質的角度來看，許多遊戲公司可能上架後才發現系統設計有瑕疵，如果 AI bot 能在遊戲釋出前先協助偵測弱點，對公司整體經營將有很大幫助。

目前吳毅成團隊正在與遊戲公司合作 AI 訓練技術，未來可滿足如擬人化、具備多種強度、多變行為等遊戲 AI 需求，以及協助開發者進行遊戲弱點偵測，將能有效降低遊戲公司開發 AI 的門檻與資金，提升台灣遊戲產業。

▲ 吳毅成團隊以 TORCS （The Open Racing Car Simulator）訓練電玩 AI Bot。TORCS 為開源的 3D 賽車遊戲模擬器，可當作普通賽車遊戲和 AI 研究平台。（Source：吳毅成提供）

電玩遊戲可視為真實世界的模擬，透過在遊戲環境大量練習，AI 較有機會發展出應對各類問題的能力，例如在 AI 表現較弱的「長期規劃」、「合作」等方面加強訓練，以此進展到真實世界的應用。目前吳毅成也正致力將虛擬環境的技術，整合至真實世界的應用，而實體 DRL 應用領域就是他鎖定的下個目標。

DRL 應用類型三》整合虛擬與真實技術研究

實體 DRL 應用相對前述兩類，研究更難控制且沒有規律，包含自駕車、機械手臂、無人機等都屬於這類。且這類問題還有一個特徵，就是不能訓練很多次。

以無人機為例，如果訓練一次就摔下去，雖然可以得到負面樣本，但耗費成本太高，無論學校或是企業都不可能如此大量測試與訓練，因此會需要先在虛擬環境模擬訓練，然後再將模型整合至實體運作。

吳毅成表示，過去這些實體應用如機器人研究已累積多年經驗，精確度也達到一定程度，但大多需要仰賴人為編寫規則或繁複工具才能取得有用特徵，例如工件、機台的角度距離等，再利用演算法歸納以做出最佳決策。DRL 的研究並不是要挑戰過去研究，而是希望從 DRL 的學習角度為機器人技術帶來設計多樣性。

過去廠商可能花很多心力設計一樣產品，等樣式出來後，再花時間將規則設定至合適的機器手臂，按照這個方式檢測或夾取等動作。然而現在商品生命週期縮短，越來越多人希望「客製化」，商品設計經常要變化，因此產品如果要重新設計，相對付出的成本和心力就會很高。

而 DRL 研究可以切入的正是這樣的角度。DRL 的適應性強，適合用來解決前述類型的問題，例如教它學習夾取方塊，或許它還能再學會夾取三角形、圓球等其他物件，不會受限同一形體。雖然現階段 DRL 技術要做到這樣還有很長一段路要走，但這個研究方向將是未來製造業邁向 AI 時代的關鍵。

目前吳毅成正以自駕模型賽車為實驗對象。2019 年 12 月吳毅成實驗室學生朱詠嘉、陳源灝、黃勁博，代表台灣前往美國參加 AWS DeepRacer 實體賽車競賽總決賽，擊敗眾多強勁對手獲得第三名的殊榮，成為該比賽成績最優異的學界團隊。

▲ CGI 實驗室成員朱詠嘉在 AWS DeepRacer 大賽獲頒季軍。（Source：Amazon Web Services）

AWS DeepRacer 使用 18:1 的模型賽車，誰能最快繞行一圈且不出界，就是比賽贏家。這款模型賽車前方有相機負責擷取影像，車上裝載英特爾處理器為神經網路的訓練資料來源，再透過神經網路將決策資訊傳到馬達，以此操作車子的方向與速度。

模型賽車的自駕訓練，同樣要先在虛擬環境進行大量測試，才能正式上路。但 sim2real（從虛擬到真實）是這類型研究的難關，即使虛擬環境訓練再好，碰上真實世界的光影變化、震動等狀況，都有可能造成影像判斷與決策資訊的混亂，使得車子失控偏離賽道。因此如何協助模型適應多元環境，成了 DRL 在實體應用研究的挑戰之一。

經過這次 AWS 比賽，吳毅成團隊在整合虛擬與真實的技術，有了相當寶貴的經驗。當初為了銜接模型與實際環境的差距，團隊特地在決賽前購入實體賽道，並自行開發多種分析工具，用來協助賽車在真實環境遇到的問題。中間曾遭遇嚴重反光、賽道印製錯誤等問題，過程相當驚險，所幸吳毅成與他的團隊擁有堅持不懈的韌性，逐一克服這些挑戰，才能在這場國際比賽脫穎而出。

2020 年，吳毅成團隊將再次挑戰 AWS DeepRacer，結合過去參賽經驗與最新 DRL 研究成果，相信今年將會有更精彩的表現。

▲ 2019 AWS DeepRacer 決賽影片。

DRL 加速 AI 發展，年輕人該如何迎接 AI 時代？

「其實我覺得最近機器學習跟 AI 的成長，與當初電腦科學的成長有點像，有多樣性與未來性。」吳毅成表示，電腦科學能隨著時代演進帶來千變萬化的應用，像是過去的網際網路、雲端、大數據的崛起，這些與電腦的發展息息相關，進而產生出各式的應用問題。對於未來想投入 AI 研究的年輕學子，吳毅成相當鼓勵大家探索這個很有挑戰的領域，也建議學生要比以往更看重數學的重要性。

「這塊領域牽涉到很多數學、程式的技術，在數學方面有統計、機率、線性代數、微分方程等，幾乎很多尖端的數學都會用到，對於許多對數學很感興趣的同學來說，是一個很大的發展機會，同時也是個很有挑戰性的領域」吳毅成說。

AI 改變世界的速度太快，快到許多人開始擔心未來很多職業即將被 AI 取代，吳毅成也同意這是值得注意的，「說實在我無法預測未來世界的發展，當初我也看走眼，我一直以為圍棋至少還要十年才能達到現在的狀況，但是沒想到就這樣結束了」。

從棋類、電玩到機器人應用，以 AI 進展來說，吳毅成表示目前許多研究正在關注電玩遊戲，這方面的發展會非常快；然而現階段實體 DRL 的應用如機器人，還有許多複雜且高難度的問題要解決，要跨過這步仍然是很大的挑戰。

所以說，科幻電影裡機器人超越人類的狀況還會發生嗎？吳毅成笑笑地表示，雖然不至於立即發生，「但是我不敢保證它一定不會發生」。面對 AI 創造的新時代，其實最重要的是人類該用何種心態學習，如果原本的工作是研究如何使機器變得更強，那麼相對來說比較不用擔心這樣的狀況。先思考什麼能力是 AI 無法取代的，才有機會在未來世界與 AI 同行。

（本文由人工智慧普適研究中心授權轉載；首圖來源：DeepMind）

出處:https://technews.tw/2020/05/22/ai-three-types-of-drl/

從圍棋到電玩，AI將如何走入真實世界？交大資工系吳毅成教授從AlphaGo談起

DRL 應用類型一》持續精進演算法，延伸圍棋教學應用

DRL應用類型二》強度夠強、行為像人的電玩遊戲 AI Bot

DRL 應用類型三》整合虛擬與真實技術研究

DRL 加速 AI 發展，年輕人該如何迎接 AI 時代？

關注我們

NOTICE US