柯潔0:3完敗,科學解釋AlphaGo為什麼會贏

昨天,柯潔和AlphaGo的最後一戰結果出爐,柯潔再敗,總比分0:3完敗。另外,機器人小冰出瞭一本詩集,更是引起瞭廣泛討論。一時間,對人工智能的討論此起彼伏。





無論是寫詩,還是國際象棋冠軍加裡 卡斯帕羅夫、李世石、柯潔這些頂尖高手一一敗給人工智能,都讓人不禁想,人工智能是如何做到這些的?





《科技之巔2》一書中給出瞭科學解釋。人工智能取勝的關鍵就在於“強化學習”,即通過與環境交互獲得最優解的過程。比如下棋,就是先讓AlphaGo學會評價棋路的優劣,然後再通過不斷與自己對弈進行強化學習,讓AlphaGo“參悟”下棋的感覺。而在實際的比賽現場,AlphaGo則根據積累的經驗,動態地尋找最優方法,如此才締造瞭AlphaGo最終的“壓倒性”勝利。



2016年3月9日,韓國首爾的一場棋賽反響空前。此戰不僅吸引瞭全球記者的長槍短炮,也成瞭人們茶餘飯後的談資。

這不是一場普通的圍棋賽事,而是被稱為“世紀大戰”的人機智慧對決。對弈的一方是人類頂級棋手李世石,另一方則是誕生於英國的人工智能程序——。五盤大戰最終以李世石1比4投子認負結束。此役過後,人們記住瞭這個叫“阿爾法狗”的人工智能,也記住瞭它背後的“新”技術:強化學習(Reinforcement Learning)。





AlphaGo:強化學習的空前成功



AlphaGo的出現,讓人聯想起當年的“深藍”——1997年,這臺IBM超級計算機就曾擊敗人類國際象棋冠軍加裡 卡斯帕羅夫。那麼,為什麼時至今日人工智能界還會為一場棋賽的勝利而大肆狂歡?

這還要從圍棋和國際象棋這兩種棋說起。20年前,雖然國際象棋程序已能逼平甚至戰勝人類冠軍,但當時在圍棋上尚不及業餘棋手。這是因為,對於計算機來說,後者的復雜程度遠高於前者:國際象棋的棋盤為8行8列,而圍棋盤的縱橫則各有19路——361個可供落子的交叉點。也就是說從空間的復雜度來看,國際象棋約為1047,而圍棋則高達10170。

復雜度的天壤之別,也意味著“深藍”的制勝套路無法復制到圍棋賽場。當年有人質疑“深藍”所謂的“智能”,不過是依靠每秒可運算2億步的“蠻力”,窮舉出棋盤的可能性而已。而在圍棋中難以測算某些走棋的優劣,即便將“深藍”所采用的全部優化算法放到如今最高性能的計算設備上,人們也無法將圍棋比賽中機器的決策用時修剪到合理的時間內。

那麼,AlphaGo究竟是靠什麼贏得比賽的呢?

2016年1月,《自然》雜志詳細解析瞭AlphaGo背後的技術:AlphaGo將“價值網絡”及“策略網絡”結合,並通過人類職業棋手的比賽數據對網絡進行監督學習訓練。通俗地說,就是先讓AlphaGo學會評價棋路的優劣,然後再通過不斷與自己對弈進行強化學習,讓AlphaGo“參悟”下棋的感覺。而在實際的比賽現場,AlphaGo則根據積累的經驗,動態地尋找最優方法,如此才締造瞭AlphaGo 最終的“壓倒性”勝利。





Mel Bochner泡泡(Babble),2011年計算機和人工智能系統難以理解語言的其中一個原因在於,詞語的意思往往與語境甚至字母形態有關系。上圖中,幾位藝術傢展示瞭如何通過不同的視覺線索來傳達文字背後的意義。



強化學習的發展和原理



如果說人工智能的研究發展史是全球一眾學者辛勤攻克的馬拉松,那麼強化學習就是希望實現人工智能的一個技術手段。

聽起來工業味十足的人工智能,與心理學等其他社會學科、科學學科都頗有淵源,強化學習因此無法免俗。實際上,現代強化學習的教父理查德 薩頓最早就來自斯坦福大學的心理系。他曾表示,心理學就像是個秘密武器,讓他在計算機研究中汲取瞭無數的靈感。

在心理學實驗的基礎上,薩頓為強化學習的發展史梳理出瞭3條主流脈絡。

第一條發展線是源自心理學動物實驗的“試錯”流派。簡單來講,就是通過不斷嘗試、犯錯、再嘗試,“偶然”完成目標,然後加強“成功”經驗,不斷靠近解決方案。

強化學習的第二條發展線主要采用“最優控制”理論及“動態規劃”。舉個例子,當司機駕駛汽車行駛在翻山越嶺的公路上時,在什麼時機踩下油門加速、加速多久,都會對最終到達目的地的時長帶來影響。在這一過程中,又可能存在諸多限制條件,“最優控制”要做的,就是在限定條件下尋求最優結果。

發展線則是時序差分法。時序差分與過往的經驗和狀態有關,它根據一些策略對環境進行隨機取樣學習。時序差分法又汲取瞭動態規劃的精髓,在過去習得的估測結果的基礎上,對未來狀態進行盡可能的“擬合”。

在20世紀80年代末,這3條分支逐漸匯集一處,形成瞭現代的強化學習。





總的來說,強化學習是通過與環境交互獲得最優解的過程。在強化學習中,機器代理會與環境進行交互,根據當前的環境狀態權衡“即時獎勵”以及“延遲獎勵”,然後采取行動,依此不斷地往復、試錯,尋找能夠最大化累積獎勵的策略。最終,獲得較高的獎勵後,得到這一獎勵的過程中的所有行動均會得到加強。
汽車音響後級系統規劃



強化學習的應用



強化學習技術該如何落地,在現實生活中找到用武之地,這是人們比較關心的話題。如今的強化學習技術已經邁出瞭遊戲競技的小賽場,在我們的生活中找到瞭更多“接地氣”的應用場景。

提到機器人,首先映入腦海的可能是電影《星球大戰》中外形呆萌人形機器人。但我們都忽略瞭機器人圈中兩個非常重要的成員——自動駕駛汽車和工業機器人。相比那些外形惹眼的擬生機器人,貌不驚人的自動駕駛汽車和工業機械手臂卻與我們的生活有著更緊密的聯系,它們也正是強化學習技術的主戰場。

1.自動駕駛汽車:學會應對復雜的路況

2016 年年末,在巴塞羅那的一次人工智能會議上,播放瞭一段令人熱血沸騰的駕駛模擬視頻。在實時計算機模擬的畫面上,幾輛自動駕駛汽車在一條四車道虛擬高速公路上展開瞭一場瘋狂至極的演習。這幾輛車一半在嘗試從右側車道移向中間,而另一半則希望從左側向中間並線。即便對於人類老司機來說,遇上這樣的情況也會亂瞭陣腳,不過這些自動駕駛汽車卻能夠在混亂的情況中做到精確控制,成功地完成瞭這個棘手的任務。

這些自動駕駛汽車的出色表現,來自於反反復復的練習,它們在練習中自己學會瞭如何流暢、安全地並線。每一次並線成功後,系統都會加強對這些動作的偏好。沒錯,這裡所應用的技術便是強化學習。

強化學習正在越來越多的領域中得到應用。這一方法尤其適合自動駕駛汽車,因為駕駛的過程是一種“良好的決策序列”。未來,寶馬和英特爾將合作測試自動駕駛的軟件。谷歌、優步等公司也會有研究團隊用強化學習的方法訓練自動駕駛汽車。



圖像來自Mobileye的強化學習汽車的視覺系統





2.智能工業機器人:機械臂被裝上瞭“大腦”

20世紀50年代,美國人喬治 戴沃爾提出瞭工業機器人的概念並申請專利。後來這些機械手臂得到瞭長足進步。它們的出現大幅提升瞭工廠的自動化程度,並降低瞭人力成本,已經被大量采用。但對於機械手臂,即便是抓起物品這樣看似簡單的小動作,往往也需要程序員投入大量的時間,反復修改、實驗。當工廠的生產任務發生改變時,修改、調整機械手臂的預設程序的成本也同樣不容小覷。

不過隨著強化學習技術的到來,這些隱藏在“無人”工廠背後的程序員的工作負荷也可以被大幅降低。

2015年年底的東京國際機器人展覽會上,出現瞭一種新型智能機械臂。隻需給這些工業機器人佈置簡單的小任務(如從盒中挑揀物品等),然後等上一晚的時間,第二天清晨它就基本可以“摸索”出一套自己的解決方案。令人驚奇的是,它的背後並沒有強大的專傢系統,也沒有一群加班熬夜、精通機械的程序員。這些新型工業機器人正是通過深度強化學習技術訓練自己學會執行新的任務。揀拾物品的過程,這些機械手臂會錄制視頻,每次揀拾完成,根據效果它們會得到不同的獎勵值,這些知識不斷積累,強化那些更接近最終目標的動作(如拾起物品)也得到瞭強化。在深度強化學習的幫助下,這些工業機器人仿佛擁有瞭屬於自己的“大腦”。

3.互聯網營銷及推廣

網絡營銷與推廣,是強化學習的另一個舞臺。搜索引擎廣告常采用競價排名機制,廣告主需要購置關鍵字並根據點擊等進行付費。由於廣告界的競爭,整個廣告環境的競爭狀況構成一個復雜網絡。廣告競價也變得復雜起來。

強化學習技術正好可以滿足廣告競價的需求。為瞭實現更高投資回報率,強化學習根據當前的各種環境狀態,來訓練對應的神經網絡,最終通過比對,求得最優的結果。

借助強化學習所建立的模型,所有狀態都可以被反映出來,並能根據實時數據、狀態做出對應的預測和調整。這一點與自動駕駛汽車有異曲同工之妙。



逃不出的“維數詛咒”



強化學習雖然已經有瞭一些成功的案例,但是這一方法也遇到瞭一定的阻力。

這些阻力中,最嚴重的當屬 “維數災難”。在現實世界中,走出瞭實驗室的機器人需要面對更多的未知情況,因此在進行強化學習的過程中就要將幾十甚至上百個變量納入考慮,這會導致問題的困難程度呈指數級增長。







《科技之巔2》後級擴大機推薦



作者:麻省理工科技評論



版本:人民郵電出版社 2017年6月



另外一個問題則是機器人制造及維修的成本。強化學習的本質是不斷試錯的過程,因此在機器人進行實踐的過程中,很有可能在訓練中受損甚至報廢;即便設備還能繼續使用,也有可能因為損傷而影響訓練中策略的準確性。

現在,強化學習的研究人員們仍然在努力探索、找尋那些能夠讓強化學習應用於復雜場景的方法。也許在2017年的晚些時候,在你身邊的某一條高速公路上,強化學習會經歷誕生以來最戲劇性也是最重要的測試。



音響電容價格

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

arrow
arrow
    全站熱搜

    mgb351t8b4 發表在 痞客邦 留言(0) 人氣()