蒙地卡羅樹搜索給我的的人生啟示
因為Google的圍棋AI:AlphaGo擊敗世界圍棋冠軍李世石,所以他使用的演算架構之一,蒙地卡羅樹搜索,也跟著紅了起來。我也花了一些時間了解蒙地卡羅樹搜索的相關原理,獲益良多,無論是技術方面或人生啟示。
蒙地卡羅對我來說是一個極具意義的名稱。
「20世紀40年代,在馮·紐曼,斯塔尼斯拉夫·烏拉姆和尼古拉斯·梅特羅波利斯在洛斯阿拉莫斯國家實驗室為核武器計劃工作時,發明了蒙地卡羅方法。因為烏拉姆的叔叔經常在蒙地卡羅賭場輸錢得名,而蒙特卡羅方法正是以機率為基礎的方法。」
蒙地卡羅對我來說是一個極具意義的名稱。
(中國蘇州,穹窿山)
「20世紀40年代,在馮·紐曼,斯塔尼斯拉夫·烏拉姆和尼古拉斯·梅特羅波利斯在洛斯阿拉莫斯國家實驗室為核武器計劃工作時,發明了蒙地卡羅方法。因為烏拉姆的叔叔經常在蒙地卡羅賭場輸錢得名,而蒙特卡羅方法正是以機率為基礎的方法。」
這段是維基百科上的說明,曼哈頓計畫的科學家為了研製原子彈,發展出利用隨機數進行數值模擬的方法。
這也是我碩士班時的研究方向之一,但這個研究題目因為個人因素而中斷。如果有時光機,這應該是我想回到過去扭轉的一個時間點吧。
2006年,雷米·庫洛姆(Remi Coulom)用同樣的概念發展了圍棋演算法領域,提出了蒙地卡羅樹搜索。
這裡不對技術方面多做著墨,相關細節維基百科或網路都可以找到。我想探討的是我在蒙地卡羅樹搜索獲得的一些想法。
探勘(Exploration)與探索(Exploitation)
人生就是一座搜索樹,無時不刻遇到需要選擇的十字路口,而且一開始每一條路的結果都是未知的。每當自己費心思考過後,決定選擇的當下,又會創造一座新的搜索樹。
如此複雜的人生要如何尋找自己的路?在還沒對某些事物產生「偏好」的時候,需要橫向尋找,多方面嘗試,試得多了總會找到自己的偏好。此即探勘。
當我們對某些事物,產生了比其他事物更多的「偏好」時,需要對有更多偏好的事物加深摸索的力道。此即探索。
蒙地卡羅樹搜索的選擇機制,同時考慮了探勘與探索,缺一不可。探勘與探索是同等重要的,不管在人生的什麼時期。如同棋局不同階段,所應用的選擇策略比重不同。
開局時,偏好極度不明朗,所以必須廣泛地橫向摸索,可以加重探勘的成分。一旦嘗試出幾項最初的偏好,即可深入探索,豐富在這個世界的體驗,以便為未來的人生經驗提供養分。
終局時,變化性不大,因此可以加深對明顯偏好的摸索,而加重探索的比重。即使這樣,即使你已經對某幾項偏好探索地極為深入,而且幾乎快得到解答。但你並不能保證這條路就是自己最偏好的。
人生比棋局多了更多可能性。需要探勘拓展眼界,更需要探索以了解世界。
不停地摸索,隨時回頭審視
蒙地卡羅樹搜索還有一項特點,每個時間點都可以停止搜索以進行決策。當然,搜索得越久,決策的正確性會越高。
我們無時不刻都在探索人生,但時常不自覺。往往走過一段路之後,才能體會當初的決策帶來了怎樣的結果。
人生是絕對無法全部預測的。人生就是一次次地,由已知走向未知,而將未知轉換成已知的過程。每一個已知都會通往許多未知的路,而當未知被掌握而成為已知的時候,又會產生更多的未知。
但人短短的一生之中,能見識、體驗過多少的未知呢?能將多少未知轉化成已知呢?
我們能做的,也不過是憑自己探勘與探索所獲得的知識與資訊,來推算一個模糊的結果。差別是你看到了結果,是幾分相似的未來?有多少百分比的全貌?
孫子兵法曰:多算勝,少算不勝。就是這個道理。
當我們在人生的路上不停回頭審視,才能隨時準備好決策。即使常常倉促成軍,但不再是熱鍋上的螞蟻,遇到突發事件也不會無所適從。終能成就自己最期望的自己。

留言
張貼留言