DeepMind論文展示通用AI是什么樣子
DeepMind近期發(fā)表了一篇論文,這篇論文里給我們展示了通用AI到底是個(gè)什么樣子的。
在人工智能和神經(jīng)網(wǎng)絡(luò)的研究領(lǐng)域,遷移學(xué)習(xí)(Transfer Learning)一直是一大難題。
遷移學(xué)習(xí)是什么?實(shí)際上它來(lái)源于一個(gè)1901年提出的教育心理學(xué)概念。
其探究的是個(gè)體一個(gè)概念的學(xué)習(xí)如何對(duì)具有類似特征的另一個(gè)概念的學(xué)習(xí)產(chǎn)生遷移,而放在人工智能領(lǐng)域就是把已學(xué)訓(xùn)練好的模型參數(shù)遷移到新的模型來(lái)幫助新模型訓(xùn)練數(shù)據(jù)集。
舉個(gè)例子:如果一個(gè)神經(jīng)網(wǎng)絡(luò)能夠識(shí)別小型轎車,那將它所學(xué)習(xí)到的知識(shí)運(yùn)用到相差不大但并不一樣的卡車身上就是學(xué)習(xí)的遷移。
DeepMind 發(fā)布的論文(全文在此)用了他們稱為 PathNet 的方法來(lái)研究遷移學(xué)習(xí)。
簡(jiǎn)單講PathNet就是一批神經(jīng)網(wǎng)絡(luò)組成的神經(jīng)網(wǎng)絡(luò),DeepMind 使用了隨機(jī)梯度下降法(Stochastic gradient descent)和遺傳選育(Selection)的方法。
PathNet 將一層層的神經(jīng)網(wǎng)絡(luò)單元組合起來(lái),每一層可以是不同的神經(jīng)網(wǎng)絡(luò):卷積、前饋、遞歸等等諸如此類的。
DeepMind 的訓(xùn)練使用了 Pong 和 Alien 兩個(gè)小游戲,上圖分為兩部分,上半部分的九塊圖展示的是PathNet在九個(gè)不同階段的成果。
下半部分是PathNet的游戲分?jǐn)?shù)變化,可以看到PathNet拿到的游戲分?jǐn)?shù)趨勢(shì)是很樂(lè)觀的。
在這個(gè)實(shí)驗(yàn)中,他們使用的是 Advantage Actor-critic 及 A3C 兩種算法。
所以 DeepMind 是怎么做的呢?
首先,我們需要一些定義:L 代表 PathNet 的層數(shù),N 是每層神經(jīng)網(wǎng)絡(luò)最大的單元數(shù)(論文中 DeepMind 的N最大是3或4)。
其中最后的一層神經(jīng)網(wǎng)絡(luò)的密度很大,但不和其他部分進(jìn)行分工。因?yàn)槭褂?A3C,最后這層代表的是價(jià)值功能和評(píng)估。
定義完成之后,PathNet 會(huì)生成 P 型基因(P 代表 pathway,即路徑)。由于 A3C 算法的異步性,神經(jīng)網(wǎng)絡(luò)中多個(gè)部分會(huì)對(duì)其它部分生成的基因型進(jìn)行評(píng)估。
經(jīng)過(guò)一段時(shí)間之后,神經(jīng)網(wǎng)絡(luò)會(huì)挑選一些 P 進(jìn)行對(duì)比,其中更好效果的P會(huì)被留下繼續(xù)訓(xùn)練。
而P被訓(xùn)練的方式是反向傳播(Backpropagation)結(jié)合隨機(jī)梯度下降,每次的每條都是如此,這保證了時(shí)間不會(huì)過(guò)長(zhǎng)。
在使用舊的任務(wù)訓(xùn)練完成神經(jīng)網(wǎng)絡(luò)后,就要開(kāi)始新的任務(wù),遷移學(xué)習(xí)開(kāi)始了。
在掌握一項(xiàng)任務(wù)后,神經(jīng)網(wǎng)絡(luò)會(huì)調(diào)整參數(shù)到最優(yōu)路徑,其他參數(shù)都會(huì)被重置,否則 PathNet 在新任務(wù)中的表現(xiàn)會(huì)很糟糕。
使用A3C之后,舊任務(wù)的最優(yōu)路徑在運(yùn)用到新任務(wù)的時(shí)候不會(huì)被反向傳播算法影響,以此來(lái)確保神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的知識(shí)不被清除。
上圖的最左一列是 PathNet 完成的任務(wù),最上面一行是新的任務(wù),相交的藍(lán)色框部分是 PathNet 在完成舊任務(wù)之后將知識(shí)運(yùn)用到新任務(wù)所得到的結(jié)果。
簡(jiǎn)單來(lái)說(shuō)藍(lán)色的部分是不理想的,顏色越深效果越差;綠色代表積極的分?jǐn)?shù),顏色越深結(jié)果越好。
可以看到不是每次訓(xùn)練都能得到好的結(jié)果,但綠色仍然是遠(yuǎn)多于藍(lán)色的。