跑跑車游戲網(wǎng)
您的位置:首頁VR資訊中心VR百科 → DeepMind論文展示通用AI是什么樣子

DeepMind論文展示通用AI是什么樣子

2017/3/7 9:18:23來源:本站整理作者:不詳我要評論(0)

DeepMind近期發(fā)表了一篇論文,這篇論文里給我們展示了通用AI到底是個(gè)什么樣子的。

在人工智能和神經(jīng)網(wǎng)絡(luò)的研究領(lǐng)域,遷移學(xué)習(xí)(Transfer Learning)一直是一大難題。

遷移學(xué)習(xí)是什么?實(shí)際上它來源于一個(gè)1901年提出的教育心理學(xué)概念。

其探究的是個(gè)體一個(gè)概念的學(xué)習(xí)如何對具有類似特征的另一個(gè)概念的學(xué)習(xí)產(chǎn)生遷移,而放在人工智能領(lǐng)域就是把已學(xué)訓(xùn)練好的模型參數(shù)遷移到新的模型來幫助新模型訓(xùn)練數(shù)據(jù)集。

舉個(gè)例子:如果一個(gè)神經(jīng)網(wǎng)絡(luò)能夠識別小型轎車,那將它所學(xué)習(xí)到的知識運(yùn)用到相差不大但并不一樣的卡車身上就是學(xué)習(xí)的遷移。

DeepMind 發(fā)布的論文(全文在此)用了他們稱為 PathNet 的方法來研究遷移學(xué)習(xí)。

簡單講PathNet就是一批神經(jīng)網(wǎng)絡(luò)組成的神經(jīng)網(wǎng)絡(luò),DeepMind 使用了隨機(jī)梯度下降法(Stochastic gradient descent)和遺傳選育(Selection)的方法。

PathNet 將一層層的神經(jīng)網(wǎng)絡(luò)單元組合起來,每一層可以是不同的神經(jīng)網(wǎng)絡(luò):卷積、前饋、遞歸等等諸如此類的。

VR百科

DeepMind 的訓(xùn)練使用了 Pong 和 Alien 兩個(gè)小游戲,上圖分為兩部分,上半部分的九塊圖展示的是PathNet在九個(gè)不同階段的成果。

下半部分是PathNet的游戲分?jǐn)?shù)變化,可以看到PathNet拿到的游戲分?jǐn)?shù)趨勢是很樂觀的。

在這個(gè)實(shí)驗(yàn)中,他們使用的是 Advantage Actor-critic 及 A3C 兩種算法。

所以 DeepMind 是怎么做的呢?

首先,我們需要一些定義:L 代表 PathNet 的層數(shù),N 是每層神經(jīng)網(wǎng)絡(luò)最大的單元數(shù)(論文中 DeepMind 的N最大是3或4)。

其中最后的一層神經(jīng)網(wǎng)絡(luò)的密度很大,但不和其他部分進(jìn)行分工。因?yàn)槭褂?A3C,最后這層代表的是價(jià)值功能和評估。

定義完成之后,PathNet 會生成 P 型基因(P 代表 pathway,即路徑)。由于 A3C 算法的異步性,神經(jīng)網(wǎng)絡(luò)中多個(gè)部分會對其它部分生成的基因型進(jìn)行評估。

經(jīng)過一段時(shí)間之后,神經(jīng)網(wǎng)絡(luò)會挑選一些 P 進(jìn)行對比,其中更好效果的P會被留下繼續(xù)訓(xùn)練。

而P被訓(xùn)練的方式是反向傳播(Backpropagation)結(jié)合隨機(jī)梯度下降,每次的每條都是如此,這保證了時(shí)間不會過長。

在使用舊的任務(wù)訓(xùn)練完成神經(jīng)網(wǎng)絡(luò)后,就要開始新的任務(wù),遷移學(xué)習(xí)開始了。

在掌握一項(xiàng)任務(wù)后,神經(jīng)網(wǎng)絡(luò)會調(diào)整參數(shù)到最優(yōu)路徑,其他參數(shù)都會被重置,否則 PathNet 在新任務(wù)中的表現(xiàn)會很糟糕。

使用A3C之后,舊任務(wù)的最優(yōu)路徑在運(yùn)用到新任務(wù)的時(shí)候不會被反向傳播算法影響,以此來確保神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的知識不被清除。

VR百科

上圖的最左一列是 PathNet 完成的任務(wù),最上面一行是新的任務(wù),相交的藍(lán)色框部分是 PathNet 在完成舊任務(wù)之后將知識運(yùn)用到新任務(wù)所得到的結(jié)果。

簡單來說藍(lán)色的部分是不理想的,顏色越深效果越差;綠色代表積極的分?jǐn)?shù),顏色越深結(jié)果越好。

可以看到不是每次訓(xùn)練都能得到好的結(jié)果,但綠色仍然是遠(yuǎn)多于藍(lán)色的。

網(wǎng)友評論

發(fā)表評論

(您的評論需要經(jīng)過審核才能顯示)

查看所有0條評論>>