slogging away（slogging it out）

發(fā)布時間：2022-06-29 瀏覽次數(shù)：746 評論次數(shù)：0

明敏發(fā)自凹非寺
量子位 | 公眾號 QbitAI

多模態(tài)模型常見，但是基于稀疏化的還是頭一個。

谷歌帶來最新成果LIMoE，首次將稀疏化方法用在了圖像文本混合模型上。

要知道，隨著大模型參數(shù)呈指數(shù)級增加，訓練成本也是一路飆升。

所以如何降低訓練成本，成為了目前學界重點關(guān)注的一個問題。

谷歌想到的辦法，不是拼硬件，而是從模型本身入手。

利用稀疏化的方法，讓每次輸入只需激活部分網(wǎng)絡(luò)就能完成任務(wù)。

它們在模型內(nèi)部設(shè)置了很多“專家”，每個“專家”只需處理對應(yīng)部分的輸入，根據(jù)任務(wù)情況按需使用“專家”就好。

這樣一來，盡管模型容量很大，但是計算成本并沒有暴增。

而且還不會降低性能。

新方法LIMoE零樣本學習任務(wù)中，可是直接超越了CLIP。

怪不得網(wǎng)友高呼：

快分享給我們API！

讓不同“專家”處理不同任務(wù)

對于深度學習來說，能同時處理文本圖像任務(wù)其實已經(jīng)不稀奇。

不過過去常見的多模態(tài)學習方法，往往是單個輸入就需要激活整個網(wǎng)絡(luò)。

谷歌這次提出的新方法，最大亮點就是首次在這一領(lǐng)域采用了稀疏化模型。

稀疏化的方法便是無需讓整個模型來處理所有的輸入。

通過對神經(jīng)網(wǎng)絡(luò)進行劃分，它讓神經(jīng)網(wǎng)絡(luò)也“專業(yè)對口”，不同的子模型只處理固定類型的任務(wù)或數(shù)據(jù)。

但也不是完全割裂開來，模型內(nèi)部仍有可共享的部分。

此次基于的模型是MoE（Mixture-of-Experts layer），它被稱為專家混合模型。

也就是在Transformer架構(gòu)的基礎(chǔ)上，加設(shè)了“專家層”。

它是一個并行的FNN，取代了原本的前饋網(wǎng)絡(luò)。

這里的“專家”，也就是模型內(nèi)部的不同子模型。

每個子模型專門用于不同的輸入。

每一層中的專家由門控網(wǎng)絡(luò)控制，該網(wǎng)絡(luò)根據(jù)輸入數(shù)據(jù)激活專家。

對于每個標記，門控網(wǎng)絡(luò)選擇最合適的專家來處理數(shù)據(jù)。

此次新提出的LIMoE，其實就是讓MoE能同時處理圖像文本。

具體來看，就是讓LIMoE進行對比學習。

在利用大量圖像-文本對訓練時，網(wǎng)絡(luò)內(nèi)部的圖像模型提取圖像表示，文本模型提取文本表示。

針對相同的圖像-文本對，模型會拉近圖像和文本表示的距離。

反之，對于不同的圖像-文本對，則會讓相應(yīng)的表示彼此遠離。

這樣一來的直接好處，就是能實現(xiàn)零樣本學習。

比如一張圖像的表示更接近文本“狗”的表示，那么它就會被歸類為狗。

這種思路可以擴展到數(shù)千種情況。

實際上，CLIP和ALIGAN采用的都是這個思路，它們在ImageNet數(shù)據(jù)集上的精度分別是76.2%、76.4%。

而LIMoE-L/16可以達到78.6%，已經(jīng)超過了CLIP。

未經(jīng)過預訓練的LIMoE H/14則能達到84.1%的精度。

而在LIMoE的專家層中，谷歌表示還發(fā)現(xiàn)了一些有趣的現(xiàn)象。

比如在訓練設(shè)置中，圖像標記比文本標記要多很多，因此所有專家都會在在任務(wù)中多少處理些圖像。

只不過有的會主要處理圖像，有的主要處理文本，或者二者兼具。

還有在大多數(shù)情況下，都會有一個專家來處理所有包含文本表示的圖像patch。

除了性能上的提升，使用稀疏化模型的好處還體現(xiàn)在降低計算成本上。

因為“多專家”的模式意味著，盡管多設(shè)了很多子模型，模型容量顯著增加，但是實際計算成本并沒有明顯變化。

如果一次任務(wù)中只使用了一個子模型，那它的成本和標準Transformer的差不多。

比如LIMoE-H/14總共有5.6B參數(shù)，但是通過稀疏化，它只會使用每個token的675M參數(shù)。

One More Thing

稀疏化模型一直是谷歌深度研究的一個方向，已經(jīng)提出了MoE、GLaM在內(nèi)的多個模型。

這次LIMoE也不是谷歌第一次魔改MoE。

去年6月，他們提出了V-MoE，是一種新型的視覺架構(gòu)，今年已將全部代碼開源。

參考鏈接：
https://ai.googleblog.com/2022/06/limoe-learning-multiple-modalities-with.html

— 完 —

量子位 QbitAI · 頭條號簽約

關(guān)注我們，第一時間獲知前沿科技動態(tài)

好了，這篇文章的內(nèi)容發(fā)貨聯(lián)盟就和大家分享到這里，如果大家網(wǎng)絡(luò)推廣引流創(chuàng)業(yè)感興趣，可以添加微信：80709525 備注：發(fā)貨聯(lián)盟引流學習；我拉你進直播課程學習群，每周135晚上都是有實戰(zhàn)干貨的推廣引流技術(shù)課程免費分享！

關(guān)鍵詞：模型稀疏化文本圖像

版權(quán)聲明：本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻，該文觀點僅代表作者本人。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔相關(guān)法律責任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容，請發(fā)送郵件至 sumchina520@foxmail.com 舉報，一經(jīng)查實，本站將立刻刪除。

您可能還會喜歡：

發(fā)表評論

◎歡迎參與討論，請在這里發(fā)表您的看法、交流您的觀點。