91视频免费?看_蜜芽MY188精品TV在线观看_国产免费无遮挡在线观看视频_深夜国产_亚洲精品欧洲精品_欧美黑人粗暴多交

認證：優質創作者

作者動態

給定計算預算下的最佳LLM模型尺寸與預訓練數據量分配

05-19 09:33

大模型推理時的尺度擴展定律

05-18 10:32

世界多胞體與世界模型

05-13 09:42

獎勵模型中的尺度擴展定律和獎勵劫持

05-12 08:41

MeCo——給預訓練數據增加源信息,就能減少33%的訓練量并且提升效果

05-08 09:13

工程師都在看

電路設計中，Type-C口還不會使用？

器件、電路和方案——直流充電樁課程合集

車規芯片認證標準AEC-Q100-H中文版及內容解讀（正文部分）

PCIM2024論文摘要｜新型400V SiC MOSFET用于高效三電平工業電機驅動

反激的PSR與SSR技術解析及優劣

如何測量功率回路中的雜散電感？

BUCK電路反饋分壓設計揭秘 | 實例說明先計算R1再計算R2的過程

掃盲鋰離子電池，看這篇文章足夠了

PCIM2024論文摘要｜并聯SiC MOSFET的均流研究

LTspice入門教程5-如何仿真變壓器

【論文極速讀】ERNIE VIL 2.0，多模態模型的一種多視角預訓練范式

徐土豆 01-16 14:55 94 閱讀 2 贊 3 收藏 0 評論

在ERNIE VIL 1.0[2,3]中，作者通過擴展Mask Language Model到多模態模型上，實現多模態模型的建模。其數據采用的是的數據對，如Fig 1.所示。通常caption是對圖片的視覺描述，可以由人工標注而來，也可以像Conceptual Captions(CC)和SBU Captions(SBU)數據集一樣，從互聯網數據中自動挖掘得到。模型采用的單塔雙流交互模型，如Fig 2.所示。

Fig 1. 常見的Image，Caption形式的圖文數據對。

Fig 2. ERNIE VIL 1.0 采用的模型結構是單塔雙流交互模型，通過跨模態的MLM進行建模。

ERNIE VIL 1.0采用單塔交互模型意味著無法采用類似于CLIP[4,5]的方式，通過擴大batch size的方式進行大規模對比學習，以提高表征能力。而且只采用了caption信息進行預訓練，不免浪費了互聯網圖片中豐富的文本信息。如Fig 3.所示，網頁中的圖片附帶有著眾多不同類型的文本信息可供使用，如圖片的標題，圖片的類別信息（可以是用戶自選的），圖片對應的上下文信息等，這些文本信息或多或少都與圖片有所關聯，在預訓練中或多或少能提供幫助。不僅如此，甚至還可以用Object Detector進行圖片中的實體識別，對圖片進行打tag，生成一系列文本。同時，在商業系統中還能通過點擊信號，挖掘出用戶query與圖片的樣本對。

Fig 3. 互聯網中的圖片，通常附帶有眾多相關的文本信息。

在ERNIE VIL 2.0中，作者采用了雙塔模型，同時采用了CLIP的方式，通過使用112張A100 GPU和all_gather操作，將總batch size提高到了7168。并且，最主要的是，在該論文中作者提出了“多視角對比學習（multi-view contrastive learning）”，其中的多視角指的是同一個模態中（圖片、文本），不同視角的表達。比如對于圖片而言，可以對圖片進行圖片增強（image augmentation），比如圖片抖動，隨機crop等。通過這種手段能生成兩個視角的圖片， $I_{v1}$ 表示原圖， $I_{v2}$ 表示進行圖片增強后的圖片。對于文本模態而言，作者認為除了caption之外，這個圖片的其他可用文本信息就可視為是多視角文本信息，比如在本文中，作者認為圖片的tags是其多視角文本。那么， $T_{v1}$ 為圖片的caption， $T_{v2}$ ? 為圖片的tags（可以是用戶自己選定的，也可以是Object Detector等模型生成的）。如Fig 4.所示，與單視角對比學習相比，同個模態內和跨模態間都可以組建對比損失。如公式(1-1)所示，其中 $S^{+}$ 為正樣本對組合， $S^{-}$ 為負樣本對組合，其中的i , j表示樣本編號。如公式(1-2)所示，通過infoNCE損失對(1-1)中的各類型pair進行損失建模。整個ERNIE-VIL 2.0的模型結構如Fig 4. ©所示。

Fig 4. （a，b）多視角對比學習與單視角對比學習的對比。（c）ERNIE-VIL 2.0的模型結構框架。

實驗結果就不貼出來了，筆者感覺這種方法比較有意思的是，它可以通過多視角文本樣本擴充一些抽象實體的語義。如Fig 5.所示，對于（a）中的caption提到的“Dinner”，“晚餐”本質上是一個抽象的實體，沒有具象化到某一類型具體的食物，而通過Object Detector得到的tag，我們能知道圖片中存在西紅柿，洋蔥，食物等等實體，通過建立caption和tag的關聯，可以讓模型學習到Dinner的具象化語義。對于Fig 5. (b)和©而言，BMW E90是寶馬的其中一個型號，而Gatos Manx應該是主人給貓取的愛稱。汽車型號這種語義非常稀疏，而貓的姓名更是稀疏無比，在訓練樣本中甚至可能沒有其他共現的文本出現了，這種語義很難學習出來。而通過建立caption和tag的關聯，可以讓模型學習到BWM E90是一種白色汽車，而Gatos Manx是一只貓（當然這個有風險，也許有人也叫這個名字呢，emm，但是如同“旺財”“福貴”在貓狗上取名的概率更大一樣，這樣學習出來的bias似乎也并不是沒有可取之處呢？）。因此通過多視角文本的多模態預訓練方式，可以擴充抽象語義，學習出稀疏語義。這是ERNIE VIL 2.0一文給予筆者最大的啟發。

Fig 5. 通過多視角文本預訓練，可以擴充抽象語義，學習出稀疏語義。

Reference

[1]. Shan, Bin, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, and Haifeng Wang. “ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text Pre-training.” arXiv preprint arXiv:2209.15270 (2022).

[2]. Yu, Fei, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, and Haifeng Wang. “Ernie-vil: Knowledge enhanced vision-language representations through scene graph.” arXiv preprint arXiv:2006.16934 (2020).

[3]. https://blog.csdn.net/LoseInVain/article/details/116275484，【論文極速看】ERNIE-VIL 一種基于場景圖解析的多模態表征方法

[4]. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., … & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020.

[5]. https://blog.csdn.net/LoseInVain/article/details/119516894, CLIP-對比圖文多模態預訓練的讀后感

聲明：本內容為作者獨立觀點，不代表電子星球立場。未經允許不得轉載。授權事宜與稿件投訴，請聯系：editor@netbroad.com

覺得內容不錯的朋友，別忘了一鍵三連哦！

贊 2

收藏 3

關注 52

成為作者賺取收益

全部留言

0/200

成為第一個和作者交流的人吧

主站蜘蛛池模板：巴南区| 密山市| 浮山县| 饶河县| 运城市| 阿瓦提县| 吉首市| 锦屏县| 英超| 栾城县| 湖州市| 安丘市| 望江县| 肥乡县| 长沙市| 额敏县| 岳阳县| 莎车县| 兴安县| 锦州市| 唐海县| 永济市| 阿巴嘎旗| 红桥区| 舞阳县| 甘洛县| 裕民县| 新乐市| 泸定县| 大方县| 石棉县| 十堰市| 县级市| 德昌县| 安乡县| 阳朔县| 兴海县| 霸州市| 阳谷县| 蓬溪县| 泾源县|

<td id="ph8vs"><optgroup id="ph8vs"></optgroup></td>

<source id="ph8vs"></source>

<source id="ph8vs"><tr id="ph8vs"></tr></source>