在ERNIE VIL 1.0[2,3]中,作者通過擴展Mask Language Model到多模態模型上,實現多模態模型的建模。其數據采用的是
Fig 1. 常見的Image,Caption形式的圖文數據對。
Fig 2. ERNIE VIL 1.0 采用的模型結構是單塔雙流交互模型,通過跨模態的MLM進行建模。
ERNIE VIL 1.0采用單塔交互模型意味著無法采用類似于CLIP[4,5]的方式,通過擴大batch size的方式進行大規模對比學習,以提高表征能力。而且只采用了caption信息進行預訓練,不免浪費了互聯網圖片中豐富的文本信息。如Fig 3.所示,網頁中的圖片附帶有著眾多不同類型的文本信息可供使用,如圖片的標題,圖片的類別信息(可以是用戶自選的),圖片對應的上下文信息等,這些文本信息或多或少都與圖片有所關聯,在預訓練中或多或少能提供幫助。不僅如此,甚至還可以用Object Detector進行圖片中的實體識別,對圖片進行打tag,生成一系列文本。同時,在商業系統中還能通過點擊信號,挖掘出用戶query與圖片的樣本對
Fig 3. 互聯網中的圖片,通常附帶有眾多相關的文本信息。
在ERNIE VIL 2.0中,作者采用了雙塔模型,同時采用了CLIP的方式,通過使用112張A100 GPU和all_gather操作,將總batch size提高到了7168。并且,最主要的是,在該論文中作者提出了“多視角對比學習(multi-view contrastive learning)”,其中的多視角指的是同一個模態中(圖片、文本),不同視角的表達。比如對于圖片而言,可以對圖片進行圖片增強(image augmentation),比如圖片抖動,隨機crop等。通過這種手段能生成兩個視角的圖片,表示原圖,
表示進行圖片增強后的圖片。對于文本模態而言,作者認為除了caption之外,這個圖片的其他可用文本信息就可視為是多視角文本信息,比如在本文中,作者認為圖片的tags是其多視角文本。那么,
為圖片的caption,
? 為圖片的tags(可以是用戶自己選定的,也可以是Object Detector等模型生成的)。如Fig 4.所示,與單視角對比學習相比,同個模態內和跨模態間都可以組建對比損失。如公式(1-1)所示,其中
為正樣本對組合,
為負樣本對組合,其中的i , j表示樣本編號。如公式(1-2)所示,通過infoNCE損失對(1-1)中的各類型pair進行損失建模。整個ERNIE-VIL 2.0的模型結構如Fig 4. ©所示。
Fig 4. (a,b)多視角對比學習 與 單視角對比學習的對比。(c)ERNIE-VIL 2.0的模型結構框架。
實驗結果就不貼出來了,筆者感覺這種方法比較有意思的是,它可以通過多視角文本樣本擴充一些抽象實體的語義。如Fig 5.所示,對于(a)中的caption提到的“Dinner”,“晚餐”本質上是一個抽象的實體,沒有具象化到某一類型具體的食物,而通過Object Detector得到的tag,我們能知道圖片中存在西紅柿,洋蔥,食物等等實體,通過建立caption和tag的關聯,可以讓模型學習到Dinner的具象化語義。對于Fig 5. (b)和©而言,BMW E90是寶馬的其中一個型號,而Gatos Manx應該是主人給貓取的愛稱。汽車型號這種語義非常稀疏,而貓的姓名更是稀疏無比,在訓練樣本中甚至可能沒有其他共現的文本出現了,這種語義很難學習出來。而通過建立caption和tag的關聯,可以讓模型學習到BWM E90是一種白色汽車,而Gatos Manx是一只貓(當然這個有風險,也許有人也叫這個名字呢,emm,但是如同“旺財”“福貴”在貓狗上取名的概率更大一樣,這樣學習出來的bias似乎也并不是沒有可取之處呢?)。因此通過多視角文本的多模態預訓練方式,可以擴充抽象語義,學習出稀疏語義。這是ERNIE VIL 2.0一文給予筆者最大的啟發。
Fig 5. 通過多視角文本預訓練,可以擴充抽象語義,學習出稀疏語義。
Reference
[1]. Shan, Bin, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, and Haifeng Wang. “ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text Pre-training.” arXiv preprint arXiv:2209.15270 (2022).
[2]. Yu, Fei, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, and Haifeng Wang. “Ernie-vil: Knowledge enhanced vision-language representations through scene graph.” arXiv preprint arXiv:2006.16934 (2020).
[3]. https://blog.csdn.net/LoseInVain/article/details/116275484,【論文極速看】ERNIE-VIL 一種基于場景圖解析的多模態表征方法
[4]. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., … & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020.
[5]. https://blog.csdn.net/LoseInVain/article/details/119516894, CLIP-對比圖文多模態預訓練的讀后感