91视频免费?看_蜜芽MY188精品TV在线观看_国产免费无遮挡在线观看视频_深夜国产_亚洲精品欧洲精品_欧美黑人粗暴多交

解耦多模態(tài)大模型中的視覺語義壓縮與視覺語義摘要

多模態(tài)大模型MLLM通常由三部分組成:

  1. 視覺編碼器,可以是CLIP、SigLIP、DINO等,采用的結(jié)構(gòu)可以是ViT,也可以是傳統(tǒng)的CNN,不過現(xiàn)在主流都是ViT結(jié)構(gòu),本文指的視覺編碼器也是ViT的產(chǎn)出。
  2. 視覺連接器(Projector),通常是簡單的MLP結(jié)構(gòu),或者Q-Former、Resampler、D-abstractor等復雜結(jié)構(gòu)。
  3. 底座LLM,如LLama、Qwen、baichuan等。

對于被切分為N個塊的圖片輸入x∈RN×W×H×3,其ViT視覺表征輸出為I∈RN×dI,視覺連接器f(⋅)將視覺表征輸出映射到文本表征空間,記為Q=f(I)∈RM×dT,如果采用的是非壓縮型的連接器,此處的M=N,如果采用的是壓縮型連接器,那么M。 底座LLM將文本輸入和f(I)進行計算,輸出隱層狀態(tài)記為T∈RL×dT,輸出的結(jié)果為序列Y={y1,?,yN}

不難看出,視覺連接器作為視覺編碼器和底座LLM的連接部分,起著重要的視覺語義壓縮視覺語義抽取的作用。通常來說,視覺連接器從是否進行壓縮的角度,可以分為2種:

  1. 非壓縮型連接器:如LLaVA [3] 中采用的線性連接,只是將視覺表征空間的維度dI映射到文本表征空間dT
  2. 壓縮型連接器:典型的如BLIP2中的Q-Former結(jié)構(gòu),其不僅將視覺表征空間的維度dI映射到文本表征空間dT,同時進行了視覺語義令牌數(shù)量的壓縮。

作者將視覺連接器中的信息壓縮和語義轉(zhuǎn)換階段解耦,分別稱之為壓縮(compression)和摘要(abstraction),前者指的是減少視覺令牌數(shù)量,后者則指的是對視覺語義概念的抽取(如屬性、實體等)。

在轉(zhuǎn)入作者分析階段之前,我們直接給出作者在本文的結(jié)論:

  • 觀察1: 底座LLM本身可以從原始視覺特征I中進行有效的語義提取。
  • 觀察2:壓縮型的連接器從視覺塊中提取的視覺語義信息會存在折損。
  • 結(jié)論:Q-Former這種同時進行壓縮和摘要的連接器,由于本身已經(jīng)進行了有損的壓縮和摘要,而底座LLM又會進行進一步的摘要,會導致信息損失。

我們主要看下作者是怎么分析的,作者采用了一種稱之為GAE(Generic Attention Explainability)[5] 的可視化工具(在文中作者將其擴展成了R-GAE,以適配生成式的LLM模型),用來可視化文本與視覺的關(guān)聯(lián),可以簡單認為激活區(qū)域越亮的部分,和文本標簽的關(guān)聯(lián)越大。如Fig 1. 所示,作者通過R-GAE工具去跟蹤文本標簽與視覺塊之間的關(guān)聯(lián),為了能夠分析出映射后的視覺令牌(projected visual tokens)的作用,作者將其拆解為了Text -> Patch = Text -> Query * Query -> Patch兩個過程,如公式(1)所示,這種拆解讓我們可以分別觀察RT→QtRQ→It這兩部分的特點。

(1)RT→It=RT→Qt×RQ→It

Fig 1. 將Text-Patch部分拆解為Query-Patch和Text-Query兩個部分。

如圖Fig 2.所示,我們能看到對于同一個文本描述"remote with purple and red buttons"(帶著紫色和紅色按鈕的遙控器),在不同視覺連接器(線性、Q-Former)下的R-GAE可視化結(jié)果。我們分別分析下:

  • 對于線性的連接器,其不具有壓縮的作用,因此視覺令牌數(shù)量維持在了576個。從Text-Patch的可視化結(jié)果來看,模型主要關(guān)注在了紫色的按鈕上,通過拆解,可以發(fā)現(xiàn)這個語義提取主要是Text-Query貢獻的,再看到Query-Patch部分沒有明顯的高亮部分,意味著從原始圖像塊(Patch)到視覺令牌(Query)的過程中不存在語義的提取,進而也暗示著底座LLM本身具有從圖片塊中直接進行視覺語義提取的能力(也就是abstraction能力)
  • 對于Q-Former,其具有壓縮(compression)的作用,視覺令牌的數(shù)量從576壓縮到了64個。從Text-Patch的可視化結(jié)果來看,模型的關(guān)注點是錯誤的(也即是沒有關(guān)注到紫色和紅色的按鈕上),從拆解的結(jié)果來看,我們觀察到幾個現(xiàn)象:
  1. Text-Query部分具有明顯的語義提取過程,在很多圖片部分都存在語義高亮。
  2. Query-Patch部分中,Query具有64個視覺令牌,Query-Patch部分放大的結(jié)果來看,存在很多不同Query關(guān)注在了同一個語義區(qū)域的情況,這導致了信息的冗余和浪費。注意到Q-Former是進行了信息壓縮的,如果壓縮后還具有比較高的信息冗余,意味著會損失一些有效信息。

在Text-Query和Query-Patch部分同時都進行了視覺語義提取(Abstraction)的現(xiàn)象,作者稱之為雙重摘要(Double-Abstraction phenomenon)。這種現(xiàn)象來自于Q-Former這東西同時考慮了信息壓縮和信息摘要,從線性連接器的分析來看,底座LLM是可以對原始的圖片特征進行語義提取的,因此作者認為一個“合格”的視覺連接器,只需要進行信息的有效壓縮就足夠了。

Fig 2. 觀察不同視覺連接器下的R-GAE情況。

基于以上的分析和啟發(fā),作者使用了最簡單的自適應平均池化作為視覺連接器,如Fig 3.所示,顯然這種連接器具有信息壓縮的能力(會壓縮視覺令牌的數(shù)量),而且平均池化對比Q-Former,不具有語義提取的能力,從而避免了作者提到的雙重摘要的問題。此時,平均池化只作為信息壓縮器,而底座LLM則負責提取語義。其R-GAE的可視化結(jié)果如Fig 2.所示,從中能發(fā)現(xiàn)query-patch部分,query提供了更加豐富多樣的視覺信息,而text-query則能正確提取語義。

Fig 3. 采用簡單的自適應平均池化作為視覺連接器,只是進行信息壓縮,而不嘗試進行視覺語義信息提取。

作者設計了一些實驗,驗證采用平均池化作為視覺壓縮器的效果,如Fig 4所示,其中的Linear是沒進行壓縮的實驗(#V=576 tokens),而#V=144的則是進行了壓縮的,能發(fā)現(xiàn)對比主流的壓縮器(Q-Former、C-Abstractor和D-Abstractor),DeCo在多個基準集合上存在效果的優(yōu)勢。作者也進行了進一步的實驗,通過組合不同的視覺編碼器、底座LLM和輸入圖像分辨率,如Fig 5.所示,作者發(fā)現(xiàn)對比C-Abstractor,平均池化(AvgPool)在多個基準測試中具有一致的優(yōu)勢。

Fig 4. 對比Linear(無壓縮)和其他壓縮器的效果,DeCo有一定的優(yōu)勢。

Fig 5. C-Abstractor和平均池化,在不同視覺編碼器和底座LLM、輸入圖像分辨率組合下的效果對比,能發(fā)現(xiàn)采用平均池化具有一致的優(yōu)勢趨勢。

作者還進行了一個試驗,逐步提高壓縮視覺token的數(shù)量,也即是減少視覺信息的壓縮率,如Fig 6.所示,我們會發(fā)現(xiàn)幾點:

  • 隨著壓縮率的減少,輸入的視覺token數(shù)量會提高,無論采用的何種視覺連接器,效果總是提高的。
  • 當壓縮能力減少到?jīng)]有的情況下,輸入的視覺token數(shù)量等于原始視覺編碼器提供的視覺token數(shù)量,此時采用不同的連接器效果是相當接近的。
  • 在高壓縮的情況下,如576->144, 平均池化連接器具有較大的優(yōu)勢。
  • 筆者覺得有點奇怪的是,在576->256這個地方,C-Abstractor存在一個明顯的性能下降,這一點有點說不過去?

Fig 6. 隨著視覺token數(shù)量的增加(也即是視覺連接器的壓縮能力減少),其效果總是提高的,而采用不同的連接器的效果最終都會趨于相同的點。

筆者讀下來,一個比較重要的啟示就是,多模態(tài)大模型中的視覺連接器的作用,其實是可以劃分為信息壓縮和語義摘要的,而底座LLM本身就是語義摘要的好手,因此視覺連接器,似乎只需要做好保真且高效的信息壓縮就可以了,盡量不要讓它具有過多的語義提取能力,而Q-Former的設計就具有了很強的語義提取能力,導致其效果并沒有很好。這個對于我們設計多模態(tài)大模型,也是一個很值得參考的結(jié)論。

Reference

[1]. Li, Junnan, Dongxu Li, Silvio Savarese, and Steven Hoi. "Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models." In International conference on machine learning, pp. 19730-19742. PMLR, 2023. aka BLIP2

[2]. Yao, Linli, Lei Li, Shuhuai Ren, Lean Wang, Yuanxin Liu, Xu Sun, and Lu Hou. "DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models." arXiv preprint arXiv:2405.20985 (2024). aka DeCo

[3]. Liu, Haotian, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. "Visual instruction tuning." Advances in neural information processing systems 36 (2024). aka LLaVA

[4]. Lin, Ji, Hongxu Yin, Wei Ping, Pavlo Molchanov, Mohammad Shoeybi, and Song Han. "Vila: On pre-training for visual language models." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 26689-26699. 2024. aka VILA

[5]. H. Chefer, S. Gur, and L. Wolf. Generic attention-model explainability for interpreting bi-modal and encoder-decoder transformers. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 397–406, 2021 aka GAE

聲明:本內(nèi)容為作者獨立觀點,不代表電子星球立場。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴,請聯(lián)系:editor@netbroad.com
覺得內(nèi)容不錯的朋友,別忘了一鍵三連哦!
贊 2
收藏 2
關(guān)注 52
成為作者 賺取收益
全部留言
0/200
成為第一個和作者交流的人吧
主站蜘蛛池模板: 紫云| 霍州市| 泽普县| 胶南市| 资兴市| 吉安县| 黎城县| 龙里县| 英超| 辽源市| 龙游县| 铜川市| 岐山县| 武川县| 志丹县| 大悟县| 抚顺县| 腾冲县| 大连市| 东山县| 蓝田县| 镇康县| 和田市| 白山市| 瓦房店市| 梅河口市| 潮州市| 冕宁县| 雷波县| 茌平县| 大丰市| 杨浦区| 安国市| 澄江县| 长沙市| 青铜峡市| 东乌珠穆沁旗| 吉木萨尔县| 寿光市| 中阳县| 眉山市|