91视频免费?看_蜜芽MY188精品TV在线观看_国产免费无遮挡在线观看视频_深夜国产_亚洲精品欧洲精品_欧美黑人粗暴多交

徐土豆
認證:優質創作者
所在專題目錄 查看專題
圖文多模態語義融合前的語義對齊——一種單雙混合塔多模態模型
在多模態模型訓練時,如何合適地融合單模態損失
FILIP: 一種基于交互的細粒度圖文預訓練模型
ERNIE VIL 2.0,多模態模型的一種多視角預訓練范式
VQ-VAE的實現方法分析——一種基于梯度回調的方法
【論文極速讀】視頻檢索中的模態均衡方法
作者動態 更多
給定計算預算下的最佳LLM模型尺寸與預訓練數據量分配
05-19 09:33
大模型推理時的尺度擴展定律
05-18 10:32
世界多胞體與世界模型
05-13 09:42
獎勵模型中的尺度擴展定律和獎勵劫持
05-12 08:41
MeCo——給預訓練數據增加源信息,就能減少33%的訓練量并且提升效果
05-08 09:13

【論文極速讀】視頻檢索中的模態均衡方法

傳統的視頻搜索系統相關性部分主要以文本語義匹配/字面匹配為基本手段,其模型的輸入基本上都是文本,并無視覺的語義向量。如果希望在這樣一個純文本的系統中加入視覺語義向量(此處的視覺語義向量可以是上游模型的產出,比如CLIP的產出),那么很容易遇到所謂的『模態不均衡』的問題,即是由于文本匹配更為簡單(畢竟骨架網絡都是基于文本進行過很多次迭代了),那么新引入的視覺語義向量就很容易在整個訓練過程中被視為噪聲,或者被忽視,其視覺本身的作用不容易建模出來。在論文[1]中,作者同樣報告了這樣一個現象,并且提出了通過『模態混洗(Modality-Shuffle)』的方法進行優化,整個框架被稱之為MBVR(Modality-Balanced Video Retrieve)。如Fig 1.所示,對于一個文本-視覺成對的樣本,通過在batch內混洗視覺輸入,得到難負樣本,此時對于其文本檢索而言,是匹配的,但和視覺 不匹配,通過這種方法構建出的難負樣本,有利于加強視覺特征的作用力度。

Fig 1. 模態混洗的方式構建出文本匹配,但是視覺不匹配的難負樣本。除此之外,作者還提出用動態margin去建模,不過筆者覺得并不關鍵,因此就不闡述了。從整體來看,其loss如公式(1-1)所示,其中的? ,表示Query-Doc匹配和Doc-Query匹配的損失,表示的匹配損失,同理表示了的匹配損失,而即是通過模態混洗構建難負樣本帶來的損失,如公式(1-2)所示,其中的表示構建出來的模態混洗負樣本。

那么如何驗證效果呢?作者進行了一些離線消融實驗,并且進行了線上實驗(該論文來自于快手,本方案應該是在線上進行了實驗),均發現有所收益,這些常規指標就不在這里累述了。同時作者通過定向的分析,驗證了模態混洗帶來的優勢,如公式(1-3)所示,作者定義了一個,其中的分別表示視覺、文本以及聯合視覺文本模型的表征,那么指數表示了視覺在該聯合模型中,占據的重要程度與文本在該聯合模型中占據的重要程度的比例,這個值越高表示了視覺在模型中地位越重。(注,此處的聯合模型可表示為

在Fig 2 (a) 中,作者對基線模型和MBVR模型的R v t R_{vt}R vt? 分布的繪制,我們可以明顯看出引入了MBVR之后,視覺特征在視文聯合模型H ( ⋅ , ⋅ ) \mathcal{H(\cdot, \cdot)}H(⋅,⋅)中的作用力度更大了,同時作者在Fig 2 (b)和(c)中對比了正樣本和難負樣本在基線模型和MBVR模型中的打分分布變化,可以明顯看出引入了MBVR模型之后,難負樣本打分更低,和正樣本打分分布產生了明顯的變化。

Fig 2. (a) R值分布變化,引入了MBVR之后視覺的作用力度有明顯提升;(b)基線模型中,正樣本和難負樣本區分度小,(c)引入了MBVR之后,正樣本和難負樣本有了明顯的區分度。

筆者認為這篇論文對于工業界落地多模態特征還是具有一定指導意義的,模態不均衡的問題在實際落地過程中真實存在,作者提出的解決方法不失一種有效可行的手段,在構造MS難負樣本這塊,后續可以繼續探索,構造一些更合適的難負樣本應該是有一定收益空間的。同時,也可以引入類似于MLM的,某種跨模態mask機制,去建模模態間的關系,筆者認為同樣可以緩解模態不均衡的問題。

Reference

[1]. Wang, Xun, et al. “Modality-Balanced Embedding for Video Retrieval.” Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022.

聲明:本內容為作者獨立觀點,不代表電子星球立場。未經允許不得轉載。授權事宜與稿件投訴,請聯系:editor@netbroad.com
覺得內容不錯的朋友,別忘了一鍵三連哦!
贊 1
收藏 2
關注 52
成為作者 賺取收益
全部留言
0/200
成為第一個和作者交流的人吧
主站蜘蛛池模板: 镇远县| 平度市| 乌什县| 寿阳县| 富顺县| 濉溪县| 赫章县| 清水县| 仁化县| 新巴尔虎右旗| 长泰县| 酉阳| 新龙县| 闽侯县| 北流市| 十堰市| 迁西县| 牡丹江市| 淄博市| 延庆县| 襄垣县| 舞阳县| 瑞昌市| 佛教| 班戈县| 周至县| 聂荣县| 高台县| 浙江省| 札达县| 竹山县| 台东县| 嘉峪关市| 东台市| 溆浦县| 嘉兴市| 宁波市| 柳江县| 无极县| 南乐县| 安国市|