本文是筆者在學習Geometric deep learning的過程中的一些筆記和想法,較為零散,主要紀錄了非歐幾里德結構數據和歐幾里德結構數據之間的區別,后續會引出圖卷積網絡模型。
本文轉載自徐飛翔的“《學習geometric deep learning筆記系列》第一篇,Non-Euclidean Structure Data之我見”。
版權聲明:本文為博主原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接和本聲明。
總的來說,數據類型可以分為兩大類,分別是:歐幾里德結構數據(Euclidean Structure Data) 以及 非歐幾里德結構數據(Non-Euclidean Structure Data),接下來談自己對這兩類數據的認識。
歐幾里德結構樣本
在我們日常生活中,最常見到的媒體介質莫過于是圖片(image)和視頻(video)以及語音(voice)了,這些數據有一個特點就是:“排列整齊”。什么叫做排列整齊呢?舉例子來說,圖片可以用矩陣來表達其像素,就如同下圖所示[2]:
對于某個節點,我們很容易可以找出其鄰居節點,就在旁邊嘛,不偏不倚。而且,圖片數據天然的,節點和鄰居節點有著統計上的相關性,因此能夠找出鄰居節點意味著可以很容易地定義出卷積這個操作出來,而我們在深度學習的過程中知道,卷積這個操作是提取局部特征以及層次全局特征的利器,因此圖片可以很容易定義出卷積操作出來,并且在深度網絡中進行進一步操作。
而且,因為這類型的數據排列整齊,不同樣本之間可以容易的定義出“距離”這個概念出來。我們且思考,假設現在有兩個圖片樣本,盡管其圖片大小可能不一致,但是總是可以通過空間下采樣的方式將其統一到同一個尺寸的,然后直接逐個像素點進行相減后取得平方和,求得兩個樣本之間的歐幾里德距離是完全可以進行的。如下式所見:
因此,不妨把圖片樣本的不同像素點看成是高維歐幾里德空間中的某個維度,因此一張
的圖片可以看成是
維的歐幾里德樣本空間中的一個點,而不同樣本之間的距離就體現在了樣本點之間的距離了。
這就是稱之為歐幾里德結構數據的原因了。 同樣的,視頻可以在時間軸上進行采樣做到統一的目的,而音頻也是一樣的。因此它們都是符合歐幾里德距離定義的類型的樣本。
非歐幾里德結構樣本
非歐幾里德結構的樣本總得來說有兩大類型[1],分別是圖(Graph)數據[3]和流形數據[4],如Fig 2和Fig 3所示:
這兩類數據有個特點就是,排列不整齊,比較的隨意。具體體現在:對于數據中的某個點,難以定義出其鄰居節點出來,或者是不同節點的鄰居節點的數量是不同的[5],這個其實是一個特別麻煩的問題,因為這樣就意味著難以在這類型的數據上定義出和圖像等數據上相同的卷積操作出來,而且因為每個樣本的節點排列可能都不同,比如在生物醫學中的分子篩選中,顯然這個是一個Graph數據的應用,但是我們都明白,不同的分子結構的原子連接數量,方式可能都是不同的,因此難以定義出其歐幾里德距離出來,這個是和我們的歐幾里德結構數據明顯不同的。因此這類型的數據不能看成是在歐幾里德樣本空間中的一個樣本點了,而是要想辦法將其嵌入(embed)到合適的歐幾里德空間后再進行度量。而我們現在流行的Graph Neural Network便可以進行這類型的操作。這就是我們的后話了。
另外,歐幾里德結構數據所謂的“排列整齊”也可以視為是一種特殊的非歐幾里德結構數據,比如說是一種特殊的Graph數據,如下圖所示[5]:
因此,用Graph Neural Network的方法同樣可以應用在歐幾里德結構數據上,比如文獻[6]中report的結果來看,的確這樣是可行的。事實上,只要是賦范空間中的數據,都可以建立數據節點與數據節點之間的某種關聯,都可以嘗試用非歐幾里德結構數據的深度方法進行實驗。[7]
那么什么叫做賦范空間中的數據呢?賦范空間,指的就是定義了范數的向量空間,我認為,指的是數據中的每個樣本的單元的特征維度都是一致的,比如,一張圖片的像素一般都是RGB三個維度的,不同像素之間可以進行求范數的操作,再比如,一個Graph上的某個節點和另外一個節點的維度都是相同的,因此也可以定義出范數出來。不過這個是我一家之言,如有其他見解,請在評論區指出。
該系列的后續:
-
《Geometric Deep Learning學習筆記》第二篇, 在Graph上定義卷積操作,圖卷積網絡
-
《Geometric Deep Learning學習筆記》第三篇,GCN的空間域理解,Message Passing以及其含義