南京大學機器學習與數據挖掘所ECCV16視頻性格分析競賽冠軍技術分享
基于第一印象 表象的性格自動分析是計算機視覺和多媒體領域中一類非常重要的研究問題。
英文中有句諺語叫:“You never get a second chance to make a first impression.”(你永遠沒有第二個機會去改變你的第一印象。)一個人的第一印象可以用來快速判斷其性格特征(Personal traits)及其復雜的社交特質,如友善、和藹、強硬和控制欲等等。因此,在人工智能大行其道的當下,基于第一印象/表象的性格自動分析也成為計算機視覺和多媒體領域中一類非常重要的研究問題。
前不久,歐洲計算機視覺大會(ECCV 2016)ChaLearn Looking at People Workshop 就舉辦了一場全球范圍的(視頻)表象性格分析競賽(Apparent personality analysis)。歷時兩個多月,我們的參賽隊(NJU-LAMDA)在86個參賽者,其中包括有印度“科學皇冠上的瑰寶”之稱的 Indian Institutes of Technology (IIT)和荷蘭名校Radboud University等勁旅中脫引而出,斬獲第一。在此與大家分享我們的競賽模型和比賽細節。
問題重述
本次ECCV競賽提供了平均長度為15秒的10000個短視頻,其中6000個為訓練集,2000個為驗證集,剩余2000個作為測試。比賽要求通過對短視頻中人物表象(表情、動作及神態等)的分析來精確預測人的五大性格特質,即Big Five Traits,其中包括:經驗開放性(Openness to experience)、盡責性(Conscientiousness)、外向性(Extraversion)、親和性(Agreeableness)和情緒不穩定性(Neuroticism)。視頻示例如下所示:
競賽數據中五大性格特質的真實標記(Ground truth)通過Amazon Mechanical Turk人工標注獲得,每個性格特質對應一個0~1之間的實值。
我們的方法
由于競賽數據為短視頻,我們很自然的把它作為雙模態(Bimodal)的數據對象來進行處理,其中一個模態為音頻信息(Audio cue),另一個則為視覺信息(Visual cue)。同時,需預測的五大性格特質均為連續值,因此我們將整個問題形式化為一個回歸問題(Regression)。我們將提出的這個模型框架稱作雙模態深度回歸(Deep Bimodal Regression,DBR)模型。下面分別從兩個模態的處理和最后的模態融合來解析DBR。
視覺模態
在視覺模態中,考慮到對于短視頻類數據,時序信息的重要程度并不顯著,我們采取了更簡單有效的視頻處理方式,即直接將視頻隨機抽取若干幀(Frame),并將其作為視覺模態的原始輸入。當然,在DBR中,視覺模態的表示學習部分不能免俗的使用了卷積神經網絡(Convolutional Neural Networks,CNN)。同時,我們在現有網絡基礎上進行了改進,提出了描述子融合網絡(Descriptor Aggregation Networks,DAN),從而取得了更好的預測性能。
以VGG-16為例,傳統CNN經過若干層卷積(Convolutional)、池化(Pooling)的堆疊,其后一般是兩層全鏈接層(Fully connected layers)作為網絡的分類部分,最終輸出結果。
受到我們最近工作[2]的啟發,在DBR視覺模態的CNN中,我們扔掉了參數冗余的全鏈接層,取而代之的是將最后一層卷積層學到的深度描述子(Deep descriptor)做融合(Aggregation),之后對其進行L2規范化(L2-normalization),最后基于這樣的圖像表示做回歸(fc+sigmoid作為回歸層),構建端到端(End-to-end)的深度學習回歸模型。另外,不同融合方式也可視作一種特征層面的集成(Ensemble)。如下圖,在DAN中,我們對最后一層卷積得到的深度描述子分別進行最大(Max)和平均(Average)的全局池化(Global pooling)操作,之后對得到的融合結果分別做L2規范化,接下來將兩支得到的特征級聯(concatenation)后作為最終的圖像表示(Image representation)。
傳統CNN中,80%的參數存在于全鏈接層,而DAN摒棄了全鏈接,使得DAN相比傳統CNN模型擁有更少的參數,同時大幅減少的參數可加速模型的訓練速度。另外,全局池化帶來了另一個優勢即最終的圖像表示(512維)相比傳統全鏈接層(4096維)有了更低的維度,有利于模型的可擴展性以處理海量(Large-scale)數據。
此外,為了集成多層信息(Multiple layer ensemble),在DAN基礎上我們提出了可端到端訓練的DAN+。具體而言,是對ReLU5_2層的深度描述子做上述同樣操作,得到對應于 ReLU5_2的圖像表示,將其與Pool5層的DAN得到的圖像表示進行二次級聯,最終的向量維度為 2048 維。
除DAN和DAN+外,在視覺模態中,我們還利用了著名的殘差網絡(Residual Networks)作為模型集成的另一部分。
音頻模態
語音處理中的一種常用的特征為MFCC特征,在競賽模型中,我們首先從視頻中提取原始語音作為輸入數據,之后對其抽取MFCC特征。在此需要指出的是,抽取MFCC過程的一個副產品是一種名為logfbank特征,如下圖所示:
在抽取logfbank和MFCC特征后,我們同樣采取mini-batch形式的訓練方式訓練線性回歸器(Linear regression)。在競賽中,我們發現logfbank相比MFCC有更優秀的預測效果,如下圖所示。其縱軸為回歸錯誤率(越低越好),其橫軸為訓練輪數,可以發現logfbank在最終的回歸錯誤率上相比MFCC有近0.5%的提升。
于是我們選取 logfbank特征作為音頻模態的特征表示以預測音頻模態的回歸結果。由于競賽時間和精力有限,我們在比賽中未使用語音處理領域的深度學習模型。不過,這也是后續可以提高模型性能的一個重要途徑。
模態融合(Modality ensemble)
待兩個模態的模型訓練完畢,可以得到不同模態不同模型的性格特質預測結果,比賽中我們將其無權重的平均作為該視頻最終的性格特質預測結果,如圖:
競賽結果
比賽中,我們對一個視頻抽取100 幀/張圖像作為其視覺模態的輸入,對應的原始音頻作為抽取logfbank特征的語料。訓練階段,針對視覺模態,其100張圖像共享對應的性格特質真實標記;預測階段,其100張圖像的平均預測值將作為該視頻視覺模態的預測結果。
經下表對比,可以清楚看到,DAN相比VGG-Face,由于沒有了冗余的全鏈接層,其參數只有VGG-Face的約十分之一,而回歸預測準確率卻優于傳統VGG模型,同時特征維度大大減少。此外,相比ResNet,我們提出的模型DAN和DAN+也有不俗表現。此外,在模型預測速度上,DAN和DAN+也快于VGG和ResNet。
模態集成后,我們在五個性格特質預測上取得了四個結果的第一,同時我們也取得了總成績的冠軍。
模型分析
最后,我們將模型最后一層卷積/池化的特征做了可視化??梢园l現ResNet僅僅將“注意力”聚焦在了視頻中的人物上,而我們的DAN和DAN+不僅可以“注意”到人,同時可以將環境和動作信息結合起來進行表象性格預測。另外值得一提的是,其余參賽隊均做了人臉檢測等預處理操作,從而將人物從視頻中“摳”出,但是這樣的操作反而降低了整個性格特質預測的性能。俗話說“氣由心生”,一個人所處的環境(尤其是臥室、辦公室等私人場所)往往可以從側面反映一個人的性格特性。
參考文獻
[1]Victor Ponce-Lopez, Baiyu Chen, Marc Oliu, Ciprian Cornearu, Albert Clapes, Isabelle Guyon, Xavier Baro, Hugo Jair Escalante and Sergio Escalera. ChaLearn LAP 2016: First Round Challenge on First Impressions - Dataset and Results. European Conference on Computer Vision, 2016.
[2]Xiu-Shen Wei, Chen-Wei Xie and Jianxin Wu. Mask-CNN: Localizing Parts and Selecting Descriptors for Fine-Grained Image Recognition. arXiv:1605.06878, 2016.
[3]Chen-Lin Zhang, Hao Zhang, Xiu-Shen Wei and Jianxin Wu. Deep Bimodal Regression for Apparent Personality Analysis. European Conference on Computer Vision, 2016.
【編者按】本文轉自新智元。來源:深度學習大講堂,作者:魏秀參
作者簡介:魏秀參,為本次競賽NJU-LAMDA參賽隊Team Director。南京大學計算機系機器學習與數據挖掘所(LAMDA)博士生,研究方向為計算機視覺和機器學習。曾在國際頂級期刊和會議發表多篇學術論文,并多次獲得國際計算機視覺相關競賽冠亞軍,另撰寫的「Must Know Tips/Tricks in Deep Neural Networks」受邀發布于國際知名數據挖掘論壇 KDnuggets 等。 微博ID:Wilson_NJUer
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
