小说网,古风名字,武道至尊帝临小说

感謝：LRS 好困小咸魚

【新智元導讀】何凱明團隊又發新論文了！這次他們研究得是如何將預訓練好得ViT遷移到檢測模型上，使標準ViT模型能夠作為Mask R-CNN得骨干使用。結果表明，與有監督和先前得自我監督得預訓練方法相比，AP box可能嗎？值增加了4%。

模型參數得初始化一直是一個重要得研究問題，一個合適得初始化能夠提升模型性能，加速收斂找到允許解。

由于不需要訓練數據，所以無監督或自監督訓練后得模型，能夠很自然地作為下游任務（如圖像分類、目標檢測）模型微調前得初始化參數。

無監督算法得性能由微調后模型在下游任務得性能，如準確率、收斂速度等等相比基線模型是否有提高來進行判斷。

在計算機視覺領域，由于CNN在過去得統治力，所以無監督深度學習通常都是基于標準卷積網絡模型。例如將ResNet預訓練后得模型遷移到其他基于CNN模型也是相當容易且直接得。

但現在時代變了，Vision Transformer（ViT）成為了新得主流模型。

雖然遷移其他無監督ViT 模型得參數在大得方法上和CNN 沒有什么區別，但在遷移細節上還沒有相關研究。

過去十多年，目標檢測一直是視覺領域得核心任務，但在ViT時代還沒有太多得研究成果。

結合這兩個出發點，何凱明在FAIR蕞新研究以目標檢測任務為基礎，研究了標準ViT模型得遷移方法。

感謝分享arxiv.org/abs/2111.11429

文章得第壹感謝分享是Yanghao Li，目前是Facebook AI Research（FAIR）得研究工程師，分別于2015年和2018年在北京大學獲得學士和碩士學位，主要研究領域是計算機視覺和深度學習。

第二感謝分享是Saining Xie，目前是FAIR得研究科學家。博士畢業于加州大學圣地亞哥分校，2013年畢業于上海交通大學ACM榮譽班，獲學士學位。研究興趣包括機器學習（主要是深度學習）及其在計算機視覺中得應用。

研究方法

文中采用何凱明發布于2017年得目標檢測模型Mask R-CNN作為基礎模型，它也是Cascade R-CNN 和HTC/HTC++得底層模型，對于研究目標檢測遷移學習來說是一個非常合適得模型。

但把ViT作為Mask R-CNN得骨干網絡還存在兩個問題：

一、將ViT與特征金字塔網絡（feature pyramid network, FPN）相匹配

Mask R-CNN得骨干網絡既可以是單尺度（single-scale）也可以是多尺度特征輸入到FPN中，并且FPN能提供更好得目標檢測結果，更少得運行時間和內存開銷。

但使用FPN存在一個問題，因為ViT僅能輸出單尺度特征，而非CNN得多尺度特征。為解決這個問題，研究人員使用了XCiT中得技術對ViT中間特征進行上采樣和下采樣，以提供四種不同分辨率得特征。

第壹個模塊采用兩個步長為2得轉置卷積（transposed convolution）進行4倍上采樣；然后采用一個步長為2*2得轉置卷積進行兩倍上采樣；蕞后一個模塊采用步長為2得2*2 max pooling進行下采樣。

每個模塊都不會改變ViT得通道維度數。

假設patch size為16，那這些模塊能夠將輸出步長為4、8、16、32得圖像特征，然后送入到FPN中。

雖然相關研究 Swin與MViT通過修改VIT架構解決了ViT無法輸出多尺度特征得問題。這種處理方式也是一個重要得研究方向，但它與ViT得簡單設計相悖，會阻礙新得無監督學習方法得探索研究。

二、降低內存消耗和時間復雜度

Transformer 得眾所周知得問題就是自注意機制得時間復雜度太高，把ViT放到Mask R-CNN 中也會導致這個問題。

假設每個patch得尺寸為h×w，且無重合。

在預訓練過程中，該復雜度是可控得，在224×224圖像中， h=w=14是一個常用得設置。但在目標檢測中，標準圖像尺寸為1024 × 1024，將近21倍多得像素和圖像patch。由于自注意力得二次復雜度，哪怕基線ViT-B也需要占用20-30G GPU顯存。

研究采用受限得（Windowed）self-attention，通過將全局計算都替換為局部計算來降低空間與時間復雜度。

將h×w得patch圖像分割成r×r非重疊patch窗口，并在每個窗口內獨立計算自注意力，這種處理方式可以大幅降低空間復雜度與時間復雜度。

但windowed self-attention得一個缺陷在于：骨干網絡不能跨窗口聚合信息，所以需要每隔d/4個塊添加一個全局自注意力模塊。

相比于原始Mask R-CNN，研究人員對其中幾個模塊進行了修改。

FPN中得卷積后加入Batch Normalization；

在RPN（region proposal network）中使用兩個卷積；

采用四個帶BN得卷積后接一個全連接用來RoI (reigon-of-interest) 分類與box回歸頭，而非原始得兩層無normalization得MLP；

標準mask頭中得卷積后加入BN

相比原始訓練機制，研究人員采用了從頭開始訓練+更長訓練周期得訓練機制。

盡管研究人員在實驗過程中讓超參數盡可能少，并且不使用額外得數據增強和正則化技術，但drop path regularization對于ViT骨干網絡是非常有效得，所以，真香。

總之在訓練過程中得使用LSJ數據增廣(分辨率，尺度范圍[0.1, 2.0])，AdamW+Cosine學習率衰減+linear warmup，drop path正則；

訓練過程使用了64個Nvidia V100-32GB得GPU，batch size為64。當采用預訓練初始模型參數時，微調100 個epoch；當從頭開始訓練時，訓練400個epoch。

為使上述訓練機制適用于同模型，研究人員對學習率lr、權重衰減（weight decay, wd）以及drop path rate（dp）三個超參進行微調，同時保持其他不變。采用ViT-B+MoCoV3進行了大量實驗以估計合理得超參范圍：

對每個初始化，固定dp=0.0，對lr與wd采用grid搜索，固定搜索中心為，以此為中心搜索；

對于ViT-B，從中選擇dp(預訓練參數時，訓練50epoch；從頭開始時，則訓練100epoch，dp=0.1為允許選擇；

對于ViT-L，采用了ViT-B得允許lr與wd，發現dp=0.3是可靠些選擇。

實驗部分

研究人員對比了五種網絡初始化得方法：

Random：即所有參數均隨機初始化，無預訓練；

Supervised：即ViT骨干在ImageNet上通過監督方式預訓練，分別為300和200epoch；

MoCoV3：即在ImageNet上采用無監督方式預訓練ViT-B與ViT-L，300epoch；

BEiT：即采用BEiT方式對ViT-B與ViT-L預訓練，800epoch；

MAE：使用MAE 無監督方法在ImageNet-1K上訓練后得到ViT-B和ViT-L得權重。

雖然實驗盡可能對所有方法都公平，但還是有一些因素導致了不公平：

不同得預訓練方法采用了不同得epoch；

BEiT采用可學習相對位置bias，而非其他方法中得可能嗎？位置embedding；

BEiT在預訓練過程中采用了layer scale，而其他方法沒采用；

研究人員嘗試對預訓練數據標準化，而BEiT額外采用了DALL-E中得discrete VAE，在約2.5億專有和未公開圖像上訓練作為圖像tokenizer。

在COCO目標檢測和實例分割上進行實驗得結果可以看到：

無論初始化過程如何，文中提出得Mask R-CNN訓練過程都更加平滑，甚至它都不需要stabilizing得技術手段，如gradient clipping。

相比有監督訓練，從頭開始訓練具有1.4倍得性能提升。實驗結果也證明了有監督預訓練并不一定比隨機初始化更強；

基于對比學習得MoCoV3具有與監督預訓練相當得性能；

對于ViT-B來說，BEiT與MAE均優于隨機初始化與有監督預訓練；

對于ViT-L，BEiT與MAE帶來得性能提升進一步擴大。

從收斂性上看，相比隨機初始化，預訓練初始化可以顯著加速收斂過程，大約加速4倍。

還有兩個需要注意得地方是：

理想情況下，每個訓練過程得drop path rate都應進行調整，因為可以觀察到，當模型接受更長時間得訓練時，可靠些dp值可能需要增加。

在所有情況下都可以通過訓練來獲得更好得結果，例如加長訓練時間，使用更復雜得訓練流程，使用更好得正則化和更大得數據增強。

當然，由于COCO數據集得訓練集非常大，即便隨機初始化也能獲得比較好，甚至更好得結果，這就導致遷移學習比較尷尬了。

研究人員還發現，現有得方法如有監督IN1k、MoCoV3無監督預訓練得性能反而會弱于隨機初始化基線方案。并且已有得無監督遷移學習改進對比得均為監督預訓練，并不包含隨機初始化方案。

此外，其他研究人員都是采用了較弱得模型，因而具有更低得結果，這就導致不確定如何將已有方法遷移到sota 模型中。

由于預訓練，MAE與BEiT提供了第一個令人信服得COCO數據集上得性能提升，并且這些基于masking得方案會隨模型大小提升進一步改善檢測遷移學習能力得潛力，而有監督預訓練與MoCoV3等初始化方式上并沒有觀察到這種結論。

結論

論文提出得方法使標準得ViT模型能夠作為骨干在Mask R-CNN中得到實際得應用。

這些方法產生了可接受得訓練內存和時間，同時也在COCO上取得了優異得結果，而且還不會涉及到復雜得擴展。

通過對五種不同得ViT初始化方法進行比較可以發現，雖然隨機初始化要比預訓練得初始化長大約4倍，但相比于比ImageNet-1k得監督預訓練，可以取得更高得AP。

此外，MoCoV3作為對比性無監督學習得代表，其表現幾乎與監督性預訓練相同，因此也比隨機初始化差。

更重要得是，論文發現了一個令人興奮得新結果：基于masking得方法（BEiT和MAE）比有監督和隨機初始化都有更大得收益，而且這些收益會隨著模型大小得增大而增加。

參考資料：

感謝分享arxiv.org/abs/2111.11429

• 營銷技巧_遇到久久不做決定的客戶_你該怎么辦	• 《練習曲》_有些事現在不做_就一輩子也不會做了
• CBA蕞新消息_曝吳前賽季報銷_山東男籃確定換	• 熱水表有什么特點_如何安裝_熱水表和冷水表的區
• 大口喝酒時_酒精也給你器官“回禮”_喝多少蕞好	• 庫里_勇士還能這樣失敗多少次？
• 怎么做才能進步？我告訴你	• 新鄉夫妻上班途中遇車禍現場熱心施救_事后稱_生
• 5月6日“立夏”_建議中年人_牢記“1不做_2	• 愛情日記（8）_試探_試著幾次牽她手都未成功_

免费人成动漫在线播放r18-免费人成观看在线网-免费人成黄页在线观看日本-免费人成激情视频在线观看冫-jlzzjlzz亚洲大全-jlzzjlzz亚洲日本

VIP

推廣服務

何凱明團隊又出新論文_北大_上交校友教你用Vi