選自 arXiv

作者: Hanxiao Liu 等 機器之心編譯 機器之心編輯部

最近,谷歌大腦團隊和 DeepMind 合作發佈了一篇論文,利用 AutoML 技術實現了歸一化激活層的進化,找出了 BatchNorm-ReLU 的替代方案 EvoNorms,在 ImageNet 上獲得 77.8% 的準確率,超越 BN-ReLU (76.1%)。

歸一化激活層的進化:谷歌 Quoc Le 等人利用 AutoML 技術發現新型 ML 模塊

批歸一化和激活函數是深度神經網絡的重要組成部分,二者的位置常常重合。以往的神經網絡設計中通常對二者分別進行設計,而最近谷歌大腦和 DeepMind 研究人員合作提出了一種新方案:將二者統一爲一個計算圖,從低級原語開始進行結構進化。研究者利用層搜索算法發現了一組全新的歸一化-激活層 EvoNorms。這些層中的一部分獨立於批統計量(batch statistics)。

實驗證明,EvoNorms 不僅在包括 ResNets、MobileNets 和 EfficientNets 在內的多個圖像分類模型上效果顯著,它還能很好地遷移到 Mask R-CNN 模型(進行實例分割)和 BigGAN (用於圖像合成)。在多種情況下,EvoNorms 的性能顯著優於基於 BatchNorm 和 GroupNorm 的層。
搜索空間
研究者將每個歸一化-激活層表示爲一個計算圖,即將輸入張量轉換爲同樣形狀的輸出張量(見圖 1)。每個中間節點表示一元或二元運算(見表 1)。這些運算旨在保存輸入張量的維度,以確保計算圖中節點的形狀彼此兼容。計算圖共有 4 個初始節點:輸入張量、常數零張量,以及沿着被初始化爲 0 和 1 的通道維度的兩個可訓練向量 v_0 和 v_1。

歸一化激活層的進化:谷歌 Quoc Le 等人利用 AutoML 技術發現新型 ML 模塊

圖 1:左圖:搜索到的歸一化-激活層的計算圖,該層獨立於批統計量,研究者將其命名爲 EvoNorm-S0。右圖:使用 EvoNorm-S0 作爲歸一化-激活層的 ResNet-50,當 8 個 worker 上的批大小從 1024 到 32 不等的情況下,在 ImageNet 數據集上的性能結果。EvoNorm-S0 的性能還優於 MobileNetV2 和 Mask R-CNN 模型中基於批歸一化(BN)和組歸一化(GN)的層。_
_

歸一化激活層的進化:谷歌 Quoc Le 等人利用 AutoML 技術發現新型 ML 模塊

表 1:搜索空間的原語。
按照順序可以生成隨機圖。從初始節點開始,研究者隨機採樣原語操作並根據操作的元數(arity)對其輸入節點進行隨機採樣,從而生成新節點。
層搜索方法
該研究使用的搜索方法包含以下重要部分:

  • 將每個層與多個架構進行配對,並在輕量級代理任務中訓練模型,從而評估每個層的性能。

  • 通過進化算法來優化多目標邊界,使用高效的否決機制(rejection mechanism)進行增強,從而過濾掉不需要的層。

下圖 3 展示了層搜索方法的整體工作流程:

歸一化激活層的進化:谷歌 Quoc Le 等人利用 AutoML 技術發現新型 ML 模塊

圖 3:層搜索算法的工作流程。將每個產生突變的層與 K 個架構配對,從頭開始訓練以得到 K 個多目標錦標賽選擇算法的性能分數。
層評估
像 BatchNorm-ReLU 這類有用的層能夠在多種網絡架構中均具備良好的效果。然而,從圖 4 中可以看到,那些在某一給定架構中表現不錯的層,在遷移到其他架構後其性能未必就好。爲了明顯地提升其泛化性能,研究者將層搜索構建爲一個多目標優化問題,其中每個候選層均在 K (K > 1) 個不同錨點架構上進行評估,以獲得多個擬合值。

歸一化激活層的進化:谷歌 Quoc Le 等人利用 AutoML 技術發現新型 ML 模塊

圖 4:5000 個隨機層與不同圖像分類架構適配時的準確率。
代理任務與錨點架構

研究者將代理任務定義爲在 CIFAR-10 數據集上的圖像分類任務,並考慮在 ImageNet 上三個具有代表性的網絡架構,將其針對文中的設置進行相應調整。這些架構包括:通道倍率(channel multiplier)爲 0.25×的預激活(Pre-activation) ResNet50;通道倍率爲 0.5×的 MobileNetV2;通道倍率爲 0.5×的 EfficientNet-B0。
爲處理 CIFAR-10 中圖像分辨率低於 ImageNet 的問題,將以上網絡架構的前兩個用於縮小空間的卷積步長修改爲 1。研究者將這些調整後的版本分別稱爲 ResNet50-CIFAR,MobileNetV2-CIFAR 和 EfficientNet-CIFAR。

歸一化激活層的進化:谷歌 Quoc Le 等人利用 AutoML 技術發現新型 ML 模塊

圖 5:錨點架構中的模塊定義。從左到右依次爲:ResNet-CIFAR、MobileNetV2-CIFAR 和 EfficientNet-CIFAR。
進化
該研究使用的進化算法是錦標賽選擇算法的變體。在每一步中,基於全部層的隨機子集構建錦標賽,獲勝者可以生成突變後的進化版本,在經過評估後加入到候選層中。因此,隨着這一過程不斷重複,候選層的整體質量有所提升。研究者還通過保持獲選層最近部分的滑動窗口,對進化執行正則化。
選擇標準。錦標賽獲勝者的選擇標準並非唯一,因爲每個層都具備多個分數。下面展示了兩個可實施的選項:

  • 平均值:具備最高平均準確率的層獲勝(如圖 6 中的 B);

  • 帕累託:位於帕累託邊界上的隨機層獲勝(如圖 6 中的 A、B、C 均獲勝)。

突變。研究者通過以下三個步驟完成獲勝層的計算圖突變:

  1. 隨機均勻選擇中間節點;

  2. 隨機均勻地使用表 1 中的新操作替換當前操作;

  3. 隨機均勻地選擇該節點的新的繼任者。

歸一化激活層的進化:谷歌 Quoc Le 等人利用 AutoML 技術發現新型 ML 模塊

圖 6: 對於多目標進化的二選一錦標賽評價準則。
否決機制
質量。對於在任意三個 anchor 架構中進行了 100 個訓練步後驗證準確率低於 20% 的層,研究者選擇丟棄。由於候選層中絕大部分無法獲得有意義的學習動態(見圖 2),因此這一簡單機制可以確保計算資源集中在對有潛力的少量候選層進行完整的訓練。
穩定性。除了質量以外,研究者還選擇丟棄具備數值不穩定性的層。其基本原理是:向着最大化網絡梯度範數的方向對抗式地調整卷積權重 θ,從而對候選層進行壓力測試。
實驗
在表 2 中,研究者將所發現的層與應用廣泛的歸一化激活層在 ImageNet 數據集上進行比較,包括使用谷歌之前提出的 Swish 激活函數 的強基線。

歸一化激活層的進化:谷歌 Quoc Le 等人利用 AutoML 技術發現新型 ML 模塊

表 2:不同的歸一化-激活層在 ImageNet 上的測試準確率。需要移動平均數的項見圖中藍字。對於相同的架構,用相同的代碼庫和相同的訓練設置會得到一樣的結果。
表 3 展示了從另一個搜索實驗中得到的 EvoNorms 的性能數據,該實驗不使用包含批聚合操作(batch aggregation op)的層。

歸一化激活層的進化:谷歌 Quoc Le 等人利用 AutoML 技術發現新型 ML 模塊

表 3:不具備批統計量的基於樣本的層在 ImageNet 上的測試準確率。學習率和批大小呈線性關係。對相同的架構,用相同的代碼庫和相同的訓練設置會得到一樣的結果。
圖 7 展示了具備大批量的 Evonorms 的學習動態。在相同的訓練環境下,儘管訓練損失較大,但在 ResNet-50 上 EvoNorm-B0 的性能仍然優於 BN-ReLU。

歸一化激活層的進化:谷歌 Quoc Le 等人利用 AutoML 技術發現新型 ML 模塊

圖 7:在批大小較大的情況下,ResNet-50 和 MobileNetV2 在 ImageNet 數據集上的訓練 / 評估曲線。圖中顯示了每個層對應的測試準確率。
爲了調查該研究發現的層能否在搜索時的分類任務以外的任務上實現泛化,研究者將其與 Mask R-CNN (He et al., 2017) 和 ResNet-FPN (Lin et al., 2017) 進行配對,並在 COCO 數據集上執行目標檢測和實例分割任務。

歸一化激活層的進化:谷歌 Quoc Le 等人利用 AutoML 技術發現新型 ML 模塊

表 4:在 COCO val2017 數據集上的 Mask R-CNN 目標檢測和實例分割結果。
研究者進一步測試了 EvoNorms 在訓練 GAN 時的可用性。運用 BigGAN 的訓練步驟進行訓練後,研究者在表 5 中給出了最佳表現的結果。使用 EvoNorm-B0 的 BigGAN-deep 生成的部分樣本圖像如圖 8 所示。

歸一化激活層的進化:谷歌 Quoc Le 等人利用 AutoML 技術發現新型 ML 模塊

表 5:BigGAN-deep 生成器中不同歸一化激活層的圖像合成性能,其中使用批統計量與不使用批統計量的層是彼此分離的。如圖所示,中位數和最佳性能是在 3 個隨機種子上取得的。IS 值越高越好,FID 值越低越好。

歸一化激活層的進化:谷歌 Quoc Le 等人利用 AutoML 技術發現新型 ML 模塊

圖 8:BigGAN-deep + EvoNorm-B0 生成的部分圖像示例。
與只依賴一種方差的傳統歸一化範式不同,EvoNorm-B0 嘗試在其 denominator 中混合兩種方差。前者在同一 mini-batch 內捕捉不同圖像的全局方差,後者則捕捉每個圖像的局部方差。

歸一化激活層的進化:谷歌 Quoc Le 等人利用 AutoML 技術發現新型 ML 模塊

圖 9:EvoNorm-B0 的計算圖。
研究者以 MobileNetV2 爲例詳細研究了上述問題。結果顯示,EvoNorm-B0 在準確率-參數權衡和準確率-FLOPs 權衡方面都顯著優於 BN-ReLU (見圖 11)。這是因爲 EvoNorms 的開銷可以很大程度上由其性能收益來補償。

歸一化激活層的進化:谷歌 Quoc Le 等人利用 AutoML 技術發現新型 ML 模塊

圖 11:MobileNetV2 配以不同的歸一化激活層時的 ImageNet 準確率 vs 參數,以及準確率 vs FLOPs。
下圖 10 在代理任務中對比了進化和隨機搜索,從圖中我們可以看到它們在優化搜索目標時的採樣效率存在很大差距。

歸一化激活層的進化:谷歌 Quoc Le 等人利用 AutoML 技術發現新型 ML 模塊

圖 10:在代理任務中,進化 vs 隨機搜索 vs 固定基線(BN-ReLU)的搜索進程。
作者信息
這篇論文的作者共有四位,分別來自谷歌大腦和 DeepMind。其中,一作是谷歌大腦研究科學家 Hanxiao Liu (劉寒驍)。他本科畢業於清華大學,2018 年在卡內基梅隆大學取得計算機科學博士學位,曾先後在微軟、Citadel、DeepMind 等公司實習,2018 年加入谷歌擔任研究科學家。

歸一化激活層的進化:谷歌 Quoc Le 等人利用 AutoML 技術發現新型 ML 模塊

論文一作劉寒驍。

本 文爲機器之心編譯,**轉載請聯繫本公衆號獲得授權 。**

✄------------------------------------------------加入機器之心(全職記者 / 實習生): hr@jiqizhixin.com 投稿或尋求報道:content @jiqizhixin.com 廣告 & 商務合作: bd@jiqizhixin.com

來源鏈接:mp.weixin.qq.com