一文看懂 AI 訓練集、驗證集、測試集(附:分割方法+交叉驗證)

數據在人工智能技術裏是非常重要的!本篇文章將詳細給大家介紹 3 種數據集:訓練集、驗證集、測試集。

同時還會介紹如何更合理的講數據劃分爲 3 種數據集。最後給大家介紹一種充分利用有限數據的方式:交叉驗證法。

先用一個不恰當的比喻來說明 3 種數據集之間的關係:

  • 訓練集相當於上課學知識

  • 驗證集相當於課後的的練習題,用來糾正和強化學到的知識

  • 測試集相當於期末考試,用來最終評估學習效果

一文看懂 AI 訓練集、驗證集、測試集(附:分割方法+交叉驗證)

什麼是訓練集?

訓練集(Training Dataset)是用來訓練模型使用的。

在《一文看懂機器學習》裏我們介紹了機器學習的 7 個步驟,訓練集(Training Dataset)主要在訓練階段使用。

一文看懂 AI 訓練集、驗證集、測試集(附:分割方法+交叉驗證)

什麼是驗證集?

當我們的模型訓練好之後,我們並不知道他的表現如何。這個時候就可以使用驗證集(Validation Dataset)來看看模型在新數據(驗證集和測試集是不同的數據)上的表現如何。同時通過調整超參數,讓模型處於最好的狀態

一文看懂 AI 訓練集、驗證集、測試集(附:分割方法+交叉驗證)

驗證集有 2 個主要的作用:

  1. 評估模型效果,爲了調整超參數而服務
  2. 調整超參數,使得模型在驗證集上的效果最好

說明:

  1. 驗證集不像訓練集和測試集,它是非必需的。如果不需要調整超參數,就可以不使用驗證集,直接用測試集來評估效果。

  2. 驗證集評估出來的效果並非模型的最終效果,主要是用來調整超參數的,模型最終效果以測試集的評估結果爲準。

什麼是測試集?

當我們調好超參數後,就要開始「最終考試」了。我們通過測試集(Test Dataset)來做最終的評估。

一文看懂 AI 訓練集、驗證集、測試集(附:分割方法+交叉驗證)

通過測試集的評估,我們會得到一些最終的評估指標,例如:準確率、精確率、召回率、F1 等。

擴展閱讀:《分類模型評估指標——準確率、精準率、召回率、F1、ROC 曲線、AUC 曲線

如何合理的劃分數據集?

一文看懂 AI 訓練集、驗證集、測試集(附:分割方法+交叉驗證)

下面的數據集劃分方式主要針對「留出法」的驗證方式,除此之外還有其他的交叉驗證法,詳情見下文——交叉驗證法。

數據劃分的方法並沒有明確的規定,不過可以參考 3 個原則:

  1. 對於小規模樣本集(幾萬量級),常用的分配比例是 60% 訓練集、20% 驗證集、20% 測試集。

  2. 對於大規模樣本集(百萬級以上),只要驗證集和測試集的數量足夠即可,例如有 100w 條數據,那麼留 1w 驗證集,1w 測試集即可。1000w 的數據,同樣留 1w 驗證集和 1w 測試集。

  3. 超參數越少,或者超參數很容易調整,那麼可以減少驗證集的比例,更多的分配給訓練集。

交叉驗證法

爲什麼要用交叉驗證法?

假如我們教小朋友學加法:1 個蘋果+1 個蘋果 =2 個蘋果

當我們再測試的時候,會問:1 個香蕉+1 個香蕉 = 幾個香蕉?

如果小朋友知道「2 個香蕉」,並且換成其他東西也沒有問題,那麼我們認爲小朋友學習會了「1+1=2」這個知識點。

如果小朋友只知道「1 個蘋果+1 個蘋果 =2 個蘋果」,但是換成其他東西就不會了,那麼我們就不能說小朋友學會了「1+1=2」這個知識點。

評估模型是否學會了「某項技能」時,也需要用新的數據來評估,而不是用訓練集裏的數據來評估。這種「訓練集」和「測試集」完全不同的驗證方法就是交叉驗證法。

3 種主流的交叉驗證法

一文看懂 AI 訓練集、驗證集、測試集(附:分割方法+交叉驗證)

留出法(Holdout cross validation)

上文提到的,按照固定比例將數據集靜態的劃分爲訓練集、驗證集、測試集。的方式就是留出法。

留一法(Leave one out cross validation)

每次的測試集都只有一個樣本,要進行 m 次訓練和預測。
這個方法用於訓練的數據只比整體數據集少了一個樣本,因此最接近原始樣本的分佈。但是訓練複雜度增加了,因爲模型的數量與原始數據樣本數量相同。
一般在數據缺乏時使用。

k 折交叉驗證(k-fold cross validation)

靜態的「留出法」對數據的劃分方式比較敏感,有可能不同的劃分方式得到了不同的模型。「k 折交叉驗證」是一種動態驗證的方式,這種方式可以降低數據劃分帶來的影響。具體步驟如下:

  1. 將數據集分爲訓練集和測試集,將測試集放在一邊

  2. 將訓練集分爲 k 份

  3. 每次使用 k 份中的 1 份作爲驗證集,其他全部作爲訓練集。

  4. 通過 k 次訓練後,我們得到了 k 個不同的模型。

  5. 評估 k 個模型的效果,從中挑選效果最好的超參數

  6. 使用最優的超參數,然後將 k 份數據全部作爲訓練集重新訓練模型,得到最終模型。

一文看懂 AI 訓練集、驗證集、測試集(附:分割方法+交叉驗證)

k 一般取 10
數據量小的時候,k 可以設大一點,這樣訓練集佔整體比例就比較大,不過同時訓練的模型個數也增多。
數據量大的時候,k 可以設小一點。

一文看懂 AI 訓練集、驗證集、測試集(附:分割方法+交叉驗證)