當前位置:百科全書館>科技>科技生活>

屬於機器學習常見流程的是

科技生活 閲讀(5.15K)

品牌型號:華為MateBook D15
系統:Windows 10

屬於機器學習常見流程的是

屬於機器學習常見流程的是數據獲取、特徵提取、模型訓練和驗證、線下測試、線上測試。

1、數據獲取:首先從線上拉取用户真實數據,用現有模型過一遍這些數據得到一些有用的信息作為標註人員的一個參考,加快標註速度;標註完成後,數據入庫並解決衝突,衝突即是同一個query,兩次標註結果不一致,解決衝突的辦法一般是人工check,得到一個更準確的標註;

2、特徵抽取:NLP任務一般需要抽取數據的特徵,如ngram、詞典特徵、詞向量特徵、上游模塊的輸出等。一般離線和在線均需要特徵抽取,所以離在線的這部分代碼是共用的,避免在線特徵抽取和離線不一致。抽取特徵時有個小技巧是把能想到的特徵均抽取出來,並保存成文本文件,避免重複的執行特徵抽取的步驟,在實驗的時候用mask的方式去屏蔽掉那些對模型沒用的特徵,因為針對神經網絡這樣的模型,值為0的特徵一般不影響最終結果(如tanh/ReLU等,但sigmoid激活層可能會影響)。這樣抽取出來的特徵的格式一般還不能滿足機器學習框架的要求,通過腳本轉化成機器學習框架要求的格式即可。

3、模型訓練和驗證:常用的模型訓練和驗證步驟是:首先以一個簡易的算法開始,快速的進行實現,並在交叉驗證集上進行驗證;然後畫出它的學習曲線,通過學習曲線確定是否更多的數據或者更多的特徵會對模型的優化有幫助。接着人為地檢測交叉驗證集中被錯誤的進行分類的或者預測的樣本的共同特徵,從實際入手對模型進行調整,不斷調整並驗證在交叉驗證集上的誤差,尋找最優的結果,優化模型。

4、線下測試:指在模型驗證有提升後,在測試集上測試模型的性能指標。線下測試可以將模型集成在應用程序裏測試,也可以單獨測試模型。線下測試的指標一般跟具體的業務需求相關,包括:準確率(accuracy)、精確率(precesion)、召回率(recall)、F1值等。

5、線上測試:是模型上線後的測試,是跟業務緊密相關的一個指標。在實際工作中,一般先將版本上線至一個複製小流量環境,打到這個環境的流量同時也打到線上環境,然後同時取出線上環境的結果和複製小流量環境的結果,抽出兩者的diff,人工做gsb(goodbadsame),即針對有diff的case,人工標註小流量好(good),還是線上好(bad),或者兩者打平(same),如果good多於bad,説明gsb通過,可以上線供用户體驗。這種方法與A/Btesting類似。模型上到線上後,可以通過用户行為反饋模型的好壞,如用户點擊、pv等。