導讀:更大的規(guī)模不一定更適合機器學習。
更大的規(guī)模不一定更適合機器學習。但是,隨著研究人員相互競爭追求最先進的基準,深度學習模型和訓練它們的數(shù)據(jù)集不斷擴展。不管它們?nèi)绾瓮黄?,更大的模型都會對預算和環(huán)境產(chǎn)生嚴重的影響。比如 GPT-3,一個在去年夏天推出的大受歡迎的自然語言處理模型,據(jù)說花了 1200 萬美元 用于訓練。更有甚者,馬薩諸塞大學阿默斯特分校(UMass Amherst)的 研究人員發(fā)現(xiàn),訓練大型人工智能模型所需的計算能力能夠產(chǎn)生 60 多萬磅的二氧化碳排放——是普通汽車壽命周期排放量的 5 倍。
目前,沒有跡象表明,以機器學習行業(yè)的發(fā)展速度,計算密集型工作將會放緩。OpenAI 的研究顯示,深度學習模型的計算能力在 2012 到 2018 年間增長了驚人的 30 萬倍,超過了摩爾定律。這個問題不僅僅是訓練這些算法,而是要在生產(chǎn)環(huán)境下運行它們,或者說在推理階段。對很多團隊而言,由于純粹的成本和資源的限制,深度學習模型的實際應用仍然遙不可及。
幸好,研究人員發(fā)現(xiàn)了一些新的方法來縮小深度學習模型,并通過更智能的算法來優(yōu)化訓練數(shù)據(jù)集,使得模型在生產(chǎn)環(huán)境下運行得更快,計算量也更少。就連業(yè)界的一個峰會也專門討論低功耗、微型機器學習。剪枝(Purning)、優(yōu)化(Quantization)和遷移學習(Transfer Learning)就是三種具體的技術。這些技術可以讓那些無法投資數(shù)百萬美元把模型轉(zhuǎn)換成生產(chǎn)環(huán)境的組織實現(xiàn)機器學習的民主化。對“邊緣”用例來說,這一點尤為重要,因為大型專用人工智能硬件在物理上并不切實際。
第一種技術,即剪枝,是近幾年來研究的熱點之一。包含“深度壓縮”(Deep Compression)和“彩票假說”(Lottery Ticket Hypothesis)在內(nèi)的高引用文獻表明,可以在不損失正確性的情況下消除神經(jīng)網(wǎng)絡中“神經(jīng)元”之間一些不必要的連接,有效地使模型更小、更容易在資源有限的設備上運行。最新的論文 進一步驗證并完善了早期的技術,以開發(fā)出更小的模型,使其達到更高的速度和正確度。對某些模型,比如 ResNet,可以在不影響正確性的情況下剪枝 90% 左右。
第二種技術,即優(yōu)化,也正在逐步普及。優(yōu)化 涉及許多不同的技術,它們可以將大的輸入值轉(zhuǎn)換為小的輸出值。換句話來說,在硬件上運行神經(jīng)網(wǎng)絡可以產(chǎn)生上百萬次乘和加運算。減少這些數(shù)學運算的復雜性有助于減少內(nèi)存需求和計算成本,這將大大提高性能。
最后,雖然這不是一種縮小模型的技術,但是 遷移學習 能夠在有限的數(shù)據(jù)中幫助訓練一個新模型。遷移學習以預訓練模型作為起點。通過有限的數(shù)據(jù)集,模型的知識可以“遷移”到一個新的任務中,而無需從頭再來訓練原始模型。在訓練模型時,這是一種減少計算能力、能源和資金的重要方法。
最重要的啟示是,模型可以(也應該)盡可能地優(yōu)化,使其在較少的計算量下運行。在不犧牲性能和正確性的情況下,尋找減小模型大小和相關計算能力的方法將是機器學習的下一大突破。
如果能有更多人在生產(chǎn)環(huán)境中低成本地使用深度學習模型,我們就能真正看到現(xiàn)實世界中創(chuàng)新的新應用。這些應用可以在任何地方運行,甚至是在最小的設備上,以達到做出即使決定所需的速度和正確性。或許,小型模型最好的效果是整個行業(yè)能夠減少其環(huán)境硬件,而不是每六年增加 30 萬倍。
作者介紹:
Sasa Zelenovic,Neural Magiic 團隊成員,幫助數(shù)據(jù)科學家發(fā)現(xiàn)開源、廉價的硬件加速器替代品,以實現(xiàn)深度學習性能。
https://www.datasciencecentral.com/profiles/blogs/honey-i-shrunk-the-model-why-big-machine-learning-models-must-go