11/08/2017 作者:MADELINESCHIAPPA
當我向別人解釋我是一名資料科學家,工作是負責建立機器學習模型時,通常對方的眼光會一片茫然。
在網路安全這個行業「機器學習」這個詞經常會被用到,由於許多不同的原因,所以很難理解它進一步的意義。在 Sophos,我們專注於深度學習 (deep learning),這是機器學習的一種進階形式。
為了幫助揭開機器學習的神秘面紗,我們撰寫了一篇技術文章,介紹為什麼這項技術的威力如此強大的概念、建立機器學習模型的科學,以及為什麼並非所有模型都是平等的。另外,我希望當我向人們描述我的工作時,他們更能真正了解這項工作的內容。
這篇文章包含一系列的主題,可作為深入學習的入門指引。我們回顧了我們開發深度學習模型的過程,包括收集大量資料、定義該領域的工程方法、建立架構、培養模型、測試模型和評估模型。
在深入探索之前,首先您要了解的是深度學習本身的概念。這種機器學習與人腦非常相似,因為它涵蓋許多層的神經元。
這正是「人工神經網路」(artifical neural network) 這個術語的由來。在這個領域中,「人工」意味著它是對大腦的神經網路模仿。
大腦中的神經網路和人工網路都會接收輸入,然後以某種方式處理輸入,然後將資訊輸出給其他神經元。主要區別在於人類大腦包含大約 1000 億個神經元,而人造神經網路則遠遠不及,甚至連一小部分都談不上。
如同其他類型的機器學習一樣,深度學習使用數學模型來進行學習,而不是根據特定問題的特殊性明確地進行程式開發。透過使用大量的資料,我們可以建立一個能夠準確描述資料的通用模型。對 Sophos 而言,這些資料可能會是惡意軟體、惡意網址,或是我們正在努力解決的其他安全問題。
既然我們使用通用模型來試圖解釋特定的現象,那麼我們永遠無法得知機器學習模型是否已經正確學會預測了。這就是為什麼我們開發的任何模型總是伴隨著一套嚴格的評估。
若要了解詳細資訊,請下載完整的技術文章。我們將與您分享來自 Sophos 資料科學團隊的更多深入見解。請造訪此處以了解更多更新資訊。
(本博文為翻譯本,內容以英文原文為準)
Leave a Reply