2018年08月29日
安全產(chǎn)品中的人工智能(AI)和機器學習(ML)在市場營銷上炒作太甚,各種花哨的術語反而把這些工具實際的用途給弄得云山霧罩難以理解。那么,安全中的AI和ML,當下到底是個什么狀況呢?
不妨先從消除最常見的誤解開始:企業(yè)安全軟件中基本沒有融入什么真正的人工智能。AI這個術語頻繁出現(xiàn)不過是市場營銷的功勞,跟該技術本身的關系極其有限。純粹的AI,應該能夠重現(xiàn)認知能力。
話雖如此,人工智能眾多子領域之一的機器學習,倒是正被植入一些安全軟件中。但即便是機器學習這詞兒,用得也有些樂觀了。
當前安全軟件中機器學習的使用,更像是上世紀80和90年代基于規(guī)則的“專家系統(tǒng)”,而非真正的AI應用。如果你曾用過貝葉斯垃圾郵件過濾,并以成千上萬的已知垃圾郵件和正常郵件加以訓練,你就會對機器學習的工作機制有一定了解。大多數(shù)情況下,自訓練是不太可能的,需引入包括編程在內(nèi)的人工干預動作來更新ML的訓練。安全中存在太多變量、太多數(shù)據(jù)點,保持訓練更新而有效是非常困難的。
但如果能以大量數(shù)據(jù)加以訓練,并由非常清楚自己在干什么的專家來使用,機器學習也可以變得非常有效。雖然復雜系統(tǒng)也不是不可能,但機器學習在更有針對性的任務或任務集上的表現(xiàn),要優(yōu)于在內(nèi)容寬泛的任務上的表現(xiàn)。
機器學習的強項之一是異常檢測,這是用戶及實體行為分析(UEBA)的基礎。簡單講,UEBA所做的,就是確定給定設備表現(xiàn)或承受的行為是否異常。UEBA天然適用于很多主流網(wǎng)絡安全防御行為。
機器學習系統(tǒng)如果訓練深入而良好,大多數(shù)情況下也就定義出了已知良性事件。這能讓威脅情報或安全監(jiān)視系統(tǒng)專注于識別異常。
但如果ML系統(tǒng)只以供應商自己的通用數(shù)據(jù)加以訓練,會發(fā)生什么情況?如果用于訓練的事件數(shù)量不足呢?或者,缺乏定義的異常點太多,導致背景噪音不斷增大,又會怎樣?
你可能會被企業(yè)威脅檢測軟件的痛苦之源給拖垮:無窮無盡連綿不絕的誤報!也就是說,如果不持續(xù)不斷地訓練機器學習系統(tǒng),就得不到ML應提供的真正優(yōu)勢。而隨著時間流逝,你的系統(tǒng)將變得越來越?jīng)]效果。
除去上述注意事項,機器學習可以彌合安全過程,并為安全運營中心(SOC)員工提供建議。機器學習體現(xiàn)了更強大的AI系統(tǒng)可能帶來的光明前景。事實上,當前網(wǎng)絡安全領域中,機器學習已經(jīng)在發(fā)揮作用了。
機器學習的9大企業(yè)安全用例
1. 檢測并輔助挫敗正在進行中的網(wǎng)絡攻擊
或許我們無法在攻擊發(fā)生前就關上它們侵入的大門,至少現(xiàn)在還不能,但機器學習可以搶在人類前面發(fā)現(xiàn)入侵指標,然后建議可采取的緩解行動??梢圆捎脵C器學習檢測未知DDoS攻擊的程度,也能用它標定攻擊流量,然后自動產(chǎn)生用以阻止攻擊的特征簽名。
2. 威脅情報
機器學習善于分析大量數(shù)據(jù)并分類所發(fā)現(xiàn)的各種行為,只要發(fā)現(xiàn)超出正常基準的東西,便會立即通報人類分析師。
機器學習還是快速甄別海量數(shù)據(jù)的倍增器,可以推動甄別工作以大幅超出人工判斷的速度進行。惡意黑客常會使用過載戰(zhàn)術拖垮安全運營中心。雖然說起來容易做起來難,但威脅檢測系統(tǒng)越貼近實時就越有效。
3. 識別漏洞,確定漏洞優(yōu)先級,緩解漏洞
這3個動作應該是所有企業(yè)的經(jīng)常性工作,但如果有套靠譜的機器學習系統(tǒng)每天執(zhí)行這些操作,企業(yè)安全中最大的隱患——未修復漏洞,可能就不用再過多關注了。
4. 安全監(jiān)視
是跟蹤網(wǎng)絡流量、內(nèi)部及外部行為、數(shù)據(jù)訪問和一系列其他功能及行為情況的過程。編程恰當?shù)脑?,機器學習是可以消費大量數(shù)據(jù)來查找異常的。所以,運用ML,可能才是在一系列產(chǎn)品所產(chǎn)生的眾多日志文件和錯誤消息中游刃有余地旋轉騰挪的正確姿勢。
5. 檢測包括勒索軟件網(wǎng)絡釣魚攻擊在內(nèi)的惡意軟件
勒索軟件家族日益發(fā)展壯大。機器學習可能是我們能夠對抗變種繁多的勒索軟件的唯一武器,基于特征簽名的方法面向過去,只能檢測出昨天的勒索軟件。異常行為檢查的能力正被應用到勒索軟件追蹤工作中,效果良好。
6. 審查代碼查找漏洞
敏捷安全開發(fā)運維(DevSecOps)的真言之一,就是“安全即代碼”。
開發(fā)人員應該知道怎樣安全編碼,但機器學習可以輔助自動化該安全編碼過程,它可以分析代碼,查找常見編碼缺陷和可被利用的漏洞。事實上,機器學習甚至可以被當做教導編程新手的工具。
7. 數(shù)據(jù)分類
為符合數(shù)據(jù)隱私及數(shù)據(jù)保護規(guī)定,你首先得清楚自己所保護的數(shù)據(jù)都有哪些特征。機器學習可被用于掃描新進入的數(shù)據(jù),將之按敏感度等級分類,以便你的系統(tǒng)可以按所需方式提供保護。
8. 蜜罐
有一個特定的領域——蜜罐,是適合接近真正AI的深度學習技術可與當下自動化緩解技術聯(lián)合應用的。
在企業(yè)網(wǎng)絡中圍繞互聯(lián)網(wǎng)部署蜜罐,可以收集那些能被標記為惡意的數(shù)據(jù)。蜜罐檢測到的每個事件或流量實例都是100%惡意的。只要有足夠的蜜罐和數(shù)據(jù),就可以運用深度神經(jīng)網(wǎng)絡來創(chuàng)建高置信度的攻擊檢測模型。
9. 預測并自適應未來威脅
已有少數(shù)公司在研究預測性安全分析。預測分析顯露出了商業(yè)智能的一些前景。類似的機器學習技術是否能增強到可投射出未來的漏洞和數(shù)據(jù)泄露?答案尚無定論。
探悉事實真相
有專家認為,當前根本沒有基于人工智能的產(chǎn)品。這話可能有些夸張了。
AI是個涵蓋很廣的術語,可以泛指包括機器學習在內(nèi)的很多技術,甚至一些技術上并非人工智能的技術都可以代指。但如果從最嚴格的意義上看人工智能,那它就只指具備認知能力的計算機系統(tǒng)。對此,有人堅稱,當下“基于AI”的安全產(chǎn)品都是“假貨”。
但AI潛力巨大,在未來的安全領域中必將起到重要作用。然而,今天的企業(yè)安全中,并沒有多少成功部署了AI的例子。倒是機器學習還有些安全用例。
安全產(chǎn)品中的AI炒作太甚,令人無奈。
太多安全供應商吹噓自己的產(chǎn)品應用了AI技術,但實際上卻仍是用蠻力在連線固定規(guī)則,而非應用智能。那么CSO/CISO該怎么詢問供應商,才可以看破他們過度包裝機器學習的忽悠伎倆呢?
首先你得了解訓練ML或AI所用的具體機制。然后你可以問:“你的機器學習是怎么學的?”“訓練該ML需要多少數(shù)據(jù)?重訓練隔多久一次?與該學習算法協(xié)作的機制是什么?人類怎么給該算法打分?該ML或AI是存檔數(shù)據(jù)集也能處理還是只能處理在線數(shù)據(jù)?”
當然你也可以在實驗室中復現(xiàn)用戶企業(yè)環(huán)境,然后聘用信譽較高的紅隊來反復入侵該環(huán)境,從而評估基于AI的安全解決方案。
結語
AI應用到各行各業(yè)中只不過是個時間問題,而這里的各行各業(yè)就包括了網(wǎng)絡犯罪。每次安全界弄出個新的防御,網(wǎng)絡罪犯就會開發(fā)出繞過這種防御的方法。AI則會大幅加速這一周期??梢韵胂笠幌逻@樣的場景:智能犯罪系統(tǒng)每時每刻都在試圖侵入銀行、醫(yī)院和能源公司。當然,這些機構的AI系統(tǒng)將會以每秒數(shù)百次的快捷操作來應對,將網(wǎng)絡罪犯拒之門外。這是AI將呈現(xiàn)的挑戰(zhàn)與機遇。