手機版 | wap版 | 網站主頁 | HOME | 3G網頁
<button id="zxios"><acronym id="zxios"></acronym></button>

<dd id="zxios"></dd>
<button id="zxios"></button>
      1. <progress id="zxios"></progress>
        <tbody id="zxios"><track id="zxios"></track></tbody>
        <em id="zxios"><tr id="zxios"></tr></em>

        電子發燒友網 > 人工智慧 > 正文

        機器學習如何做好分佈外異常檢測?

        2020年01月16日 09:39 次閱讀

        對於機器學習而言,區分異常數據或有顯著差異數據至關重要。谷歌在 NeurIPS 2019 論文中提出併發布了針對基因組序列 OOD 檢測的現實基準數據集,進而提出一種基於似然比的解決方案,可顯著提高 OOD 檢測的準確性。AI 科技評論將谷歌對該方法的官方解讀編譯如下。

        深度學習科學家要成功部署機器學習系統,需要系統能夠區分出異常數據或與訓練中使用的數據有顯著差異的數據。

        由於深度神經網路分類器可能會將以高置信度將分佈外(ODD)的輸入分類到分佈內的類別中,因此區分異常數據或有顯著差異數據是十分重要的。當我們利用這些預測為現實決策提供依據時,異常數據檢測將尤為重要。

        例如,將機器學習模型應用於基於基因組序列的細菌檢測,就是一項具有挑戰性的現實應用。細菌檢測對於敗血症等傳染病的診斷和治療,以及食源性病原體的鑒定都非常關鍵。

        近些年來,隨著新細菌種類不斷被發現,雖然基於已知分類訓練的神經網路分類器通過交叉驗證達到了很高的測量準確性,但部署模型仍具有高的挑戰性,因為現實數據在不斷進化發展,並且將不可避免地包含以往訓練數據中從未出現過的基因組(OOD 輸入)。

        圖1 近些年來,隨著新的細菌種類逐漸地被發現。將已知的分類數據輸入基於已知分類數據訓練的分類器能夠達到很高的準確性,這是因為輸入的分類數據是已知的,但它可能將已知分類數據中混合了未知分類數據(如:ODD 數據)的輸入進行錯誤的分類,並且具有很高的置信度。

        在 NeurIPS 2019 發表的論文《分佈外檢測的似然比》(Likelihood Ratios for Out-of-Distribution DetecTIon)中,谷歌受到上述新細菌種類檢測這類現實問題的啟發,提出併發布了針對基因組序列 OOD 檢測的現實基準數據集。

        論文地址:http://arxiv.org/abs/1906.02845

        實現代碼 GitHub 地址:http://github.com/google-research/google-research/tree/master/genomics_ood

        他們利用基於基因組序列的生成模型測試了 OOD 檢測的現有方法,發現似然值——即輸入來自使用分佈不均數據進行估算的分佈數據的模型概率——通常是錯誤的。在最近的圖像深度生成模型研究工作中,他們也觀察到了這種現象,並通過統計背景影響來解釋這種現象,進而提出一種基於似然比的解決方案,可以顯著地提高 OOD 檢測的準確性。

        一、為什麼密度模型無法應用於 OOD 檢測?

        為了模擬實際問題並系統地評估不同的方法,他們建立了一個新的細菌數據集,使用的數據來自美國國家生物技術信息中心(NCBI )對外開放的原核生物目錄基因組序列數據。

        為了模擬測序數據,他們將基因組片段化為當前測序技術通常使用的 250 個短序列長度的鹼基對。然後,其將分佈內和分佈外的數據按發現日期進行分離,以便截止時間之前被發現的細菌種類被定義在分佈內,在之後發現的被定義為分佈外(OOD) 。

        然後,他們基於分佈內的基因組序列訓練深度生成模型,通過繪製似然值曲線,檢驗模型辨別輸入的分佈內和分佈外數據的能力。 OOD 序列似然值的直方圖與分佈內序列似然值高度重合,則表明生成模型無法區分在兩個種類之間進行的 OOD 檢測結果。

        在圖像深度生成模型的早期研究中(相關閱讀參考:http://arxiv.org/abs/1810.09136)也得到了類似的結論。例如,利用 Fashion-MNIST 數據集(由衣服和鞋類的圖像組成)訓練 PixelCNN ++ 模型,比來自 MNIST 數據集(包括數字0-9的圖像)的 OOD 圖像分配了更高的似然值。

        圖2 左:分佈內和分佈外(OOD)基因組序列的似然值直方圖。 似然值未能分辨出分佈內和OOD基因組序列。 右:Fashion-MNIST 數據集訓練模型、MNIST 數據集估計的似然值直方圖。 模型在OOD(MNIST)圖像上比在分佈內圖像分配了更高的似然值。

        在研究這種失敗模型時,他們觀察到背景統計可能影響了似然值的計算。為了更直觀地理解該現象,假設輸入由兩個部分組成:(1)以背景統計為特徵的背景成分,(2)以指定於分佈內數據專用的模式為特徵的語義成分。

        例如,可以將 MNIST 圖像建模為背景加語義。當人類解讀圖像時,可以輕鬆地忽略背景信息而主要關注語義信息,例如下圖中的「 /」標記。但是當為圖像中的所有像素計算似然值時,計算結果中同時包括了語義像素和背景像素。雖然他們只需使用語義的似然值進行決策,但原始的似然值結果中可能大多數都是背景成分。

        圖3 左上:Fashion-MNIST 的示例圖像。 左下:MNIST 的示例圖像。 右:MNIST 圖像中的背景和語義成分。

        二、OOD 檢測的似然比

        他們提出了一種去除背景影響並專註於語義成分的似然比方法。

        首先,受遺傳突變的啟發,他們利用擾動輸入方法訓練背景模型,並通過隨機選擇輸入值的位置,將其替換為另一個具有相等概率的值。為了成像,他們從從256個可能的像素值中隨機選擇輸入值;針對DNA 序列,他們從四個可能的核苷酸(A,T,C或G)中選出輸入值。此過程中,適量的擾動會破壞數據的語義結構,導致只能捕獲到背景。

        接著,他們計算完整模型與背景模型之間的似然比,去掉了背景成分,這樣就只保留了語義的似然值。似然比是背景對比得分,即它抓住了語義與背景對比的意義。

        為了定性評估似然值與似然比之間的差異,他們繪製了在 Fashion-MNIST 數據集和 MNIST 數據集中每個像素的似然值和似然比值,創建了與圖像相同的尺寸的熱圖。

        這使他們可以分別直觀地看到哪些像素對於這兩項值的貢獻最大。從對數似然熱圖中可以看到,對於似然值而言,背景像素比語義像素的貢獻更多。

        事後看來這並不足為奇,這是由於背景像素主要由一連串零組成,因此很容易被模型學習。

        MNIST 和 Fashion-MNIST 熱圖之間的比較則說明了為什麼 MNIST 返回更高的似然值——僅僅是因為它包含了更多的背景像素!相反,似然比的結果更多地集中在語義像素上。

        圖4 左:Fashion-MNIST 和 MNIST 數據集的對數似然熱圖。 右:Fashion-MNIST 和 MNIST 數據集的似然比熱圖,具有更高值的像素會具有更淺的陰影。 似然值主要由「背景」像素決定,而似然比則集中在「語義」像素上,因此更適合用於 OOD 檢測。

        這種似然比方法修正了背景影響。他們基於 Fashion-MNIST 訓練 PixelCNN ++ 模型,然後在 MNIST 圖像數據集進行 OOD 檢測,實驗結果得到了顯著改善,AUROC 評分從 0.089 提高至 0.994 。

        當他們將似然比方法應用於基因組基準數據集這一極具挑戰的問題時,對比其它 12 種基線方法,該方法表現出了最佳性能。

        不過他們也表示,儘管該似然比方法在基因組數據集上達到了最先進的性能,但離將模型部署到實際應用中的高準確性要求仍存在一定距離。 他們鼓勵研究人員努力去解決這一重要問題,並改善當前的最新技術。

        下載發燒友APP

        打造屬於您的人脈電子圈

        關注電子發燒友微信

        有趣有料的資訊及技術乾貨

        關注發燒友課堂

        鎖定最新課程活動及技術直播

        電子發燒友觀察

        一線報道 · 深度觀察 · 最新資訊
        收藏 人收藏
        分享:

        評論

        相關推薦

        第一屆中國AI與機器學習研討會

        活動內容  人工智慧技術將在未來對傳統產業產生重大顛覆性影響,人工智慧將在各行各業為創新設計帶來新的動力,它也將催生新的
        發燒友學院發表於 2018-03-29 00:00 227次閱讀
        第一屆中國AI與機器學習研討會

        CFA二級思維導圖分享:機器學習

        在機器學習中,訓練模型的演算法數據集包括:訓練樣本(Trainning Sample),檢驗樣本(va....
        發表於 2020-01-16 09:25 14次閱讀
        CFA二級思維導圖分享:機器學習

        阿里巴巴在GitHub上發布了其Alink平台的...

        賈指出,中國技術供應商是GitHub上十大貢獻者之一,他說:「我們致力於在我們的軟體開發周期中儘早與....
        發表於 2020-01-16 09:16 2次閱讀
        阿里巴巴在GitHub上發布了其Alink平台的...

        讀懂NeurIPS2019最佳機器學習論文

        們先重述標題。本文的研究討論了一種用於學習半空間的演算法,該演算法在與分佈無關的PAC模型中使用,且研究....
        發表於 2020-01-16 09:03 14次閱讀
        讀懂NeurIPS2019最佳機器學習論文

        新華三在人工智慧、機器學習領域的創新實力

        當前,在機器學習等技術創新的驅動下,以行業+AI為基石的智能化應用正在加速各行各業的數字化轉型,開啟....
        發表於 2020-01-16 08:20 31次閱讀
        新華三在人工智慧、機器學習領域的創新實力

        應聘機器學習工程師崗位你需要知道的12個基礎面試...

        假設一個簡單的層計算公式 y = (Wx + b),y 在 W 上的導數就是這樣:dy=dWx。因此....
        發表於 2020-01-16 08:17 29次閱讀
        應聘機器學習工程師崗位你需要知道的12個基礎面試...

        機器學習預測計算機晶元執行來自各種應用程序的代碼...

        研究人員通過一種特殊的神經網路模型,它以「基本塊」(計算指令的基本摘要)形式訓練標記的數據,以自動預....
        發表於 2020-01-16 08:13 23次閱讀
        機器學習預測計算機晶元執行來自各種應用程序的代碼...

        《機器學習實戰-基於Sophon平台的機器學習理...

        本書由星環科技人工智慧平台研發團隊合著,凝聚了來自演算法專家及一線軟體工程專家的實戰經驗。相比於國內學....
        發表於 2020-01-16 08:11 17次閱讀
        《機器學習實戰-基於Sophon平台的機器學習理...

        Rokid新一代Rokid Glass 2 AR...

        Rokid於今日發布了最新一代AR眼鏡Rokid Glass 2。
        發表於 2020-01-15 17:13 193次閱讀
        Rokid新一代Rokid Glass 2 AR...

        網路安全領域的AI泡沫變小了?

        機器學習不應將公司的網路安全作為單一防禦層來支撐,而應將人員、流程和技術結合在一起,成為多層和全面安....
        發表於 2020-01-15 17:11 44次閱讀
        網路安全領域的AI泡沫變小了?

        換臉技術打開的「潘多拉魔盒」,人工智慧亟待突破「...

        目前,「人人都怕換臉術」的恐慌,已引起國家有關部門的高度關注。今年1月1日起施行的《網路音視頻信息服....
        發表於 2020-01-15 14:01 388次閱讀
        換臉技術打開的「潘多拉魔盒」,人工智慧亟待突破「...

        機器學習中有哪一些演算法是經常用的

        人工神經網路(ANN)以大腦處理機製作為基礎,開發用於建立複雜模式和預測問題的演算法。
        發表於 2020-01-15 11:49 24次閱讀
        機器學習中有哪一些演算法是經常用的

        人工智慧可以解決「三體問題」嗎

        研究人員並未打算讓這套神經系統獨挑大樑,他們認為最好讓Brutus之類的程序做大部分「苦力活」,而神....
        發表於 2020-01-15 10:55 39次閱讀
        人工智慧可以解決「三體問題」嗎

        商業中的AI需要如何去對待

        現在有一種評估人工智慧(AI)的趨勢,即評估它如何改善消費者購物旅程中的離散元素,而不是評估人工智慧....
        發表於 2020-01-15 10:47 16次閱讀
        商業中的AI需要如何去對待

        清華人工智慧研究院院長張鈸:從「讓數據說話」到引...

        深度學習興起之後,學界將目標轉移至數據,提出「讓數據說話」。張鈸認為,這種強調對深度學習的發展起到積....
        發表於 2020-01-15 10:41 136次閱讀
        清華人工智慧研究院院長張鈸:從「讓數據說話」到引...

        人工智慧的介入在文學藝術圈製造了持久的喧嘩

        工智能的介入在文學藝術圈製造了持久的喧嘩,各種觀點錯雜交疊。欣然接受人工智慧的作家不多,反對人工智慧....
        發表於 2020-01-15 10:37 275次閱讀
        人工智慧的介入在文學藝術圈製造了持久的喧嘩

        人工智慧與金融業務是如何融合的

        由於人工智慧技術的應用對於很多金融機構與銀行而言還屬於新興事物,而且在技術方面更具有很強的專業性,因....
        發表於 2020-01-14 15:53 25次閱讀
        人工智慧與金融業務是如何融合的

        人類的發明模式受到了人工智慧怎樣的影響

        隨著人工智慧和機器學習開始在影像識別和語言理解方面取得令人印象深刻的成就,已經有許多科學家認為其可以....
        發表於 2020-01-13 16:59 39次閱讀
        人類的發明模式受到了人工智慧怎樣的影響

        邊緣處理的機器學習處理的特定領域SoC逐漸成為主...

        通過SiFive的DesignShare計劃進行的聯合晶元開發,結合了兩家公司的IP和設計優勢,可為....
        發表於 2020-01-13 16:14 141次閱讀
        邊緣處理的機器學習處理的特定領域SoC逐漸成為主...

        人工智慧如何和加密貨幣創造新的商機

        隨著加密貨幣的興起,以及可能與人工智慧結合在一起,因而人工智慧越來越受歡迎,不但進入主流媒體,也成為....
        發表於 2020-01-13 16:02 34次閱讀
        人工智慧如何和加密貨幣創造新的商機

        清華大學發布人工智慧全球2000位最具影響力學者...

        從國家角度看,美國學者人數的佔比最高,有1128人,佔比61.4%,超過總人數的一半,獨自領跑第一梯....
        發表於 2020-01-13 15:12 226次閱讀
        清華大學發布人工智慧全球2000位最具影響力學者...

        雲計算領域在2020年是怎樣的展望

        隨著5G的擴張,我們將看到手機遊戲發展將進一步加速,因為5G提供了強大的連接、低延遲和帶寬能力,需要....
        發表於 2020-01-13 10:04 32次閱讀
        雲計算領域在2020年是怎樣的展望

        GPU技術的關鍵參數有哪些和應用場景詳細說明

        隨著雲計算,大數據和人工智慧技術發展,邊緣計算髮揮著越來越重要的作用,補充數據中心算力需求。計算架構....
        發表於 2020-01-12 10:25 278次閱讀
        GPU技術的關鍵參數有哪些和應用場景詳細說明

        Unlearn機器學習平台可加快阿爾茨海默氏症葯...

        查爾斯·費舍爾(Charles K. Fisher)博士說:「我們今天發布的結果令我們感到興奮,因為....
        發表於 2020-01-11 10:50 180次閱讀
        Unlearn機器學習平台可加快阿爾茨海默氏症葯...

        機器學習在庫存管理中有哪一些應用

        人工智慧(特別是在在線零售行業中)的常見用途之一是使用自主機器人與客戶進行交互。
        發表於 2020-01-10 15:13 72次閱讀
        機器學習在庫存管理中有哪一些應用

        AI發明家申請專利為什麼被拒絕了

        人工智慧成為科技行業最大熱點,包括語音識別、圖像識別等技術得到了更加廣泛的應用,人工智慧技術的能力也....
        發表於 2020-01-10 14:27 339次閱讀
        AI發明家申請專利為什麼被拒絕了

        目前機器人的行為是多種多樣並且不可預測的

        很多人都說家庭機器人為兒童、家庭和老人提供幫助和陪伴。設計有表現力的眼睛和頭部姿勢的機器是特別感興趣....
        發表於 2020-01-10 11:12 116次閱讀
        目前機器人的行為是多種多樣並且不可預測的

        IBM的研究表明模擬晶元可為機器學習而大幅加速

        人工智慧或許能解決一些科學和行業最棘手的挑戰,但要實現人工智慧,需要新一代的計算機系統。
        發表於 2020-01-09 15:15 111次閱讀
        IBM的研究表明模擬晶元可為機器學習而大幅加速

        人工智慧技術可幫助企業採用更多的解決方案

        企業人工智慧(AI)有多種形式,從強大的語音助手和聊天機器人技術到機器學習(ML)和計算機視覺解決方....
        發表於 2020-01-09 11:11 258次閱讀
        人工智慧技術可幫助企業採用更多的解決方案

        專為高中生打造的人工智慧教材今年出版

        為推動完善人工智慧教育體系,清華大學交叉信息研究院在圖靈獎得主、院長姚期智院士的帶領下,在計算機科學....
        發表於 2020-01-08 14:45 356次閱讀
        專為高中生打造的人工智慧教材今年出版

        如今的人工智慧已經可以識別醫療死亡風險

        根據Geisinger的發布,Geisinger研究人員最近發現,人工智慧可以檢查心電圖(ECG)測....
        發表於 2020-01-08 11:12 276次閱讀
        如今的人工智慧已經可以識別醫療死亡風險

        主編的教材《人工智慧(高中版)》,在清華大學舉辦...

        姚期智表示,《人工智慧(高中版)》編委全部來自清華大學交叉信息研究院計算機科學實驗班(姚班)和人工智....
        發表於 2020-01-08 11:08 609次閱讀
        主編的教材《人工智慧(高中版)》,在清華大學舉辦...

        恩智浦首次推出帶有專用神經處理引擎的i.MX應用...

        面向邊緣計算應用的全新i.MX 8M Plus異構應用處理器,搭載專用神經網路加速器、獨立實時子系統....
        發表於 2020-01-08 08:30 212次閱讀
        恩智浦首次推出帶有專用神經處理引擎的i.MX應用...

        瑞薩電子高效電源管理IC應用於Google Co...

        瑞薩電子株式會社(TSE:6723)宣布其ISL91301B電源管理IC(PMIC),應用於最新Go....
        發表於 2020-01-08 07:47 172次閱讀
        瑞薩電子高效電源管理IC應用於Google Co...

        先考慮AI帶來的好處還是帶來的憂患

        AI 以及機器學習等,由於需要通過收集大量數據以完成機器學習的過程,因此在企業角度來說,稍一不慎便很....
        發表於 2020-01-07 17:11 84次閱讀
        先考慮AI帶來的好處還是帶來的憂患

        人工智慧風險不得不去思考一下

        人工智慧與機器學習將於未來幾年造成約700萬個工作機會消失,並同時創造出200萬個新創的工作機會。
        發表於 2020-01-07 17:08 59次閱讀
        人工智慧風險不得不去思考一下

        如今不起眼的微處理器也能實現機器學習了

        來自谷歌、微軟、高通、三星和6所大學的一組研究人員齊聚加州聖何塞,討論將機器學習帶到網路最遠端的挑戰....
        發表於 2020-01-07 15:40 376次閱讀
        如今不起眼的微處理器也能實現機器學習了

        如何讓汽車有自我思考的能力

        世界各國的各地政府正在朝著一個長期目標邁進,那就是讓智慧城市擁有自動駕駛和高度自動化的車輛,並將其集....
        發表於 2020-01-07 15:32 94次閱讀
        如何讓汽車有自我思考的能力

        哪些領域要關注人工智慧帶來的改變

        將數據與帶有人工智慧技術的學習程序一起使用,有助於提升人的體驗,而不是取代人的體驗,這是我們聽到的與....
        發表於 2020-01-07 14:47 66次閱讀
        哪些領域要關注人工智慧帶來的改變

        機器設計會如何受到AI的影響

        人工智慧如今應用越來越廣泛。在大多數情況下,健壯和自適應的人工智慧可以為人類的專業知識提供補充,而不....
        發表於 2020-01-07 14:38 58次閱讀
        機器設計會如何受到AI的影響

        神經符號人工智慧如何書寫未來

        符號人工智慧和神經網路還是完完全全的兩個世界,相互對立。人工智慧領域的大佬們常常各執一詞,在支持一種....
        發表於 2020-01-07 13:38 274次閱讀
        神經符號人工智慧如何書寫未來

        限制 AI 軟體出口是為了什麼

        使用經過訓練的深度卷積神經網路,通過將正樣本中的旋轉模式與地理空間圖像中目標的旋轉模式進行匹配,來識....
        發表於 2020-01-07 11:33 731次閱讀
        限制 AI 軟體出口是為了什麼

        物聯網顧問要具備怎樣的特質

        能夠利用機器學習的能力使領導者能夠快速解讀數據,從而了解其客戶使用產品或服務的行為模式。
        發表於 2020-01-07 10:01 51次閱讀
        物聯網顧問要具備怎樣的特質

        AI 工程師主要是幹什麼的

        他們不僅創建具體的指令,而且能使人工智慧自我學習和自我改進。
        發表於 2020-01-06 13:56 127次閱讀
        AI 工程師主要是幹什麼的

        一篇機器學習綜述,總結了當前機器學習研究的幾個方向,並以統計機器學習為重點梳理了幾個核心原則

        發表於 2019-12-14 00:44 434次閱讀
        一篇機器學習綜述,總結了當前機器學習研究的幾個方向,並以統計機器學習為重點梳理了幾個核心原則

        機器學習的十大經典演算法,附有詳細原理說明,有助於機器學習的學習和運用

        發表於 2019-12-14 00:42 244次閱讀
        機器學習的十大經典演算法,附有詳細原理說明,有助於機器學習的學習和運用

        BP模糊神經網路純電動汽車電機控制

        針對傳統比例積分(PI)控制在電機控制中控制效果不良的問題,設計了一種基於向後傳播演算法(BP)模糊神經網路的P...
        發表於 2019-12-10 16:32 378次閱讀
        BP模糊神經網路純電動汽車電機控制

        史上最全AI人工智慧入門+進階學習視頻全集(200G)【免費領取】

        近幾年來,人工智慧(AI)概念很火熱,幾乎人人都在學習人工智慧,AI市場人才的搶奪也非常的激烈。根據百科的解釋...
        發表於 2019-11-27 12:10 782次閱讀
        史上最全AI人工智慧入門+進階學習視頻全集(200G)【免費領取】

        BiLSTM模型的CRF層是怎麼工作的?

        BiLSTM模型中CRF層的運行原理-1
        發表於 2019-11-06 09:26 124次閱讀
        BiLSTM模型的CRF層是怎麼工作的?

        平衡Winnow演算法在簡訊過濾系統上有什麼應用?

        手機簡訊以其短小、迅速、簡便、價格低廉等優點成為一種重要的通信和交流方式,受到眾多人士的青睞。然而, 手機簡訊與...
        發表於 2019-11-01 07:04 150次閱讀
        平衡Winnow演算法在簡訊過濾系統上有什麼應用?

        機器學習的回歸任務

        常見線性回歸理論與演算法實現
        發表於 2019-10-29 11:09 124次閱讀
        機器學習的回歸任務

        淺析監督學習演算法MLPClassifier

        sklearn 神經網路 MLPClassifier簡單應用與參數說明...
        發表於 2019-10-23 10:46 147次閱讀
        淺析監督學習演算法MLPClassifier

        ZCU102,ZCU104和ZCU106有什麼區別?

        嗨, 看起來ZCU104是ZCU102和ZCU106的升級版本,具有支持機器學習的額外功能,但更便宜? 最好的祝願, 花...
        發表於 2019-10-22 09:19 319次閱讀
        ZCU102,ZCU104和ZCU106有什麼區別?

        深入淺出學習機器學習

        萬萬沒想到,枯燥的「機器學習」還可以這樣學!...
        發表於 2019-10-18 14:17 155次閱讀
        深入淺出學習機器學習
        <button id="zxios"><acronym id="zxios"></acronym></button>

        <dd id="zxios"></dd>
        <button id="zxios"></button>
            1. <progress id="zxios"></progress>
              <tbody id="zxios"><track id="zxios"></track></tbody>
              <em id="zxios"><tr id="zxios"></tr></em>