網(wǎng)上有很多關于pos機顯示未知錯誤怎么辦,ImageNet 存在十萬標簽錯誤的知識,也有很多人為大家解答關于pos機顯示未知錯誤怎么辦的問題,今天pos機之家(m.afbey.com)為大家整理了關于這方面的知識,讓我們一起來看下吧!
本文目錄一覽:
pos機顯示未知錯誤怎么辦
作者 | L7
編譯 | JocelynWang
使用ImageNet、CIFAR、MNIST 或 IMDB 這些數(shù)據(jù)集時,你是不是會潛意識中假設,這些數(shù)據(jù)集中的類標簽都是正確的?
然而,你可能不知道:ImageNet數(shù)據(jù)集中至少有十萬個標簽是存在問題的。
盡管大量的研究都在使用ImageNet,但卻沒有發(fā)現(xiàn)數(shù)據(jù)集存在如此多的標簽錯誤。原因在于,想從海量數(shù)據(jù)中尋找并描述標簽錯誤很難;即使有相關的方法,應用范圍也極其有限。
如何去識別標簽錯誤,并表征標簽噪聲,是一項重要的、但卻鮮少研究的工作。
在這篇文章中,我將討論一種新興的基本框架,它可用于識別標簽錯誤、表征標簽噪聲,并使用稱作置信學習(Confident Learning ,CL)的噪聲標簽進行學習。
這個框架可以識別 ImageNet 和 CIFAR 中的許多標簽問題,并通過在干凈的數(shù)據(jù)集上進行訓練來提高標準 ResNet 的性能。
該框架作為 cleanlab Python 包進行了開源,相關鏈接為(Github 地址為):
https://github.com/cgnorthcutt/cleanlab
與深度學習框架 PyTorch相類似,CLEANLAB 是一種帶有誤差標簽的機器學習和深度學習的框架。更多關于CLEANLAB的信息可在如下CLEANLAB的文檔鏈接中查看:
https://l7.curtisnorthcutt.com/cleanlab-python-package
使用 cleanlab 加上 confidentlearning-reproduce repo 就可以重現(xiàn) CL 論文中的結果。
https://github.com/cgnorthcutt/confidentlearning-reproduce
圖為2012 ILSVRC ImageNet訓練集中使用信心學習確定的前32個標簽問題。其中紅色方框表示標簽誤差,綠色方框表示本體問題,藍色方框表示多標簽圖像。
上圖顯示了在2012 ILSVRC ImageNet訓練集中使用置信學習發(fā)現(xiàn)的前32個標簽問題。為便于解釋,我們將把使用 CL 在 ImageNet 中發(fā)現(xiàn)的標簽問題分為以下三類:
多標簽圖像(藍色):圖像中有多個標簽;
本體論問題(綠色):包括“是”(比如:將浴缸標記為桶)或 “有”(比如:示波器標記為CRT屏幕)兩種關系,在這些情況下,數(shù)據(jù)集應該包含其中一類;
標簽錯誤(紅色):當數(shù)據(jù)集別的類的標簽比給定的類標簽更適合于某個示例時,就會顯示標簽錯誤
使用置信學習,我們可以在任何適當模型的任何數(shù)據(jù)集中發(fā)現(xiàn)標簽錯誤。以下是常見的數(shù)據(jù)集中另外三個真實存在的示例:
Amazon Reviews、MNIST和QuickDraw數(shù)據(jù)集中當前存在的標簽錯誤示例,由面向不同數(shù)據(jù)形式和模型的置信學習確定。
一、什么是置信學習?置信學習(CL)已經(jīng)成為監(jiān)督學習和弱監(jiān)督的一個子領域,可應用于以下幾點:
描述噪聲標簽
尋找標簽誤差
采用噪聲標簽學習
尋找本體論問題
CL 基于噪聲數(shù)據(jù)剪枝的原理(與修復標簽錯誤或修改損失函數(shù)相反),以計數(shù)的方式對噪聲進行評估,并對示例進行排序以進行置信訓練(而不是通過精確的概率加權)。
在這里,我們在 Angluin 和 Laird 分類噪聲的假設基礎上,將 CL 泛化到直接估計噪聲標簽(給定的)和無損標簽(未知的)之間的聯(lián)合分布。
有噪聲的(給定的)標簽和未損壞的(未知的)標簽之間的置信聯(lián)合分布和估計聯(lián)合分布的置信學習過程和樣本。y~表示觀察到的有噪聲標簽,y*表示潛在的無損標簽。
從上圖可以看出,CL 需要兩個輸入:
樣本外預測概率(矩陣大?。?類的#樣本數(shù))。
噪聲標簽(矢量長度:樣本數(shù)量)。
出于弱監(jiān)督目的,CL包括三個步驟:
1、估計有噪聲的(給定的)標簽和潛在的(未知)無損標簽的聯(lián)合分布,以充分描述類別條件下的標簽噪聲。
2、查找并修剪帶有標簽錯誤的噪聲樣本。
3、在去除標簽錯誤的樣本后進行訓練,根據(jù)估計的潛在先驗對樣本重新加權。
二、置信學習的好處與大多數(shù)機器學習方法不同,置信學習不需要超參數(shù)。我們使用交叉驗證來獲得樣本外的預測概率。置信學習還有很多其他的好處,它有以下幾點優(yōu)勢:
可直接估計噪聲與真實標簽的聯(lián)合分布
適用于多類別的數(shù)據(jù)集
查找標簽錯誤(錯誤按最有可能到最不可能的順序排列)
無需迭代(在ImageNet中查找訓練集的標簽錯誤需要3分鐘)
具有理論合理性(在真實條件下可以準確地找到標簽錯誤和一致的聯(lián)合分布估算)
不需要做隨機均勻的標簽噪聲的假設(在實踐中通常不現(xiàn)實)
只需要預測概率和噪聲標簽(可以使用任何模型)
無需任何真實(保證無損)的標簽
可以自然擴展到多標簽數(shù)據(jù)集
可用于描述、查找和學習標簽錯誤,CLEANLAB Python包是免費且開源的。
三、置信學習的原則CL建立在處理噪聲標簽文獻制定的原則之上:
1、通過修剪來搜索錯誤的標簽,例如:遵循Natarajan等(2013);van Rooyen等(2015);帕特里尼等(2017)的工作示例,通過損失重加權來進行軟剪枝,以避免迭代重標記的收斂陷阱。相關工作鏈接依次如下:
https://papers.nips.cc/paper/5073-learning-with-noisy-labels.pdf
https://arxiv.org/abs/1505.07634
https://arxiv.org/abs/1609.03683
2、對干凈的數(shù)據(jù)進行訓練統(tǒng)計,避免由于不完全預測概率的情況下重新加權損失(Natarajan et al.,2017)而導致的學習模型權重的錯誤傳播,并泛化到一些開創(chuàng)性的工作上,如Forman (2005, 2008); Lipton et al. (2018)),相關工作鏈接依次如下:
http://www.jmlr.org/papers/volume18/15-226/15-226.pdf
https://dl.acm.org/citation.cfm?id=1403849
https://arxiv.org/abs/1802.03916
3、根據(jù)PageRank(Page et al.,1997)著名的魯棒性研究成果(http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf)和MentorNet (Jiang et al.,2018)的課程學習理念(https://arxiv.org/abs/1712.05055),對訓練期間使用的樣本進行排序,以允許使用不規(guī)范概率或SVM決策邊界距離進行學習。
四、置信學習中的理論發(fā)現(xiàn)
更多關于CL算法、理論和證明的內容,請參閱我們的原論文。在本文中,我主要總結一下論文中的主要觀點。
原論文鏈接:https://arxiv.org/abs/1911.00068
從理論上看,我們給出了CL(定理2:一般的逐例魯棒性)準確發(fā)現(xiàn)標簽誤差并一致地估計出噪聲與真實標簽聯(lián)合分布的現(xiàn)實條件。在我們設定的條件中,允許每個樣本和每個類的預測概率存在誤差。
五、置信學習是如何實現(xiàn)的?為了解CL是如何工作的,讓我們假設現(xiàn)在有一個包含狗、狐貍和牛的圖像的數(shù)據(jù)集。CL通過估計噪聲標簽和真實標簽的聯(lián)合分布(下圖右側的Q矩陣)來進行工作。
左圖:置信計數(shù)示例。這是一個不正常的聯(lián)合估計。右圖:擁有三類數(shù)據(jù)集的噪聲標簽和真實標簽的聯(lián)合分布示例。
我們來繼續(xù)看這個示例,CL統(tǒng)計了 100 個標記為狗的圖像,這些圖像很可能屬于類別狗,如上圖左側的C矩陣所示;同樣的,CL還統(tǒng)計了 56 個很可能屬于類別狗但標記為狐貍的圖像和 32 幅很可能屬于類別狗但標記為牛的圖像。
對上述數(shù)學原理的過程好奇的人來說,該計數(shù)過程可以采取以下形式進行理解:
我們也鼓勵通過閱讀我們的原論文來理解符號的含義,這里面的中心思想可以理解成:當一個樣本的預測概率大于每個類的閾值時,我們有信心將該樣本記為實際上屬于該閾值的類別。每個類別的閾值是該類中所有樣本的平均預測概率。這種閾值形式將PU學習( Elkan & amp; Noto,2008,http://cseweb.ucsd.edu/~elkan/posonly.pdf)中眾所周知的魯棒性結果,泛化到多類別的弱監(jiān)督。
使用標簽噪聲的聯(lián)合分布查找標簽問題:
從上圖右側的矩陣中,估計標簽問題:
1、將聯(lián)合分布矩陣乘以樣本數(shù)。假設我們的數(shù)據(jù)集中有100個樣本。所以,在上圖中(右邊的Q矩陣)有10個標記為狗但實際上是狐貍的圖像。
2、將上述10張實際上很可能屬于類別狐貍但標記為狗的圖片標記為存在標簽錯誤。
3、對矩陣中所有非對角項重復此操作。
注:這里簡化了原論文中使用的方法,但抓住了本質。
六、置信學習的實踐應用在高噪聲標簽的情況下,CL相對于其他方法提高了超出10%的學習水平;在高噪聲以及高稀疏的情況下,CL相對于其他方法提高了超出30%的學習水平。
上表顯示了 CL 與最新的通過噪聲標簽的多類別學習方法 CIFAR-10 的比較。在高稀疏(見下一段)和 40% 和 70% 的標簽噪聲下,CL 的表現(xiàn)比谷歌開發(fā)的表現(xiàn)最好的 MentorNet,Co-Teaching 和 Facebook 研究團隊開發(fā)的 Mix-up 方法提高了超過 30% 的學習水平。在信心學習之前,相關的方法對這一基準的改進要小得多(大約只提高了幾個百分點)。
稀疏性(矩陣 Q 中零的分數(shù))概括了這樣一個概念,即現(xiàn)實世界中如 ImageNet 的數(shù)據(jù)集中有一些類別不太可能被錯誤地標記為其他類別,例如 p(老虎,示波器)可以看作矩陣 Q 中的 0。
如上表中突出顯示的單元格所示,與 Mixup、MentorNet、SCE-loss 以及 Co-teaching 等最新方法相比,CL 較為顯著地增強了對稀疏性的魯棒性。這種魯棒性來源于對模型 Q 直接建模,即噪聲與真實標簽的聯(lián)合分布。
在使用 CL 清洗過的 ImageNet 上訓練數(shù)據(jù)提高了 ResNet 測試準確度。
上圖中,直線上的每個點(從左到右)分別描繪了每種方法在去除20%,40%…,100%估計標簽錯誤后訓練的準確性。圖中黑色虛線部分描述了使用所有樣本訓練時的準確性。
使用CL在清洗后的 ImageNet 訓練集上訓練(不添加合成噪聲),當移除小于十萬個訓練樣本時,觀察到使用ResNet時驗證精度得到提高;當大于十萬個訓練樣本被移除時,觀察使用CL清洗后的數(shù)據(jù)與隨機移除樣本的結果相比相對有所改善(如圖紅色虛線所示)。
添加標簽噪聲的CIFAR數(shù)據(jù)集中標簽噪聲的良好表征
上圖顯示了CIFAR中使用CL估計標簽噪聲的聯(lián)合分布,標簽噪聲增加了40%。觀察圖(b)中CL估計與圖(a)中的真實分布有多接近以及(c)矩陣中每一項絕對差的低誤差。這里概率被放大了100倍。
在ImageNet中自動發(fā)現(xiàn)本體(類命名)問題
CL 通過直接估計標簽噪聲的聯(lián)合分布,自動發(fā)現(xiàn)數(shù)據(jù)集中類的本體問題。在上表中,我們展示了在 ImageNet 單類數(shù)據(jù)集的估計標簽噪聲聯(lián)合分布時的最大偏離對角線。每行列出了噪聲標簽、真實標簽、圖像 id、統(tǒng)計數(shù)量和聯(lián)合概率。因為這些是偏離了對角,所以噪聲的類別和真實類別應該會是不同的,但實際上是在第 7 行中,我們看到 ImageNet 有兩個不同的類,它們都被標記為“maillot”。
我們也觀察到誤用詞語的情況:在第 一行中的標記拋射物和導彈為“是”的關系,即拋射物其實就是導彈,同樣的還有第二排中的標記的浴缸即為桶;還觀察到由一個詞的多個定義引起的問題,比如第九行中的玉米和耳朵。
七、最后的想法我們的理論和實驗結果強調了置信學習的實用性,例如識別ImageNet和CIFAR中的許多標簽問題,并通過在干凈的數(shù)據(jù)集上進行訓練來提高標準 ResNet 的性能。
置信學習促使人們認識到需要對數(shù)據(jù)集標簽中的不確定性估計、清理訓練集和測試集的方法以及數(shù)據(jù)集中本體和標簽問題的識別方法做進一步的了解。
via https://l7.curtisnorthcutt.com/confident-learning
以上就是關于pos機顯示未知錯誤怎么辦,ImageNet 存在十萬標簽錯誤的知識,后面我們會繼續(xù)為大家整理關于pos機顯示未知錯誤怎么辦的知識,希望能夠幫助到大家!
