pos機(jī)顯示未知錯(cuò)誤怎么辦,ImageNet 存在十萬(wàn)標(biāo)簽錯(cuò)誤

新聞資訊 | 2023-05-02 07:06 | 投稿人：pos機(jī)之家

網(wǎng)上有很多關(guān)于pos機(jī)顯示未知錯(cuò)誤怎么辦,ImageNet 存在十萬(wàn)標(biāo)簽錯(cuò)誤的知識(shí)，也有很多人為大家解答關(guān)于pos機(jī)顯示未知錯(cuò)誤怎么辦的問(wèn)題，今天pos機(jī)之家(m.afbey.com)為大家整理了關(guān)于這方面的知識(shí)，讓我們一起來(lái)看下吧!

本文目錄一覽：

1、pos機(jī)顯示未知錯(cuò)誤怎么辦

pos機(jī)顯示未知錯(cuò)誤怎么辦

作者 | L7

編譯 | JocelynWang

使用ImageNet、CIFAR、MNIST 或 IMDB 這些數(shù)據(jù)集時(shí)，你是不是會(huì)潛意識(shí)中假設(shè)，這些數(shù)據(jù)集中的類(lèi)標(biāo)簽都是正確的？

然而，你可能不知道：ImageNet數(shù)據(jù)集中至少有十萬(wàn)個(gè)標(biāo)簽是存在問(wèn)題的。

盡管大量的研究都在使用ImageNet，但卻沒(méi)有發(fā)現(xiàn)數(shù)據(jù)集存在如此多的標(biāo)簽錯(cuò)誤。原因在于，想從海量數(shù)據(jù)中尋找并描述標(biāo)簽錯(cuò)誤很難；即使有相關(guān)的方法，應(yīng)用范圍也極其有限。

如何去識(shí)別標(biāo)簽錯(cuò)誤，并表征標(biāo)簽噪聲，是一項(xiàng)重要的、但卻鮮少研究的工作。

在這篇文章中，我將討論一種新興的基本框架，它可用于識(shí)別標(biāo)簽錯(cuò)誤、表征標(biāo)簽噪聲，并使用稱(chēng)作置信學(xué)習(xí)（Confident Learning ，CL）的噪聲標(biāo)簽進(jìn)行學(xué)習(xí)。

這個(gè)框架可以識(shí)別 ImageNet 和 CIFAR 中的許多標(biāo)簽問(wèn)題，并通過(guò)在干凈的數(shù)據(jù)集上進(jìn)行訓(xùn)練來(lái)提高標(biāo)準(zhǔn) ResNet 的性能。

該框架作為 cleanlab Python 包進(jìn)行了開(kāi)源，相關(guān)鏈接為（Github 地址為）：

https://github.com/cgnorthcutt/cleanlab

與深度學(xué)習(xí)框架 PyTorch相類(lèi)似，CLEANLAB 是一種帶有誤差標(biāo)簽的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的框架。更多關(guān)于CLEANLAB的信息可在如下CLEANLAB的文檔鏈接中查看：

https://l7.curtisnorthcutt.com/cleanlab-python-package

使用 cleanlab 加上 confidentlearning-reproduce repo 就可以重現(xiàn) CL 論文中的結(jié)果。

https://github.com/cgnorthcutt/confidentlearning-reproduce

圖為2012 ILSVRC ImageNet訓(xùn)練集中使用信心學(xué)習(xí)確定的前32個(gè)標(biāo)簽問(wèn)題。其中紅色方框表示標(biāo)簽誤差，綠色方框表示本體問(wèn)題，藍(lán)色方框表示多標(biāo)簽圖像。

上圖顯示了在2012 ILSVRC ImageNet訓(xùn)練集中使用置信學(xué)習(xí)發(fā)現(xiàn)的前32個(gè)標(biāo)簽問(wèn)題。為便于解釋?zhuān)覀儗咽褂?CL 在 ImageNet 中發(fā)現(xiàn)的標(biāo)簽問(wèn)題分為以下三類(lèi)：

多標(biāo)簽圖像（藍(lán)色）：圖像中有多個(gè)標(biāo)簽；

本體論問(wèn)題（綠色）：包括“是”（比如：將浴缸標(biāo)記為桶）或 “有”（比如：示波器標(biāo)記為CRT屏幕）兩種關(guān)系，在這些情況下，數(shù)據(jù)集應(yīng)該包含其中一類(lèi)；

標(biāo)簽錯(cuò)誤（紅色）：當(dāng)數(shù)據(jù)集別的類(lèi)的標(biāo)簽比給定的類(lèi)標(biāo)簽更適合于某個(gè)示例時(shí)，就會(huì)顯示標(biāo)簽錯(cuò)誤

使用置信學(xué)習(xí)，我們可以在任何適當(dāng)模型的任何數(shù)據(jù)集中發(fā)現(xiàn)標(biāo)簽錯(cuò)誤。以下是常見(jiàn)的數(shù)據(jù)集中另外三個(gè)真實(shí)存在的示例：

Amazon Reviews、MNIST和QuickDraw數(shù)據(jù)集中當(dāng)前存在的標(biāo)簽錯(cuò)誤示例，由面向不同數(shù)據(jù)形式和模型的置信學(xué)習(xí)確定。

一、什么是置信學(xué)習(xí)？

置信學(xué)習(xí)（CL）已經(jīng)成為監(jiān)督學(xué)習(xí)和弱監(jiān)督的一個(gè)子領(lǐng)域，可應(yīng)用于以下幾點(diǎn)：

描述噪聲標(biāo)簽

尋找標(biāo)簽誤差

采用噪聲標(biāo)簽學(xué)習(xí)

尋找本體論問(wèn)題

CL 基于噪聲數(shù)據(jù)剪枝的原理（與修復(fù)標(biāo)簽錯(cuò)誤或修改損失函數(shù)相反），以計(jì)數(shù)的方式對(duì)噪聲進(jìn)行評(píng)估，并對(duì)示例進(jìn)行排序以進(jìn)行置信訓(xùn)練（而不是通過(guò)精確的概率加權(quán)）。

在這里，我們?cè)?Angluin 和 Laird 分類(lèi)噪聲的假設(shè)基礎(chǔ)上，將 CL 泛化到直接估計(jì)噪聲標(biāo)簽（給定的）和無(wú)損標(biāo)簽（未知的）之間的聯(lián)合分布。

有噪聲的(給定的)標(biāo)簽和未損壞的(未知的)標(biāo)簽之間的置信聯(lián)合分布和估計(jì)聯(lián)合分布的置信學(xué)習(xí)過(guò)程和樣本。y～表示觀察到的有噪聲標(biāo)簽，y*表示潛在的無(wú)損標(biāo)簽。

從上圖可以看出，CL 需要兩個(gè)輸入：

樣本外預(yù)測(cè)概率（矩陣大?。?類(lèi)的#樣本數(shù)）。

噪聲標(biāo)簽（矢量長(zhǎng)度：樣本數(shù)量）。

出于弱監(jiān)督目的，CL包括三個(gè)步驟：

1、估計(jì)有噪聲的（給定的）標(biāo)簽和潛在的(未知)無(wú)損標(biāo)簽的聯(lián)合分布，以充分描述類(lèi)別條件下的標(biāo)簽噪聲。

2、查找并修剪帶有標(biāo)簽錯(cuò)誤的噪聲樣本。

3、在去除標(biāo)簽錯(cuò)誤的樣本后進(jìn)行訓(xùn)練，根據(jù)估計(jì)的潛在先驗(yàn)對(duì)樣本重新加權(quán)。

二、置信學(xué)習(xí)的好處

與大多數(shù)機(jī)器學(xué)習(xí)方法不同，置信學(xué)習(xí)不需要超參數(shù)。我們使用交叉驗(yàn)證來(lái)獲得樣本外的預(yù)測(cè)概率。置信學(xué)習(xí)還有很多其他的好處，它有以下幾點(diǎn)優(yōu)勢(shì)：

可直接估計(jì)噪聲與真實(shí)標(biāo)簽的聯(lián)合分布

適用于多類(lèi)別的數(shù)據(jù)集

查找標(biāo)簽錯(cuò)誤（錯(cuò)誤按最有可能到最不可能的順序排列）

無(wú)需迭代（在ImageNet中查找訓(xùn)練集的標(biāo)簽錯(cuò)誤需要3分鐘）

具有理論合理性（在真實(shí)條件下可以準(zhǔn)確地找到標(biāo)簽錯(cuò)誤和一致的聯(lián)合分布估算）

不需要做隨機(jī)均勻的標(biāo)簽噪聲的假設(shè)（在實(shí)踐中通常不現(xiàn)實(shí)）

只需要預(yù)測(cè)概率和噪聲標(biāo)簽（可以使用任何模型）

無(wú)需任何真實(shí)（保證無(wú)損）的標(biāo)簽

可以自然擴(kuò)展到多標(biāo)簽數(shù)據(jù)集

可用于描述、查找和學(xué)習(xí)標(biāo)簽錯(cuò)誤，CLEANLAB Python包是免費(fèi)且開(kāi)源的。

三、置信學(xué)習(xí)的原則

CL建立在處理噪聲標(biāo)簽文獻(xiàn)制定的原則之上：

1、通過(guò)修剪來(lái)搜索錯(cuò)誤的標(biāo)簽，例如：遵循Natarajan等（2013）；van Rooyen等（2015）；帕特里尼等（2017）的工作示例，通過(guò)損失重加權(quán)來(lái)進(jìn)行軟剪枝，以避免迭代重標(biāo)記的收斂陷阱。相關(guān)工作鏈接依次如下：

https://papers.nips.cc/paper/5073-learning-with-noisy-labels.pdf

https://arxiv.org/abs/1505.07634

https://arxiv.org/abs/1609.03683

2、對(duì)干凈的數(shù)據(jù)進(jìn)行訓(xùn)練統(tǒng)計(jì)，避免由于不完全預(yù)測(cè)概率的情況下重新加權(quán)損失（Natarajan et al.，2017）而導(dǎo)致的學(xué)習(xí)模型權(quán)重的錯(cuò)誤傳播，并泛化到一些開(kāi)創(chuàng)性的工作上，如Forman (2005, 2008); Lipton et al. (2018)），相關(guān)工作鏈接依次如下：

http://www.jmlr.org/papers/volume18/15-226/15-226.pdf

https://dl.acm.org/citation.cfm?id=1403849

https://arxiv.org/abs/1802.03916

3、根據(jù)PageRank（Page et al.，1997）著名的魯棒性研究成果（http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf）和MentorNet （Jiang et al.，2018）的課程學(xué)習(xí)理念（https://arxiv.org/abs/1712.05055），對(duì)訓(xùn)練期間使用的樣本進(jìn)行排序，以允許使用不規(guī)范概率或SVM決策邊界距離進(jìn)行學(xué)習(xí)。

四、置信學(xué)習(xí)中的理論發(fā)現(xiàn)

更多關(guān)于CL算法、理論和證明的內(nèi)容，請(qǐng)參閱我們的原論文。在本文中，我主要總結(jié)一下論文中的主要觀點(diǎn)。

原論文鏈接：https://arxiv.org/abs/1911.00068

從理論上看，我們給出了CL（定理2：一般的逐例魯棒性）準(zhǔn)確發(fā)現(xiàn)標(biāo)簽誤差并一致地估計(jì)出噪聲與真實(shí)標(biāo)簽聯(lián)合分布的現(xiàn)實(shí)條件。在我們?cè)O(shè)定的條件中，允許每個(gè)樣本和每個(gè)類(lèi)的預(yù)測(cè)概率存在誤差。

五、置信學(xué)習(xí)是如何實(shí)現(xiàn)的？

為了解CL是如何工作的，讓我們假設(shè)現(xiàn)在有一個(gè)包含狗、狐貍和牛的圖像的數(shù)據(jù)集。CL通過(guò)估計(jì)噪聲標(biāo)簽和真實(shí)標(biāo)簽的聯(lián)合分布（下圖右側(cè)的Q矩陣）來(lái)進(jìn)行工作。

左圖：置信計(jì)數(shù)示例。這是一個(gè)不正常的聯(lián)合估計(jì)。右圖：擁有三類(lèi)數(shù)據(jù)集的噪聲標(biāo)簽和真實(shí)標(biāo)簽的聯(lián)合分布示例。

我們來(lái)繼續(xù)看這個(gè)示例，CL統(tǒng)計(jì)了 100 個(gè)標(biāo)記為狗的圖像，這些圖像很可能屬于類(lèi)別狗，如上圖左側(cè)的C矩陣所示；同樣的，CL還統(tǒng)計(jì)了 56 個(gè)很可能屬于類(lèi)別狗但標(biāo)記為狐貍的圖像和 32 幅很可能屬于類(lèi)別狗但標(biāo)記為牛的圖像。

對(duì)上述數(shù)學(xué)原理的過(guò)程好奇的人來(lái)說(shuō)，該計(jì)數(shù)過(guò)程可以采取以下形式進(jìn)行理解：

我們也鼓勵(lì)通過(guò)閱讀我們的原論文來(lái)理解符號(hào)的含義，這里面的中心思想可以理解成：當(dāng)一個(gè)樣本的預(yù)測(cè)概率大于每個(gè)類(lèi)的閾值時(shí)，我們有信心將該樣本記為實(shí)際上屬于該閾值的類(lèi)別。每個(gè)類(lèi)別的閾值是該類(lèi)中所有樣本的平均預(yù)測(cè)概率。這種閾值形式將PU學(xué)習(xí)（ Elkan & amp; Noto，2008，http://cseweb.ucsd.edu/~elkan/posonly.pdf）中眾所周知的魯棒性結(jié)果，泛化到多類(lèi)別的弱監(jiān)督。

使用標(biāo)簽噪聲的聯(lián)合分布查找標(biāo)簽問(wèn)題：

從上圖右側(cè)的矩陣中，估計(jì)標(biāo)簽問(wèn)題：

1、將聯(lián)合分布矩陣乘以樣本數(shù)。假設(shè)我們的數(shù)據(jù)集中有100個(gè)樣本。所以，在上圖中（右邊的Q矩陣）有10個(gè)標(biāo)記為狗但實(shí)際上是狐貍的圖像。

2、將上述10張實(shí)際上很可能屬于類(lèi)別狐貍但標(biāo)記為狗的圖片標(biāo)記為存在標(biāo)簽錯(cuò)誤。

3、對(duì)矩陣中所有非對(duì)角項(xiàng)重復(fù)此操作。

注：這里簡(jiǎn)化了原論文中使用的方法，但抓住了本質(zhì)。

六、置信學(xué)習(xí)的實(shí)踐應(yīng)用

在高噪聲標(biāo)簽的情況下，CL相對(duì)于其他方法提高了超出10%的學(xué)習(xí)水平；在高噪聲以及高稀疏的情況下，CL相對(duì)于其他方法提高了超出30%的學(xué)習(xí)水平。

上表顯示了 CL 與最新的通過(guò)噪聲標(biāo)簽的多類(lèi)別學(xué)習(xí)方法 CIFAR-10 的比較。在高稀疏（見(jiàn)下一段）和 40% 和 70% 的標(biāo)簽噪聲下，CL 的表現(xiàn)比谷歌開(kāi)發(fā)的表現(xiàn)最好的 MentorNet，Co-Teaching 和 Facebook 研究團(tuán)隊(duì)開(kāi)發(fā)的 Mix-up 方法提高了超過(guò) 30% 的學(xué)習(xí)水平。在信心學(xué)習(xí)之前，相關(guān)的方法對(duì)這一基準(zhǔn)的改進(jìn)要小得多（大約只提高了幾個(gè)百分點(diǎn)）。

稀疏性（矩陣 Q 中零的分?jǐn)?shù)）概括了這樣一個(gè)概念，即現(xiàn)實(shí)世界中如 ImageNet 的數(shù)據(jù)集中有一些類(lèi)別不太可能被錯(cuò)誤地標(biāo)記為其他類(lèi)別，例如 p（老虎，示波器）可以看作矩陣 Q 中的 0。

如上表中突出顯示的單元格所示，與 Mixup、MentorNet、SCE-loss 以及 Co-teaching 等最新方法相比，CL 較為顯著地增強(qiáng)了對(duì)稀疏性的魯棒性。這種魯棒性來(lái)源于對(duì)模型 Q 直接建模，即噪聲與真實(shí)標(biāo)簽的聯(lián)合分布。

在使用 CL 清洗過(guò)的 ImageNet 上訓(xùn)練數(shù)據(jù)提高了 ResNet 測(cè)試準(zhǔn)確度。

上圖中，直線(xiàn)上的每個(gè)點(diǎn)（從左到右）分別描繪了每種方法在去除20％，40％…，100％估計(jì)標(biāo)簽錯(cuò)誤后訓(xùn)練的準(zhǔn)確性。圖中黑色虛線(xiàn)部分描述了使用所有樣本訓(xùn)練時(shí)的準(zhǔn)確性。

使用CL在清洗后的 ImageNet 訓(xùn)練集上訓(xùn)練（不添加合成噪聲），當(dāng)移除小于十萬(wàn)個(gè)訓(xùn)練樣本時(shí)，觀察到使用ResNet時(shí)驗(yàn)證精度得到提高；當(dāng)大于十萬(wàn)個(gè)訓(xùn)練樣本被移除時(shí)，觀察使用CL清洗后的數(shù)據(jù)與隨機(jī)移除樣本的結(jié)果相比相對(duì)有所改善（如圖紅色虛線(xiàn)所示）。

添加標(biāo)簽噪聲的CIFAR數(shù)據(jù)集中標(biāo)簽噪聲的良好表征

上圖顯示了CIFAR中使用CL估計(jì)標(biāo)簽噪聲的聯(lián)合分布，標(biāo)簽噪聲增加了40%。觀察圖（b）中CL估計(jì)與圖（a）中的真實(shí)分布有多接近以及（c）矩陣中每一項(xiàng)絕對(duì)差的低誤差。這里概率被放大了100倍。

在ImageNet中自動(dòng)發(fā)現(xiàn)本體（類(lèi)命名）問(wèn)題

CL 通過(guò)直接估計(jì)標(biāo)簽噪聲的聯(lián)合分布，自動(dòng)發(fā)現(xiàn)數(shù)據(jù)集中類(lèi)的本體問(wèn)題。在上表中，我們展示了在 ImageNet 單類(lèi)數(shù)據(jù)集的估計(jì)標(biāo)簽噪聲聯(lián)合分布時(shí)的最大偏離對(duì)角線(xiàn)。每行列出了噪聲標(biāo)簽、真實(shí)標(biāo)簽、圖像 id、統(tǒng)計(jì)數(shù)量和聯(lián)合概率。因?yàn)檫@些是偏離了對(duì)角，所以噪聲的類(lèi)別和真實(shí)類(lèi)別應(yīng)該會(huì)是不同的，但實(shí)際上是在第 7 行中，我們看到 ImageNet 有兩個(gè)不同的類(lèi)，它們都被標(biāo)記為“maillot”。

我們也觀察到誤用詞語(yǔ)的情況：在第一行中的標(biāo)記拋射物和導(dǎo)彈為“是”的關(guān)系，即拋射物其實(shí)就是導(dǎo)彈，同樣的還有第二排中的標(biāo)記的浴缸即為桶；還觀察到由一個(gè)詞的多個(gè)定義引起的問(wèn)題，比如第九行中的玉米和耳朵。

七、最后的想法

我們的理論和實(shí)驗(yàn)結(jié)果強(qiáng)調(diào)了置信學(xué)習(xí)的實(shí)用性，例如識(shí)別ImageNet和CIFAR中的許多標(biāo)簽問(wèn)題，并通過(guò)在干凈的數(shù)據(jù)集上進(jìn)行訓(xùn)練來(lái)提高標(biāo)準(zhǔn) ResNet 的性能。

置信學(xué)習(xí)促使人們認(rèn)識(shí)到需要對(duì)數(shù)據(jù)集標(biāo)簽中的不確定性估計(jì)、清理訓(xùn)練集和測(cè)試集的方法以及數(shù)據(jù)集中本體和標(biāo)簽問(wèn)題的識(shí)別方法做進(jìn)一步的了解。

via https://l7.curtisnorthcutt.com/confident-learning

以上就是關(guān)于pos機(jī)顯示未知錯(cuò)誤怎么辦,ImageNet 存在十萬(wàn)標(biāo)簽錯(cuò)誤的知識(shí)，后面我們會(huì)繼續(xù)為大家整理關(guān)于pos機(jī)顯示未知錯(cuò)誤怎么辦的知識(shí)，希望能夠幫助到大家！

轉(zhuǎn)發(fā)請(qǐng)帶上網(wǎng)址：http://m.afbey.com/news/35904.html

上一篇：可以自己買(mǎi)pos機(jī)刷信用卡嗎,信用卡刷卡的幾種方式要注意下一篇：選pos機(jī)要注意什么,pos智能收銀機(jī)在使用中要注意哪些問(wèn)題

版權(quán)聲明：本文內(nèi)容由互聯(lián)網(wǎng)用戶(hù)自發(fā)貢獻(xiàn)，該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容，請(qǐng)發(fā)送郵件至 babsan@163.com 舉報(bào)，一經(jīng)查實(shí)，本站將立刻刪除。