網(wǎng)上有很多關(guān)于pos機(jī)開機(jī)為什么顯示一個(gè)m,谷歌開源最精確自然語言解析器SyntaxNet的深度解讀的知識(shí),也有很多人為大家解答關(guān)于pos機(jī)開機(jī)為什么顯示一個(gè)m的問題,今天pos機(jī)之家(m.afbey.com)為大家整理了關(guān)于這方面的知識(shí),讓我們一起來看下吧!
本文目錄一覽:
pos機(jī)開機(jī)為什么顯示一個(gè)m
機(jī)器之心原創(chuàng)
作者:吳攀、微胖、李亞洲
自然語言理解研究中,如何處理語言歧義是個(gè)難題。 SyntaxNet 將神經(jīng)網(wǎng)絡(luò)和搜索技術(shù)結(jié)合起來,在解決歧義問題上取得顯著進(jìn)展:SyntaxNet 能像訓(xùn)練有素的語言學(xué)家一樣分析簡(jiǎn)單句法。今天,谷歌開源了SyntaxNet,也發(fā)布了針對(duì)英語的預(yù)訓(xùn)練解析程序 Parsey McParseface。除了讓更多人使用到最先進(jìn)的分析技術(shù)之外,這次開源舉措也有利于公司借助社區(qū)力量加快解決自然語言理解難題的步伐,惠及谷歌業(yè)務(wù)。
如果你對(duì) Siri 說,設(shè)置鬧鐘:早上五點(diǎn),她可以辦到。但是,如果問她哪種處方止疼片對(duì)胃部刺激最小,她就束手無策了,因?yàn)槟阏f的句子很復(fù)雜。Siri 還遠(yuǎn)未實(shí)現(xiàn)計(jì)算機(jī)科學(xué)家所說的「自然語言理解」。
這并不是說虛擬助理將永遠(yuǎn)這樣。
科技巨頭、創(chuàng)業(yè)公司、大學(xué)的研究人員正在想辦法讓計(jì)算機(jī)理解自然語言。多虧深度神經(jīng)網(wǎng)絡(luò),這方面的技術(shù)正變得越來越好。谷歌、臉書和微軟以及其他公司,已經(jīng)使用深度神經(jīng)網(wǎng)絡(luò)來識(shí)別圖片中的物體,也用于識(shí)別人們對(duì)虛擬助手說的單個(gè)單詞。
人們希望這類人工智能可以顯著提升機(jī)器理解語詞意義的能力,讓機(jī)器懂得語、詞是如何互動(dòng)、構(gòu)成有意義的句子。
「我們大部分用戶都通過語言與我們交流,」谷歌公司自然語言理解和機(jī)器學(xué)習(xí)方面的負(fù)責(zé)人 Fernando Pereira 說,「他們?cè)儐柌樵儭I入或口語輸入。所以,為了很好地服務(wù)用戶,我們不得不讓我們的系統(tǒng)理解用戶想要什么?!?/p>
今天,谷歌開源了軟件 SyntaxNet(句法分析程序)以及針對(duì)英語的解析程序 Parsey McParseface,我們從中看到了自然語言理解快速發(fā)展的希望。
SyntaxNet 和 Parsey McParseface
SyntaxNet(句法分析程序)是谷歌自然語言研究的基礎(chǔ)。它使用深度神經(jīng)網(wǎng)絡(luò),對(duì)句子進(jìn)行語義分析,試圖搞清楚每個(gè)語詞在句子中扮演的角色,以及這些單詞如何組合起來生成意義。系統(tǒng)可以識(shí)別潛在的語法結(jié)構(gòu)——哪個(gè)單詞是名詞,哪個(gè)是動(dòng)詞,哪個(gè)是主語,主賓關(guān)系如何——然后試著了解句子的大致意思,不過,是以機(jī)器可讀的方式。
因?yàn)槭褂昧松疃壬窠?jīng)網(wǎng)絡(luò),SyntaxNet 將句法分析推向了一個(gè)新的高度。這款系統(tǒng)分析了數(shù)以百萬條句子,不過,這些句子并不是一般的句子,而是經(jīng)過人工精心標(biāo)記過的句子(他們?yōu)g覽所有作為實(shí)例的句子,然后認(rèn)真標(biāo)記句中每個(gè)單詞的角色)。學(xué)習(xí)完所有這些標(biāo)記好的句子后,系統(tǒng)就可以分析判斷對(duì)其他句子中類似語詞角色。
這和 Facebook 的方法不同。后者試圖通過為計(jì)算機(jī)提供很大程度上未標(biāo)記的大量數(shù)據(jù)來訓(xùn)練這些計(jì)算機(jī)解析語言(參見 Teaching Machines to Understand Us),而不是象谷歌這樣圍繞著人類專家打造。
SyntaxNet 使用了谷歌之前發(fā)布的深度學(xué)習(xí)框架 TensorFlow ,它也是到目前為止使用 TensorFlow 開發(fā)的最復(fù)雜和最先進(jìn)的組件。
不過,SyntaxNet 是工程師和人工智能研究者的工具。
谷歌還發(fā)布了一個(gè)預(yù)訓(xùn)練的、針對(duì)英語的解析程序 Parsey McParseface(一位發(fā)言人說該公司正為想名字發(fā)愁時(shí),有人建議了這個(gè)朗朗上口的綽號(hào))。送入這個(gè)解析程序的文本會(huì)自動(dòng)被分解成句法成分(如名詞、動(dòng)詞、主語和賓語)。因此,計(jì)算機(jī)更容易地對(duì)模糊的請(qǐng)求或命令做出正確語義分析。
94% 的準(zhǔn)確性
簡(jiǎn)單地說,基本上就是個(gè)五歲的孩子,在學(xué)習(xí)語言的細(xì)微差別
谷歌研究人員隨機(jī)抽取英文新聞專線的句子(來源 Penn Treebank)作為一個(gè)標(biāo)準(zhǔn)的基準(zhǔn), Parsey McParseface 重新獲取句子語詞之間的依存關(guān)系 ,正確率達(dá)94%。這個(gè)成績(jī)不僅好于公司之前的最好成績(jī),也擊敗了之前任何研究方法。盡管還沒有這方面人類表現(xiàn)如何的研究文獻(xiàn),但是,從公司內(nèi)部的注釋項(xiàng)目那里,研究人員得知,受過這方面訓(xùn)練的語言學(xué)家分析準(zhǔn)確率為96-97%。這意味著,我們正在接近人類表現(xiàn)——不過,僅僅是在編輯完好的文本方面。
那么, SyntaxNet 與 SpaCy 和 CoreNLP 相比,難分伯仲嗎?
對(duì)此,谷歌 NLP 研究的產(chǎn)品經(jīng)理 Dave Orr 回答是:
這取決于你所謂的比,是什么意思。但是,比數(shù)字的話,SyntaxNet(據(jù)我所知,尤其是英語模型 Parsey McParseface)是已經(jīng)公布的分析器中最好的。假設(shè)所有這些分析程序都接近之前的最好水平(我認(rèn)為,它們是處于這個(gè)水平),SyntaxNet 至少也比其他競(jìng)爭(zhēng)對(duì)手好那么一點(diǎn)。
與其他系統(tǒng)相比,SyntaxNet 只做一件事(依存分析,包括詞性標(biāo)注,所以你可以說是兩件事)。SpaCy 也叫做命名實(shí)體識(shí)別(named entity recognition);斯坦福的系統(tǒng)會(huì)做包括 NER、情感分析在內(nèi)的所有事情。
如果你想要的是分析器,SyntaxNet 是最好的。如果你要求更多,你可能需要并用其他系統(tǒng),或者直接使用其他系統(tǒng)。
另一個(gè)不同是, SyntaxNet 基于谷歌的開源軟件 TesnorFlow。如果你對(duì)在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)上建造 NLP 系統(tǒng)感興趣,使用它就很棒。
SpaCy 和 CoreNLP 都是英語 NLP 開發(fā)人員經(jīng)常使用到的軟件。
SpaCy 是一個(gè) Python 和 CPython 的 NLP 自然語言文本處理庫(kù)。這是一個(gè) MIT 許可協(xié)議下的開源商業(yè)軟件。
據(jù)其在 Github 上的介紹,SpaCy 有以下幾個(gè)特征:
標(biāo)記依存句法分析( OntoNotes 5 上 91.8% 的準(zhǔn)確率)
命名實(shí)體識(shí)別(OntoNotes 5 上 82.6% 的準(zhǔn)確率)
詞性標(biāo)注(OntoNotes 5 上 97.1% 的準(zhǔn)確率)
使用詞矢量方便
所有字符串映射到整數(shù) ID 上
包括容易使用的拼寫特征
不需要前期處理。Spacy 使用原文本材料
另外,SpaCy 有兩項(xiàng)頂級(jí)性能:速度最快:<50ms 每文檔;SpaCy 在全部任務(wù)性能(句法分析、命名實(shí)體識(shí)別、詞性標(biāo)注)上的準(zhǔn)確率與最頂尖的水平相比,誤差不到 1%,但 Spacy 的速度要快的多。
SpaCy 官網(wǎng)介紹:2015 年兩篇同行評(píng)議的論文確認(rèn) ,spaCy 提供的是世界上最快的句法分析,與世界上準(zhǔn)確率最高的系統(tǒng)之間的誤差在 1% 以內(nèi)。但少數(shù)幾個(gè)比 SpaCy 精確的系統(tǒng)的速度要慢 20 倍或者更多。
斯坦福 CoreNLP 是一個(gè)混合的語言處理框架,它集成了所有的自然語言處理工具,包括詞性的終端(POS)標(biāo)注器,命名實(shí)體識(shí)別(NER),分析器,對(duì)指代消解系統(tǒng),以及情感分析工具,并提供英語分析的模型文件。
它提供的內(nèi)容包括:
一個(gè)包含多種語法分析工具的綜合工具包
對(duì)任意文本的快速、可靠分析
全面高水平的文本分析
支持多種主要的人類語言
適用于多種主要的編程語言
可作為簡(jiǎn)單的網(wǎng)頁(yè)服務(wù)運(yùn)行
系統(tǒng)原理
SyntaxNet 是句法分析框架,也是自然語言理解系統(tǒng)第一個(gè)關(guān)鍵組成部分。給定一個(gè)句子,這個(gè)系統(tǒng)就能給句子中的每個(gè)語詞貼上詞類標(biāo)簽,亦即描述相應(yīng)語詞的句法功能(比如,主謂賓),還能判定給定句子中,語詞之間的句法關(guān)系,并用依存關(guān)系分析樹(dependency parse tree)來表示。這些句法關(guān)系與句子的潛在含義有著直接聯(lián)系。
簡(jiǎn)單的關(guān)系樹例子如下:愛麗絲看見鮑勃
對(duì)這個(gè)句子的分析:「愛麗絲」和「鮑勃」是名詞,「看見」是動(dòng)詞。主動(dòng)詞是「看見」,也是句子的謂語,「愛麗絲」是看見的主語,而「鮑勃」是看見的賓語。正如研究人員所預(yù)期的, Parsey McParseface 正確分析了句子的句法結(jié)構(gòu)。不過,它能分析更加復(fù)雜的句子。
分析:「愛麗絲」和「鮑勃」分別是「看見」的主語和賓語,除此之外,有一個(gè)帶有動(dòng)詞「reading」的關(guān)系從句修飾「愛麗絲」,「看見」被表示時(shí)間的修飾成分「yesterday」修飾,等等。理解了依存結(jié)構(gòu)中的語法關(guān)系,就能簡(jiǎn)單回答各種問題:比如,愛麗絲看見了誰?誰看到了鮑勃?愛麗絲一直在看什么書?或者,愛麗絲看見鮑勃,是什么時(shí)候?
神經(jīng)網(wǎng)絡(luò)+搜索解決語言歧義難題
人類可以使用常識(shí)消除句子中的歧義,谷歌系統(tǒng)則使用了神經(jīng)網(wǎng)絡(luò)。
人類語言具有相當(dāng)?shù)钠缌x性。
一個(gè)簡(jiǎn)單如「Find me cats in hats(幫我找到帽子里的貓)」的搜索查詢,既可能會(huì)被解讀成「尋找戴著帽子的貓」,也可能會(huì)被解讀成「尋找坐在帽子里的貓」。一個(gè)中等長(zhǎng)度的句子——大概 20 到 30 個(gè)單詞——會(huì)有數(shù)以百計(jì)甚至成千上萬種可能的語義結(jié)構(gòu)。
自然語言的語義分析必須在某種程度上搜索所有可能的語義結(jié)構(gòu),根據(jù)給定文本,找到最合乎邏輯的結(jié)構(gòu)。
舉個(gè)簡(jiǎn)單例子,愛麗絲開車行駛在大街上(Alice drove down the street in her car),至少有兩種可能的依存分析:
第一個(gè)分析是正確的分析:愛麗絲正開著她的車;第二個(gè)分析顯然很荒唐:街道位于她的車?yán)?。這里存在歧義問題,因?yàn)?,介詞「 in 」可能修飾「駕駛(drove)」,也可能修飾的是「街道(street)」。這個(gè)例子就是所謂的介詞短語的歧義性。
在處理語言高度歧義問題上,人類就擅長(zhǎng)多了,甚至都感覺不到有困難,因?yàn)榭砍WR(shí)就可以解決這個(gè)問題。計(jì)算機(jī)的一大挑戰(zhàn)就是像人類這樣處理模糊句子。比如,在更長(zhǎng)句子中會(huì)有多重歧義,組合爆炸產(chǎn)生多種句子結(jié)構(gòu)。這些結(jié)構(gòu)的絕大部分都是極其不合乎邏輯的,必須通過語義分析進(jìn)行某種程度上的舍棄。
SyntaxNet 利用神經(jīng)網(wǎng)絡(luò)來解決這個(gè)難題。
系統(tǒng)會(huì)從左到右處理被輸入的句子,每處理一個(gè)語詞,就會(huì)逐步添加分析語詞之間的依存關(guān)系。每處理一處,就意味著諸多可能的選擇(因?yàn)槠缌x),此時(shí),神經(jīng)網(wǎng)絡(luò)就會(huì)根據(jù)各競(jìng)爭(zhēng)性答案的邏輯合理程度進(jìn)行打分。也正因?yàn)槿绱耍谀P椭惺褂枚ㄏ蛩阉鳎╞eam search)就很重要了。系統(tǒng)不是簡(jiǎn)單地每處理一處,就采取一級(jí)最優(yōu)的選擇,而是每一步都會(huì)保存多個(gè)局部假設(shè),僅當(dāng)將其他幾個(gè)得分更高(higher-ranked)的假設(shè)納入考慮范圍后,才會(huì)舍棄之前的那些假設(shè)。
按照從左到右的決定順序進(jìn)行簡(jiǎn)單的語法分析,例如: I booked a ticket to Google.
正如之前論文中所描述的,將學(xué)習(xí)和搜索緊密聯(lián)系起來,非常重要,這樣才能實(shí)現(xiàn)高度的預(yù)測(cè)準(zhǔn)確性。
不足
Parsey McParseface 和 SyntaxNet 并不是最終解決方案,谷歌只是將之視為邁向更好的人工智能語義分析的第一步。
即使眾多同行認(rèn)為,SyntanxNet 是眾多系統(tǒng)中最好的,但是,該技術(shù)還遠(yuǎn)未完美地掌握英語。Pereira 表示,「我們的系統(tǒng)在結(jié)構(gòu)合理、經(jīng)過精心編輯的文本上效果最好,但社交媒體和搜索查詢的不規(guī)則性更有挑戰(zhàn)性。我們確實(shí)已經(jīng)取得了進(jìn)展,但仍還有很大的提升空間。」
從網(wǎng)頁(yè)上提取的句子更難分析(2011),Parsey McParseface 在這組數(shù)據(jù)組上的表現(xiàn)不佳,準(zhǔn)確率略高于90%。
另外,在自然語言處理中仍然還有很多歧義需要人類水平的常識(shí)才能解決——「那些我們從經(jīng)驗(yàn)中學(xué)到的東西,以及來自同齡人和父母的指令?!筆ereira 說,「那種非常豐富的解決問題的能力是我們的系統(tǒng)所完全缺失的。」
研究語言理解的斯坦福大學(xué)教授 Noah Goodman 說,提高句法理解只是計(jì)算機(jī)掌握語言的開始?!妇浞隙ㄊ钦Z言的重要一部分,」他說,「但從句法到語義之間、從淺語義到意義推斷之間都還有很大一步?!?/p>
另外,來自華盛頓大學(xué)計(jì)算機(jī)科學(xué)教授、專門研究自然語言理解的 Noah Smith 表示,語言分析最后的希望在于使用網(wǎng)絡(luò)上面更廣泛的數(shù)據(jù)訓(xùn)練這樣的系統(tǒng),然而這樣做也非常的困難,因?yàn)槿藗冊(cè)诰W(wǎng)上使用語言的方式多種多樣。
Smith 還指出,在語言使用(非英語)上的研究也遠(yuǎn)遠(yuǎn)不夠。
未來
雖然不是百分百準(zhǔn)確,但是,系統(tǒng)足以應(yīng)用于諸多應(yīng)用。
谷歌的研究負(fù)責(zé)人Fernando Pereira (負(fù)責(zé)管理公司自然語言理解的研究工作)估計(jì),較之之前的辦法,這個(gè)工具已使公司產(chǎn)品錯(cuò)誤率下降了20-40%,也正在協(xié)助谷歌實(shí)時(shí)服務(wù),包括公司的拳頭產(chǎn)品,搜索引擎。
通過共享 SyntaxNet,谷歌想要加快解決難題的步伐,如同當(dāng)初開源軟件引擎 TensorFlow 一樣。讓每個(gè)人都可以使用和修改 SyntaxNet,谷歌就能從更多的人那里獲得幫助,解決自然語言理解上的棘手問題。
當(dāng)然,最終也將惠及谷歌業(yè)務(wù)。
在數(shù)字助理的競(jìng)爭(zhēng)賽場(chǎng)上,谷歌遠(yuǎn)非孤軍奮戰(zhàn)。微軟發(fā)布了Cortana,亞馬遜正在摸索語音助手Echo的成功之道。無數(shù)創(chuàng)業(yè)公司也加入了這場(chǎng)競(jìng)賽,包括最近發(fā)布最新demo 的 Viv。臉書的野心更大,他們推出了Facebook M,一個(gè)可以通過文本(而不是語音)進(jìn)行聊天的工具,旨在幫助用戶完成各種事務(wù),從約會(huì)安排到計(jì)劃下一次渡假。
盡管有如此多的知名人物從事這方面的研究,但是,數(shù)字助理和聊天機(jī)器人遠(yuǎn)不夠完美。因?yàn)椋鉀Q自然語言理解的潛在技術(shù)遠(yuǎn)不夠完美。Facebook M 只是部分依賴人工智能,更多地還是依靠人類幫助完成復(fù)雜任務(wù),幫助訓(xùn)練人工智能。
Parsey McParseface 和 SyntaxNet 并不是最終解決方案,谷歌也只是將之視為邁向更好的人工智能語義分析工具的第一步。
類似真實(shí)人類的數(shù)字化助理,遠(yuǎn)非現(xiàn)實(shí)。但是,我們正在一步步靠近。Pereira 說,路漫漫,其修遠(yuǎn)。但是,我們的確正在打造可以更加準(zhǔn)確理解人類的技術(shù)。
參考資料:
https://www.technologyreview.com/s/601440/googles-algorithms-decode-language-like-a-trained-linguist/#/set/id/601443/
https://github.com/tensorflow/models/tree/master/syntaxnet
https://www.quora.com/How-does-Googles-open-source-natural-language-parser-SyntaxNet-compare-with-Spacy-io-or-Stanfords-CoreNLP
https://spacy.io/
https://segmentfault.com/a/1190000000365547
?本文由機(jī)器之心原創(chuàng),轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)。
?------------------------------------------------
加入機(jī)器之心(全職記者/實(shí)習(xí)生):hr@almosthuman.cn
投稿或?qū)で髨?bào)道:editor@almosthuman.cn
廣告&商務(wù)合作:bd@almosthuman.cn
以上就是關(guān)于pos機(jī)開機(jī)為什么顯示一個(gè)m,谷歌開源最精確自然語言解析器SyntaxNet的深度解讀的知識(shí),后面我們會(huì)繼續(xù)為大家整理關(guān)于pos機(jī)開機(jī)為什么顯示一個(gè)m的知識(shí),希望能夠幫助到大家!
