網(wǎng)上有很多關(guān)于如何用vb做pos機,如何用NLTK的知識,也有很多人為大家解答關(guān)于如何用vb做pos機的問題,今天pos機之家(m.afbey.com)為大家整理了關(guān)于這方面的知識,讓我們一起來看下吧!
本文目錄一覽:
如何用vb做pos機
用NLTK進行NLP任務的文本預處理
自然語言處理(NLP)
自然語言處理的目標是建立能夠理解和回應文本或語音數(shù)據(jù)的機器--并像人類一樣用自己的語言和語音作出回應。
什么是自然語言處理?
在計算機科學中,自然語言處理(NLP)是人工智能(AI)的一個分支,它涉及到讓計算機具有像人類一樣理解文本和口語的能力。
NLP的目標是將計算語言學--基于規(guī)則的人類語言建模--與機器學習、統(tǒng)計學和深度學習技術(shù)相結(jié)合。計算機現(xiàn)在可以處理文本或語音數(shù)據(jù)形式的人類語言,使其能夠理解其完整的含義,包括說話者的意圖和情緒。
自然語言處理領域使計算機程序能夠在不同語言之間翻譯文本,實時響應,它可以總結(jié)大量的文本并響應口語命令。你很可能已經(jīng)以語音控制的GPS系統(tǒng)、數(shù)字助理、語音到文本聽寫軟件、客戶服務聊天機器人和其他消費者便利的形式與NLP進行了互動。然而,自然語言處理在企業(yè)解決方案中也發(fā)揮著越來越重要的作用,它可以提高員工的生產(chǎn)力,簡化關(guān)鍵任務的工作流程,并簡化業(yè)務運營。
NLP的一些應用
垃圾郵件檢測情感分析企業(yè)的聊天機器人文本總結(jié)。文本建議和更正部分語音標簽以及更多的現(xiàn)實世界的應用。自然語言工具包(NLTK)
有許多Python庫和工具用于處理NLP任務。自然語言工具包,或稱NLTK,是一個庫、程序和教育資源的集合,用于建立基于自然語言的NLP程序。
除了支持一些NLP任務的庫之外,NLTK還提供了支持子任務的庫,如句子解析、單詞分割、詞干化、詞根化(將單詞修剪到詞根的過程)和標記化(將短語、句子、段落和段落縮減為標記以使系統(tǒng)更容易理解的過程)。還有許多用于實現(xiàn)語義推理的庫,它允許用戶根據(jù)從文本中提取的事實得出邏輯結(jié)論。
一些非常有用的功能
對照:NLTK的對照功能可以用來搜索文檔中出現(xiàn)的每一個特定的詞,同時還可以顯示搜索詞的周圍環(huán)境。生成。生成各種風格的隨機文本計數(shù):一個詞的總計數(shù)可以通過計數(shù)功能返回。匯編_列表: 一個不尋常的詞的組合被稱為搭配。Collocation_list函數(shù)返回一個默認大小為2的搭配詞列表。分散圖:NLTK中的分散圖是用來直觀地顯示單詞在文本語料庫中的位置和出現(xiàn)次數(shù)的。Similar : NLTK的Similar函數(shù)接收一個輸入詞,并返回文本中出現(xiàn)在類似范圍內(nèi)的其他詞。common_context : common_contexts函數(shù)允許我們只檢查兩個或多個詞所共享的語境。文本預處理
如果我們對數(shù)據(jù)應用幾個預處理步驟,我們可以將文本數(shù)據(jù)轉(zhuǎn)化為機器學習算法所使用的數(shù)字特征。沒有必要對每個問題都應用所有的預處理步驟。這取決于問題領域和問題本身。
讓我們看看Python是如何處理文本預處理的。我們將在這里使用NLTK(Natural language toolkit)庫。
1.文本小寫 - 刪除數(shù)字
我們對文本進行小寫,以減少我們文本數(shù)據(jù)的詞匯量。
我們應該刪除數(shù)字或者將這些數(shù)字轉(zhuǎn)換成文本表示。我們使用正則表達式(re)來刪除數(shù)字。
你也可以將數(shù)字轉(zhuǎn)換為文字。這可以通過使用inflect庫來完成。
2.刪除標點符號
我們刪除標點符號,是因為我們不會有同一個詞的不同形式。如果我們不刪除標點符號,那么been, been, and been! 將被分開處理。
3.刪除默認的停止詞
那些對句子的意思沒有增加任何內(nèi)容的詞是停止詞。因此,在不改變意義的情況下,刪除它們是安全的。我們可以通過使用NLTK的止損詞來移除文本中的止損詞,并通過使用這些止損詞來返回一個單詞標記的列表。
4.詞干化
詞干化是我們獲得一個詞的詞根形式的過程。詞根或詞干是添加詞綴(如-ed、-ize)的部分。詞干是通過去除單詞的前綴和后綴而產(chǎn)生的。詞干的結(jié)果可能不是一個實際的詞。
比如說。
Mangoes — -> MangoBoys ---> Boygoing ---> go
如果我們的句子不在標記中,那么我們需要將其轉(zhuǎn)換為標記。在我們將文本字符串轉(zhuǎn)換為標記后,我們可以將這些詞的標記轉(zhuǎn)換成它們的詞根形式。這三種方法是波特干法、雪球干法和蘭卡斯特干法。我們通常使用其中的波特干法。
5.詞法處理
詞根化和詞綴化之間的唯一區(qū)別是,詞綴化確保詞根屬于該語言。詞綴化將使我們能夠提取有效的詞。在NLTK(Natural language Toolkit)中,我們使用WordLemmatizer來獲取單詞的詞法。我們還需要為詞法處理提供一個上下文。因此,我們把pos(part-of-speech)作為一個參數(shù)。
6.語篇(POS)標簽
你可以通過觀察下面的例子來了解語篇的情況。每個詞在句子中都有不同的語境和語義。這些詞之間的關(guān)系是基本的自然語言處理(NLP)模型,如詞包(bow)所不能識別的。我們的系統(tǒng)使用pos標簽,根據(jù)數(shù)據(jù)中的上下文為一個詞分配一個pos標簽。
在上述例子中,NNP代表專有名詞,PRP代表人稱名詞,IN為介詞。我們可以使用Penn Treebank標簽集獲得所有細節(jié)的pos標簽。
CC協(xié)調(diào)連詞CD 心數(shù)DT 限定詞EX 存在性有(如:"有"......把它想成 "存在")。FW 外來詞IN 介詞/從屬連詞JJ 形容詞'大'。JJR 形容詞,比較級'更大'。JJS 形容詞,最高級的 "最大"。LS 列表標記 1)MD 情態(tài)詞 could, willNN名詞,單數(shù) "桌子"。NNS名詞復數(shù)'書桌'。NNP專有名詞,單數(shù)'Harrison'。NNPS專有名詞,復數(shù)'美國人'。PDT 謂語'所有的孩子'。POS占有式結(jié)尾父母的PRP 人稱代詞 I, he, shePRP$占有式代詞my, his, hersRB副詞非常,默示。RBR副詞,比較級更好RBS副詞,最高級的最好RP粒子 放棄TO,去'到'商店。UH 感嘆詞,ErrrrrrrrmVB動詞,基本形式takeVBD動詞,過去式takeVBG 動詞,動名詞/現(xiàn)在分詞takingVBN動詞,過去分詞takeVBP動詞, 單數(shù)現(xiàn)在時, 非第三人稱服用VBZ動詞,第三人稱單數(shù)現(xiàn)在時服用WDT wh-determiner whichWP wh-pronoun who, whatWP$ 占有式wh-pronoun whoseWRB wh-abverb where, when7.了解Regex
作為一名軟件開發(fā)人員,你可能已經(jīng)多次遇到過正則表達式,并多次被這些令人生畏的字符組所困擾,就像這樣分組。
你可能想知道這到底是怎么回事?
正則表達式(Regx或RegExp)在提高你的算法水平方面非常有用,這將使你成為一個更好的問題解決者。一開始,Regx的結(jié)構(gòu)可能讓人望而生畏,但一旦你掌握了所有的模式并在工作中正確地實施它們,就會有很大的收獲。
什么是RegEx,為什么它很重要?
了解Regex
作為一個軟件開發(fā)者,你很可能經(jīng)常遇到正則表達式,并被這些看似無窮無盡的字符集弄得不知所措。
你想了解更多這方面的信息嗎?
RegEx和RegX對于加強你的算法游戲和提高你的問題解決能力是非常好的。最初,Regx的結(jié)構(gòu)可能看起來令人生畏,但一旦你掌握了所有的模式并將其納入你的工作,它就會帶來很大的收獲。
什么是RegEx,為什么它很重要?
Regex或我們稱之為正則表達式,它是一種類型的對象,將幫助你通過搜索文本從任何字符串數(shù)據(jù)中提取信息,并找出你需要的東西。無論是標點符號、數(shù)字、字母,甚至是空白,RegEx將允許你檢查和匹配字符串中的任何字符組合。
例如,假設你需要匹配一個電子郵件地址或安全號碼的格式。你可以利用RegEx來檢查文本字符串中的模式,并使用它來替換另一個子串。
例如,RegEx可以告訴程序從字符串中搜索特定的文本,然后打印出相應的輸出。表達式可以包括文本匹配、單詞的重復、分支、模式組合。
Python通過庫支持RegEx。在RegEx中支持各種東西,如標識符、修飾符和空白處。
我們使用re.findall()模塊是當你想迭代文件的行數(shù)時,它會一次性地列出所有的匹配。在這個例子中,我們想從列表中獲取電子郵件地址,我們想從列表中獲取所有的電子郵件,我們使用re.findall()方法。
來源:開發(fā)社區(qū)
更多內(nèi)容可以看這里:深度學習的發(fā)展史
以上就是關(guān)于如何用vb做pos機,如何用NLTK的知識,后面我們會繼續(xù)為大家整理關(guān)于如何用vb做pos機的知識,希望能夠幫助到大家!