網(wǎng)上有很多關(guān)于pos機(jī)廣告語(yǔ)句,聯(lián)合漢語(yǔ)分詞和依存句法分析的統(tǒng)一模型的知識(shí),也有很多人為大家解答關(guān)于pos機(jī)廣告語(yǔ)句的問題,今天pos機(jī)之家(m.afbey.com)為大家整理了關(guān)于這方面的知識(shí),讓我們一起來(lái)看下吧!
本文目錄一覽:
pos機(jī)廣告語(yǔ)句
漢語(yǔ) NLP 任務(wù)與英語(yǔ)不同,由于詞語(yǔ)缺乏明顯邊界,漢語(yǔ)需要先依次分詞、詞性標(biāo)注,再進(jìn)行依存句法分析。但這種模式的分析容易造成誤差傳播,而且這三個(gè)小任務(wù)之間的共享知識(shí)無(wú)法充分利用。
對(duì)此,傳統(tǒng)的解決方案是采用基于轉(zhuǎn)換的聯(lián)合模型。但這些模型仍然具有不可避免的缺陷:特征工程和巨大的搜索空間。因此,本文提出一種基于圖的統(tǒng)一模型來(lái)解決這些問題。
這種模型將漢語(yǔ)分詞和依存句法分析集成在一個(gè)分析模型中。它比以前的聯(lián)合模型性能更好,并在漢語(yǔ)分詞和依存句法分析中實(shí)現(xiàn)了當(dāng)前最佳的結(jié)果。
與英語(yǔ)不同,漢語(yǔ)句子由連續(xù)的字符組成,詞語(yǔ)之間缺乏明顯的界限。由于詞語(yǔ)常被認(rèn)為是最小語(yǔ)義單位,因此漢語(yǔ)分詞(CWS)成為下游漢語(yǔ)自然語(yǔ)言處理的預(yù)處理步驟。
例如,基本的 NLP 任務(wù)——依存句法分析通常在詞級(jí)上定義。要分析一個(gè)中文句子,基本過(guò)程過(guò)程大致是:分詞、詞性標(biāo)注和依存句法分析。
但是,這種 pipeline 方式總是存在以下局限:
誤差傳播。在這種方式中,一旦某些詞語(yǔ)被錯(cuò)誤地分割,隨后的詞性標(biāo)注和分析也會(huì)出錯(cuò)。因此,pipeline 模型只能達(dá)到約 75%~80%的 dependency 分?jǐn)?shù) [1]。知識(shí)共享。這三個(gè)任務(wù)(分詞,詞性標(biāo)注和依存句法分析)是密切相關(guān)的。漢語(yǔ)分詞的標(biāo)準(zhǔn)也取決于詞語(yǔ)在句子中的語(yǔ)法作用。因此,從這三個(gè)任務(wù)中學(xué)到的知識(shí)是可以共享的。一項(xiàng)任務(wù)的知識(shí)可以幫助其它任務(wù)。然而,pipeline 方式分別單獨(dú)訓(xùn)練三個(gè)模型,每個(gè)模型針對(duì)一個(gè)任務(wù),不能充分利用三個(gè)任務(wù)之間的共享知識(shí)。
這種誤差傳播問題的傳統(tǒng)解決方案是使用聯(lián)合模型 [2,3,1]。這些聯(lián)合模型主要采用基于轉(zhuǎn)換的分析框架來(lái)集成分詞、詞性標(biāo)注和依存句法分析。它們基于標(biāo)準(zhǔn)的順序 shift-reduce 轉(zhuǎn)換,為分詞和詞性標(biāo)注設(shè)計(jì)了一些額外的動(dòng)作。
雖然這些聯(lián)合模型比 pipeline 模型的性能更好,但它們?nèi)跃哂袃蓚€(gè)局限性:第一,巨大的搜索空間;第二,特征工程(feature engineering)。
最近,基于圖的模型在依存語(yǔ)句法分析方面取得了很大進(jìn)展 [4,5],它充分利用了雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)[6] 和注意力機(jī)制 [7] 來(lái)捕捉句子中單詞之間的交互。
與基于轉(zhuǎn)換的模型不同,基于圖的模型為每個(gè)可能的弧分配一個(gè)分?jǐn)?shù)或概率,然后根據(jù)這些加權(quán)弧來(lái)構(gòu)建最大生成樹(MST)。
本文提出了一個(gè)統(tǒng)一的漢語(yǔ)分詞和依存語(yǔ)句分析模型,它將這兩個(gè)任務(wù)集成在一個(gè)基于圖的分析模型中。由于分割是字符級(jí)任務(wù),而依存分析是詞級(jí)任務(wù),因此研究人員首先將這兩個(gè)任務(wù)公式化為基于圖形的字符級(jí)分析框架。
詳細(xì)地說(shuō),本文模型包含(1)深度 BiLSTM 編碼器,它能夠捕獲每個(gè)字符的長(zhǎng)期上下文特征,(2)biaffine 注意力計(jì)分器(attentional scorer)[5],它統(tǒng)一預(yù)測(cè)字符級(jí)別的分割和依存分析關(guān)系。此外,與以前的聯(lián)合模型不同,該統(tǒng)一模型不依賴于詞性標(biāo)注任務(wù)。
本文三項(xiàng)貢獻(xiàn)如下:
據(jù)研究人員所知,這是第一個(gè)將漢語(yǔ)分詞和依存句法分析集成在統(tǒng)一模型中的基于圖的方法。且提出的統(tǒng)一模型非常簡(jiǎn)潔,易于實(shí)現(xiàn)。與之前基于轉(zhuǎn)換的聯(lián)合模型相比,本文提出的模型是基于圖的,這使得特征工程的工作量減少。此外,此模型可以處理標(biāo)記的依存句法分析任務(wù),而這對(duì)于基于轉(zhuǎn)換的聯(lián)合模型來(lái)說(shuō)并不容易。在數(shù)據(jù)集 CTB-5 和 CTB-7 上進(jìn)行的實(shí)驗(yàn)中,即使沒有 POS 信息,本文模型在聯(lián)合漢語(yǔ)分詞和依存句法分析中也達(dá)到了當(dāng)前最先進(jìn)的性能。論文:A Unified Model for Joint Chinese Word Segmentation and Dependency Parsing
論文地址:https://arxiv.org/abs/1904.04697
漢語(yǔ)分詞和依存句法分析是漢語(yǔ)自然語(yǔ)言處理的兩個(gè)基本任務(wù)。依存句法分析是在詞級(jí)定義的,因此分詞是依存句法分析的前提條件,這使得依存句法分析受到誤差傳播的影響。
在本文中,我們提出了一個(gè)統(tǒng)一的模型來(lái)集成漢語(yǔ)分詞和依存句法分析。與以前的聯(lián)合模型不同,我們提出的模型是基于圖形的模型,它更加簡(jiǎn)潔,從而減少了特征工程的工作量。
我們的聯(lián)合模型比以前的聯(lián)合模型性能都更優(yōu),并在漢語(yǔ)分詞和依存句法分析中實(shí)現(xiàn)了當(dāng)前最優(yōu)的結(jié)果。
本文提出的模型
以前的聯(lián)合方法主要基于轉(zhuǎn)換的模型,它通過(guò)添加一些額外的操作(如「app」和「tag」)來(lái)修改標(biāo)準(zhǔn)的「shift-reduce」操作。與以前的方法不同,我們將分詞和依存句法分析集成到一個(gè)基于圖的統(tǒng)一分析框架中,這樣更簡(jiǎn)單且更易于實(shí)現(xiàn)。
圖 1:聯(lián)合漢語(yǔ)分詞和依存分析的統(tǒng)一框架。綠色弧線表示詞級(jí)依賴關(guān)系。帶有「app」的藍(lán)色虛弧線表示連接的字符屬于同一個(gè)詞。
首先,我們將分詞轉(zhuǎn)換為特殊的弧預(yù)測(cè)問題。例如,中文單詞「金融業(yè)(financial sector)」有兩個(gè)詞內(nèi)依存?。骸附稹凇购汀溉凇麡I(yè)」。這兩個(gè)詞內(nèi)依存弧都有標(biāo)簽「app」。
在本文中,我們只是將詞語(yǔ)中的最后一個(gè)字符定義為首字符,所有其它字符都依賴于它。
其次,我們將詞級(jí)依存弧轉(zhuǎn)換為字符級(jí)依存弧。假設(shè)在詞語(yǔ) w1 = xi:j 和 w2 = xu:v 之間存在依存弧,其中 xi:j 表示句子中從 i 到 j 的連續(xù)字符,我們用此弧連接每個(gè)詞的最后字符 xj 和 xv。
例如,弧「發(fā)展 (develop)→金融業(yè) (financial sector)」被轉(zhuǎn)換為「展→業(yè)」。圖 1 說(shuō)明了聯(lián)合漢語(yǔ)分詞和依存句法分析的統(tǒng)一框架。
因此,我們可以使用基于圖的統(tǒng)一分析模型來(lái)執(zhí)行這兩個(gè)任務(wù)。我們的模型包含兩個(gè)主要組成部分:(1) 深度 BiLSTM 編碼器,用于提取上下文特征,它將給定句子的每個(gè)字符嵌入作為輸入并生成密集向量,(2)biaffine 注意力計(jì)分器 [5],將給定字符對(duì)的隱藏向量作為輸入并預(yù)測(cè)標(biāo)簽得分向量。
圖 2 說(shuō)明了聯(lián)合漢語(yǔ)分詞和依存句法分析的統(tǒng)一模型。具體說(shuō)明如下。
圖 2:本文提出的聯(lián)合模型。為了簡(jiǎn)單起見,我們省略了弧標(biāo)簽的預(yù)測(cè),它使用不同的 biaffine 分類器。
實(shí)驗(yàn)
我們使用 Penn Chinese Treebank 5.0(CTB-5)和 7 個(gè)(CTB-7)數(shù)據(jù)集來(lái)評(píng)估我們的模型。
表 1:CTB-5 和 CTB-7 的數(shù)據(jù)統(tǒng)計(jì)
如表 3 所示,我們的聯(lián)合模型(倒數(shù)第二行)在漢語(yǔ)分詞和依存句法分析方面都大大超過(guò)了以前的方法,即使沒有(基于轉(zhuǎn)換的聯(lián)合模型中廣泛使用的)局部句法分析特征。
表 3:主要結(jié)果
所有模型在漢語(yǔ)分詞中的性能如表 4 所示。前兩行顯示了是否在 MLP 頂部使用 CRF 的區(qū)別。表 4 的下半部分給出了對(duì)本文所提所有聯(lián)合模型的分段評(píng)估。聯(lián)合訓(xùn)練漢語(yǔ)分詞和依存句法分析比單獨(dú)訓(xùn)練漢語(yǔ)分詞效果更好。
表 4:漢語(yǔ)分詞結(jié)果
以上就是關(guān)于pos機(jī)廣告語(yǔ)句,聯(lián)合漢語(yǔ)分詞和依存句法分析的統(tǒng)一模型的知識(shí),后面我們會(huì)繼續(xù)為大家整理關(guān)于pos機(jī)廣告語(yǔ)句的知識(shí),希望能夠幫助到大家!