pos機(jī)廣告語(yǔ)句,聯(lián)合漢語(yǔ)分詞和依存句法分析的統(tǒng)一模型

新聞資訊2 | 2023-06-23 17:51 | 投稿人：pos機(jī)之家

網(wǎng)上有很多關(guān)于pos機(jī)廣告語(yǔ)句,聯(lián)合漢語(yǔ)分詞和依存句法分析的統(tǒng)一模型的知識(shí)，也有很多人為大家解答關(guān)于pos機(jī)廣告語(yǔ)句的問(wèn)題，今天pos機(jī)之家(m.afbey.com)為大家整理了關(guān)于這方面的知識(shí)，讓我們一起來(lái)看下吧!

本文目錄一覽：

1、pos機(jī)廣告語(yǔ)句

pos機(jī)廣告語(yǔ)句

漢語(yǔ) NLP 任務(wù)與英語(yǔ)不同，由于詞語(yǔ)缺乏明顯邊界，漢語(yǔ)需要先依次分詞、詞性標(biāo)注，再進(jìn)行依存句法分析。但這種模式的分析容易造成誤差傳播，而且這三個(gè)小任務(wù)之間的共享知識(shí)無(wú)法充分利用。

對(duì)此，傳統(tǒng)的解決方案是采用基于轉(zhuǎn)換的聯(lián)合模型。但這些模型仍然具有不可避免的缺陷：特征工程和巨大的搜索空間。因此，本文提出一種基于圖的統(tǒng)一模型來(lái)解決這些問(wèn)題。

這種模型將漢語(yǔ)分詞和依存句法分析集成在一個(gè)分析模型中。它比以前的聯(lián)合模型性能更好，并在漢語(yǔ)分詞和依存句法分析中實(shí)現(xiàn)了當(dāng)前最佳的結(jié)果。

與英語(yǔ)不同，漢語(yǔ)句子由連續(xù)的字符組成，詞語(yǔ)之間缺乏明顯的界限。由于詞語(yǔ)常被認(rèn)為是最小語(yǔ)義單位，因此漢語(yǔ)分詞（CWS）成為下游漢語(yǔ)自然語(yǔ)言處理的預(yù)處理步驟。

例如，基本的 NLP 任務(wù)——依存句法分析通常在詞級(jí)上定義。要分析一個(gè)中文句子，基本過(guò)程過(guò)程大致是：分詞、詞性標(biāo)注和依存句法分析。

但是，這種 pipeline 方式總是存在以下局限：

誤差傳播。在這種方式中，一旦某些詞語(yǔ)被錯(cuò)誤地分割，隨后的詞性標(biāo)注和分析也會(huì)出錯(cuò)。因此，pipeline 模型只能達(dá)到約 75％~80％的 dependency 分?jǐn)?shù) [1]。知識(shí)共享。這三個(gè)任務(wù)（分詞，詞性標(biāo)注和依存句法分析）是密切相關(guān)的。漢語(yǔ)分詞的標(biāo)準(zhǔn)也取決于詞語(yǔ)在句子中的語(yǔ)法作用。因此，從這三個(gè)任務(wù)中學(xué)到的知識(shí)是可以共享的。

一項(xiàng)任務(wù)的知識(shí)可以幫助其它任務(wù)。然而，pipeline 方式分別單獨(dú)訓(xùn)練三個(gè)模型，每個(gè)模型針對(duì)一個(gè)任務(wù)，不能充分利用三個(gè)任務(wù)之間的共享知識(shí)。

這種誤差傳播問(wèn)題的傳統(tǒng)解決方案是使用聯(lián)合模型 [2,3,1]。這些聯(lián)合模型主要采用基于轉(zhuǎn)換的分析框架來(lái)集成分詞、詞性標(biāo)注和依存句法分析。它們基于標(biāo)準(zhǔn)的順序 shift-reduce 轉(zhuǎn)換，為分詞和詞性標(biāo)注設(shè)計(jì)了一些額外的動(dòng)作。

雖然這些聯(lián)合模型比 pipeline 模型的性能更好，但它們?nèi)跃哂袃蓚€(gè)局限性：第一，巨大的搜索空間；第二，特征工程（feature engineering）。

最近，基于圖的模型在依存語(yǔ)句法分析方面取得了很大進(jìn)展 [4,5]，它充分利用了雙向長(zhǎng)短期記憶網(wǎng)絡(luò)（BiLSTM）[6] 和注意力機(jī)制 [7] 來(lái)捕捉句子中單詞之間的交互。

與基于轉(zhuǎn)換的模型不同，基于圖的模型為每個(gè)可能的弧分配一個(gè)分?jǐn)?shù)或概率，然后根據(jù)這些加權(quán)弧來(lái)構(gòu)建最大生成樹(shù)（MST）。

本文提出了一個(gè)統(tǒng)一的漢語(yǔ)分詞和依存語(yǔ)句分析模型，它將這兩個(gè)任務(wù)集成在一個(gè)基于圖的分析模型中。由于分割是字符級(jí)任務(wù)，而依存分析是詞級(jí)任務(wù)，因此研究人員首先將這兩個(gè)任務(wù)公式化為基于圖形的字符級(jí)分析框架。

詳細(xì)地說(shuō)，本文模型包含（1）深度 BiLSTM 編碼器，它能夠捕獲每個(gè)字符的長(zhǎng)期上下文特征，（2）biaffine 注意力計(jì)分器（attentional scorer）[5]，它統(tǒng)一預(yù)測(cè)字符級(jí)別的分割和依存分析關(guān)系。此外，與以前的聯(lián)合模型不同，該統(tǒng)一模型不依賴于詞性標(biāo)注任務(wù)。

本文三項(xiàng)貢獻(xiàn)如下：

據(jù)研究人員所知，這是第一個(gè)將漢語(yǔ)分詞和依存句法分析集成在統(tǒng)一模型中的基于圖的方法。且提出的統(tǒng)一模型非常簡(jiǎn)潔，易于實(shí)現(xiàn)。與之前基于轉(zhuǎn)換的聯(lián)合模型相比，本文提出的模型是基于圖的，這使得特征工程的工作量減少。此外，此模型可以處理標(biāo)記的依存句法分析任務(wù)，而這對(duì)于基于轉(zhuǎn)換的聯(lián)合模型來(lái)說(shuō)并不容易。在數(shù)據(jù)集 CTB-5 和 CTB-7 上進(jìn)行的實(shí)驗(yàn)中，即使沒(méi)有 POS 信息，本文模型在聯(lián)合漢語(yǔ)分詞和依存句法分析中也達(dá)到了當(dāng)前最先進(jìn)的性能。

論文：A Unified Model for Joint Chinese Word Segmentation and Dependency Parsing

論文地址：https://arxiv.org/abs/1904.04697

漢語(yǔ)分詞和依存句法分析是漢語(yǔ)自然語(yǔ)言處理的兩個(gè)基本任務(wù)。依存句法分析是在詞級(jí)定義的，因此分詞是依存句法分析的前提條件，這使得依存句法分析受到誤差傳播的影響。

在本文中，我們提出了一個(gè)統(tǒng)一的模型來(lái)集成漢語(yǔ)分詞和依存句法分析。與以前的聯(lián)合模型不同，我們提出的模型是基于圖形的模型，它更加簡(jiǎn)潔，從而減少了特征工程的工作量。

我們的聯(lián)合模型比以前的聯(lián)合模型性能都更優(yōu)，并在漢語(yǔ)分詞和依存句法分析中實(shí)現(xiàn)了當(dāng)前最優(yōu)的結(jié)果。

本文提出的模型

以前的聯(lián)合方法主要基于轉(zhuǎn)換的模型，它通過(guò)添加一些額外的操作（如「app」和「tag」）來(lái)修改標(biāo)準(zhǔn)的「shift-reduce」操作。與以前的方法不同，我們將分詞和依存句法分析集成到一個(gè)基于圖的統(tǒng)一分析框架中，這樣更簡(jiǎn)單且更易于實(shí)現(xiàn)。

圖 1：聯(lián)合漢語(yǔ)分詞和依存分析的統(tǒng)一框架。綠色弧線表示詞級(jí)依賴關(guān)系。帶有「app」的藍(lán)色虛弧線表示連接的字符屬于同一個(gè)詞。

首先，我們將分詞轉(zhuǎn)換為特殊的弧預(yù)測(cè)問(wèn)題。例如，中文單詞「金融業(yè)（financial sector）」有兩個(gè)詞內(nèi)依存?。骸附稹凇购汀溉凇麡I(yè)」。這兩個(gè)詞內(nèi)依存弧都有標(biāo)簽「app」。

在本文中，我們只是將詞語(yǔ)中的最后一個(gè)字符定義為首字符，所有其它字符都依賴于它。

其次，我們將詞級(jí)依存弧轉(zhuǎn)換為字符級(jí)依存弧。假設(shè)在詞語(yǔ) w1 = xi:j 和 w2 = xu:v 之間存在依存弧，其中 xi:j 表示句子中從 i 到 j 的連續(xù)字符，我們用此弧連接每個(gè)詞的最后字符 xj 和 xv。

例如，弧「發(fā)展 (develop)→金融業(yè) (financial sector)」被轉(zhuǎn)換為「展→業(yè)」。圖 1 說(shuō)明了聯(lián)合漢語(yǔ)分詞和依存句法分析的統(tǒng)一框架。

因此，我們可以使用基于圖的統(tǒng)一分析模型來(lái)執(zhí)行這兩個(gè)任務(wù)。我們的模型包含兩個(gè)主要組成部分：(1) 深度 BiLSTM 編碼器，用于提取上下文特征，它將給定句子的每個(gè)字符嵌入作為輸入并生成密集向量，(2)biaffine 注意力計(jì)分器 [5]，將給定字符對(duì)的隱藏向量作為輸入并預(yù)測(cè)標(biāo)簽得分向量。

圖 2 說(shuō)明了聯(lián)合漢語(yǔ)分詞和依存句法分析的統(tǒng)一模型。具體說(shuō)明如下。

圖 2：本文提出的聯(lián)合模型。為了簡(jiǎn)單起見(jiàn)，我們省略了弧標(biāo)簽的預(yù)測(cè)，它使用不同的 biaffine 分類器。

實(shí)驗(yàn)

我們使用 Penn Chinese Treebank 5.0（CTB-5）和 7 個(gè)（CTB-7）數(shù)據(jù)集來(lái)評(píng)估我們的模型。

表 1：CTB-5 和 CTB-7 的數(shù)據(jù)統(tǒng)計(jì)

如表 3 所示，我們的聯(lián)合模型（倒數(shù)第二行）在漢語(yǔ)分詞和依存句法分析方面都大大超過(guò)了以前的方法，即使沒(méi)有（基于轉(zhuǎn)換的聯(lián)合模型中廣泛使用的）局部句法分析特征。

表 3:主要結(jié)果

所有模型在漢語(yǔ)分詞中的性能如表 4 所示。前兩行顯示了是否在 MLP 頂部使用 CRF 的區(qū)別。表 4 的下半部分給出了對(duì)本文所提所有聯(lián)合模型的分段評(píng)估。聯(lián)合訓(xùn)練漢語(yǔ)分詞和依存句法分析比單獨(dú)訓(xùn)練漢語(yǔ)分詞效果更好。

表 4：漢語(yǔ)分詞結(jié)果

以上就是關(guān)于pos機(jī)廣告語(yǔ)句,聯(lián)合漢語(yǔ)分詞和依存句法分析的統(tǒng)一模型的知識(shí)，后面我們會(huì)繼續(xù)為大家整理關(guān)于pos機(jī)廣告語(yǔ)句的知識(shí)，希望能夠幫助到大家！

轉(zhuǎn)發(fā)請(qǐng)帶上網(wǎng)址：http://m.afbey.com/newsone/72535.html

上一篇：pos機(jī)創(chuàng)意文案,這些創(chuàng)意榜上有名下一篇：pos機(jī)秘密,幫忙開(kāi)通POS機(jī) 記下密碼盜錢財(cái)

版權(quán)聲明：本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)，該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容，請(qǐng)發(fā)送郵件至 babsan@163.com 舉報(bào)，一經(jīng)查實(shí)，本站將立刻刪除。

一级黄片免费看无码|99久久夜色精品国产|国产色极品女人在线视频|不卡一区二区三区免费视频|亚洲精品午夜看片无码专区|亚洲国产精品无码久久青草|免费男人下部进女人下部视频|亚洲一卡2卡3卡4卡精品分类

pos機(jī)廣告語(yǔ)句,聯(lián)合漢語(yǔ)分詞和依存句法分析的統(tǒng)一模型

本文目錄一覽：

pos機(jī)廣告語(yǔ)句

你可能會(huì)喜歡：