網(wǎng)上有很多關(guān)于pos機(jī)中文,中文預(yù)訓(xùn)練模型ZEN開(kāi)源的知識(shí),也有很多人為大家解答關(guān)于pos機(jī)中文的問(wèn)題,今天pos機(jī)之家(m.afbey.com)為大家整理了關(guān)于這方面的知識(shí),讓我們一起來(lái)看下吧!
本文目錄一覽:
pos機(jī)中文
允中 發(fā)自 凹非寺 量子位 報(bào)道 | 公眾號(hào) QbitAI改進(jìn)策略簡(jiǎn)單有效、收斂速度快,同時(shí)小數(shù)據(jù)效果出色。
這就是中文預(yù)訓(xùn)練模型ZEN。
在中文任務(wù)中,ZEN不僅性能優(yōu)于BERT,也比之前中文預(yù)訓(xùn)練模型更好。
可以說(shuō)是目前全球中文領(lǐng)域最佳預(yù)訓(xùn)練模型。
而且現(xiàn)在,ZEN開(kāi)源了。源代碼和訓(xùn)練好的模型均已發(fā)布,未來(lái)還承諾會(huì)有更大數(shù)據(jù)和其他語(yǔ)言版本迭代上新。
詳情我們展開(kāi)往下說(shuō)。
ZEN因何而生隨著B(niǎo)ERT(Devlin et al., 2018)等一系列預(yù)訓(xùn)練模型的出現(xiàn),該類型上下文相關(guān)表征方法受到了自然語(yǔ)言處理領(lǐng)域持續(xù)大范圍的關(guān)注。
這些預(yù)訓(xùn)練模型帶來(lái)的好處是顯而易見(jiàn):
一方面,它們可以利用大規(guī)模無(wú)標(biāo)注純文本語(yǔ)料進(jìn)行學(xué)習(xí);
另一方面,它們是對(duì)于文本的有效表征,并且大量實(shí)驗(yàn)表明,基于預(yù)訓(xùn)練模型的各類NLP模型相比于以前的方法能帶來(lái)巨大的性能提升。
一般來(lái)說(shuō),預(yù)訓(xùn)練模型研究通常分為兩個(gè)步驟:第一步是預(yù)訓(xùn)練 (pre-training),第二步是微調(diào)整 (fine-tune)。
其中,預(yù)訓(xùn)練是指通過(guò)在大規(guī)模無(wú)標(biāo)注的語(yǔ)料上進(jìn)行無(wú)監(jiān)督訓(xùn)練,來(lái)學(xué)習(xí)通用的語(yǔ)言表達(dá)和上下文行文特點(diǎn)。
微調(diào)整指在特定的任務(wù)上,再次利用任務(wù)數(shù)據(jù)訓(xùn)練和調(diào)整預(yù)訓(xùn)練模型參數(shù)的過(guò)程。
目前,大多數(shù)中文預(yù)訓(xùn)練模型基本上沿用了英文模型的做法,聚焦于小顆粒度文本單元(字)的輸入。
然而,與英文相比,中文沒(méi)有空格等明確的詞語(yǔ)邊界。
這個(gè)特點(diǎn)使得很多文本表達(dá)中存在的交叉歧義也被帶入了以字為序列的文本編碼中,使得模型更難從單字的序列中學(xué)習(xí)到大顆粒度文本蘊(yùn)含的語(yǔ)義信息,例如雙字或者多字詞的整體含義等。
雖然通過(guò)大規(guī)模文本建??梢砸欢ǔ潭壬蠀^(qū)分不同上下文環(huán)境的語(yǔ)義,但是依然沒(méi)有充分并顯式地利用預(yù)訓(xùn)練和微調(diào)整語(yǔ)料中經(jīng)常出現(xiàn)的詞、短語(yǔ)、實(shí)體等更大顆粒度的信息。
目前很多模型的解決方法依然是遵循傳統(tǒng)BERT模型的遮蓋(masking)策略,例如采用多層(詞,短語(yǔ)等)遮蓋策略來(lái)彌補(bǔ)這一缺陷。
然而遮蓋策略依然只是一種弱監(jiān)督學(xué)習(xí)方法,用于學(xué)習(xí)詞邊界信息含有諸多問(wèn)題:
第一,信息的質(zhì)量無(wú)法得到保證,例如BERT-wwm(Cui et al., 2019)的效果依賴于外部中文分詞的質(zhì)量;第二,因?yàn)榛谡谏w方式訓(xùn)練存在一個(gè)基礎(chǔ)難題,即遮蓋過(guò)程在訓(xùn)練中存在,但是在測(cè)試過(guò)程中并不存在,因此直接利用遮蓋方式學(xué)習(xí)的詞和短語(yǔ)信息會(huì)導(dǎo)致訓(xùn)練和測(cè)試過(guò)程的不匹配。因此,如果能夠有效集成大顆粒度文本的信息,并且在訓(xùn)練和測(cè)試過(guò)程中顯式地加入這樣的信息將有助于提升模型的表征能力。
于是,基于BERT的n-gram增強(qiáng)中文文本編碼器ZEN,由此而生。
它可以顯式地結(jié)合潛在詞語(yǔ)的邊界信息來(lái)幫助模型更好地對(duì)文本進(jìn)行表征。ZEN有兩大優(yōu)勢(shì):
簡(jiǎn)單有效。從數(shù)據(jù)上看,與其他模型引入更多數(shù)據(jù)不同,ZEN僅僅基于中文維基百科進(jìn)行訓(xùn)練。
ZEN不需要更多的數(shù)據(jù)集,但是卻顯示出了與其他模型相當(dāng)?shù)男Ч?。從模型上看,引入n-gram編碼器的方式簡(jiǎn)單靈活,不需要其他繁雜的預(yù)訓(xùn)練優(yōu)化方式。
收斂迅速。因?yàn)槟P徒Y(jié)構(gòu)簡(jiǎn)單,實(shí)驗(yàn)表明相比于原生BERT,ZEN模型收斂速度明顯提高,在更短的時(shí)間內(nèi)取得了更好的效果。這對(duì)于資源緊張的研究人員來(lái)講,無(wú)疑是一個(gè)好消息。
另外,在涵蓋詞匯級(jí)和句子級(jí)兩個(gè)層級(jí)的七大經(jīng)典中文語(yǔ)言處理任務(wù)中——包括中文分詞(CWS),詞性標(biāo)注(POS),命名實(shí)體識(shí)別(NER),文本分類(DC),情感分類(SA),語(yǔ)義匹配(SPM),自然語(yǔ)言推理(NLI),ZEN在七個(gè)下游任務(wù)上都帶來(lái)了顯著的提升。同時(shí)本文還在小規(guī)模數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),模擬了只有少量預(yù)訓(xùn)練數(shù)據(jù)語(yǔ)料的場(chǎng)景。
而且ZEN如此效果,也展示了未來(lái)應(yīng)用到其他文本受限領(lǐng)域的潛力,比如醫(yī)療。
同時(shí),該研究中加入大顆粒度文本的方式是一種通用的增強(qiáng)方式,未來(lái)可在中文之外的其他語(yǔ)言上也得到應(yīng)用。
具體模型ZEN的模型架構(gòu)如圖所示:
△ZEN 模型架構(gòu)圖
N-gram 抽取
首先,利用已有的預(yù)訓(xùn)練語(yǔ)料,基于頻率來(lái)抽取n-gram,構(gòu)造n-gram 詞匯表(lexicon)。
其次,模型在將單字的序列作為輸入的同時(shí),也將出現(xiàn)的n-gram作為輸入標(biāo)記。利用已有的詞匯表,對(duì)預(yù)訓(xùn)練數(shù)據(jù)中的每一個(gè)輸入,抽取句中出現(xiàn)的n-gram。
N-gram 編碼
給定一個(gè)輸入句子相應(yīng)的多個(gè)n-gram,本文利用了一個(gè)6層的transformer結(jié)構(gòu)作為n-gram encoder,來(lái)對(duì)輸入的n-gram提取特征進(jìn)行編碼。n-gram的嵌入向量經(jīng)過(guò)n-gram encoder,得到n-gram的表示。
有了n-gram的表示之后,ZEN將字(Character)的表示與每個(gè)字對(duì)應(yīng)的n-gram向量表示結(jié)合起來(lái),在輸出端相加,并一起被輸入至后續(xù)結(jié)構(gòu)之中。
結(jié)合n-gram和字編碼的預(yù)訓(xùn)練
如圖1所示,輸入的帶n-gram標(biāo)記的句子首先會(huì)經(jīng)過(guò)嵌入層 (Embedding Layer)。在這一層里,每個(gè)輸入的單字和n-gram會(huì)被替換成嵌入矩陣中對(duì)應(yīng)位置的向量。
與此同時(shí),每個(gè)向量會(huì)被加上一個(gè)Positional Encoding,用來(lái)表示其在句子之中出現(xiàn)的位置。
之后,字的嵌入向量會(huì)被輸入Character Encoder,進(jìn)行計(jì)算并得到每個(gè)字在這一層的向量表達(dá)。
與此同時(shí),n-gram的嵌入向量會(huì)被輸入n-gram encoder。兩部分輸出會(huì)被同時(shí)輸入attention encoder。
模型的最末端會(huì)被接入全連接層和Softmax層結(jié)構(gòu)來(lái)幫助完成預(yù)訓(xùn)練。
實(shí)驗(yàn)結(jié)果
如上圖,ZEN的總體性能及其與現(xiàn)有模型在七項(xiàng)NLP任務(wù)上的比較情況。
文章對(duì)BERT和ZEN兩個(gè)模型分別實(shí)現(xiàn)了兩組設(shè)置:R(隨機(jī)初始化) 和 P(基于谷歌開(kāi)源的BERT中文模型進(jìn)行初始化)。
實(shí)驗(yàn)結(jié)果表明,在兩組設(shè)置上,ZEN都取得了比BERT更好的性能。
同時(shí),ZEN與現(xiàn)有的其他模型在七個(gè)任務(wù)上進(jìn)行了比較,ZEN取得了包括CWS、POS、NER、DC、SPM在內(nèi)的五個(gè)任務(wù)上最好的結(jié)果。
在僅僅利用中文維基百科,沒(méi)有其他語(yǔ)料的前提下,在情感分類和自然語(yǔ)言推理任務(wù)上也達(dá)到了相當(dāng)不錯(cuò)的表現(xiàn)。
分析討論小數(shù)據(jù)集潛力
除了以上實(shí)驗(yàn),該研究還探究了模型在小數(shù)據(jù)集上的潛力。
考慮到目前的預(yù)訓(xùn)練模型使用了大型的訓(xùn)練語(yǔ)料,但是對(duì)于很多特殊的領(lǐng)域,大型數(shù)據(jù)集很難獲取。
因此本文抽出1/10的中文維基百科語(yǔ)料,來(lái)模擬了一種語(yǔ)料有限的場(chǎng)景,目的是探究ZEN在小數(shù)據(jù)集上的潛力。
實(shí)驗(yàn)結(jié)果如下圖所示,在全部七個(gè)任務(wù)上,ZEN都明顯優(yōu)于BERT。這表明ZEN在數(shù)據(jù)有限的場(chǎng)景下,具有更大的潛力。
△BERT和ZEN利用小語(yǔ)料訓(xùn)練, 在七項(xiàng)NLP任務(wù)上的表現(xiàn)
收斂速度
中文分詞和情感分類兩個(gè)任務(wù)被用于該分析的探測(cè)任務(wù),來(lái)探究BERT與ZEN的收斂速度造成在這些任務(wù)上性能的差異。
兩個(gè)任務(wù)上的實(shí)驗(yàn)都表明,ZEN可以在更少的迭代次數(shù)情況下達(dá)到更高的性能。
如上圖,BERT與ZEN在中文分詞任務(wù)(左圖)和情感分類任務(wù)(右圖)收斂速度的比較情況。
熱圖分析
通過(guò)熱度圖,還通過(guò)實(shí)驗(yàn)分析了兩個(gè)案例,將n-gram encoder的注意力機(jī)制可視化出來(lái)。
通過(guò)熱度圖可以清晰地看到,注意力會(huì)更多的關(guān)注在有效的n-gram。比如“波士頓”的權(quán)重明顯高于“士頓”。對(duì)于有劃分歧義的句子,n-gram encoder可以正確的關(guān)注到“速度”而不是“高速”。
更加有趣的是,在不同層次的encoder關(guān)注的n-gram也不同。更高層的encoder對(duì)于“提高速度”和“波士頓咨詢”這樣更長(zhǎng)的有效n-gram分配了更多的權(quán)重。
這表明,結(jié)合n-gram的方法的預(yù)訓(xùn)練,不僅僅提供給文本編碼器更強(qiáng)大的文本表征能力,甚至還間接產(chǎn)生了一種文本分析的有效方法。這個(gè)案例分析暗示我們,或許將來(lái)可以用類似地方法提供無(wú)指導(dǎo)的文本抽取和挖掘
△案例分析-熱度圖
結(jié)語(yǔ)所以通過(guò)研究解析,也可以看出,ZEN對(duì)高概率成詞的n-gram添加了獨(dú)有的編碼和向量表示,此模型可以提供更強(qiáng)的文本的編碼能力和理解能力。
在多個(gè)中文自然語(yǔ)言任務(wù)之上都有比基于單字的語(yǔ)言模型有更好的表現(xiàn)效果。
與之前的中文預(yù)訓(xùn)練模型相比,ZEN的優(yōu)勢(shì)在于提出的改進(jìn)策略簡(jiǎn)單有效并且收斂速度快,同時(shí)在有限語(yǔ)料的基礎(chǔ)上可以達(dá)到更大規(guī)模語(yǔ)料的訓(xùn)練效果。
相比于大多數(shù)已有研究對(duì)預(yù)訓(xùn)練策略的改進(jìn),ZEN是為數(shù)不多的對(duì)預(yù)訓(xùn)練模型架構(gòu)進(jìn)行了改進(jìn)的工作。
這也帶來(lái)更進(jìn)一步的啟示,可以深度探索已有模型的內(nèi)部機(jī)制,進(jìn)一步分析文本及其表征模型中蘊(yùn)含的Zen——禪意。
作者最后,簡(jiǎn)單介紹下ZEN模型背后的團(tuán)隊(duì)。
這是創(chuàng)新工場(chǎng)AI工程院和香港科技大學(xué)的聯(lián)合研究。
或許對(duì)于VC身份的創(chuàng)新工場(chǎng)你已熟悉,但如此深入開(kāi)展科研和前沿技術(shù)開(kāi)源的創(chuàng)新工場(chǎng)旗下組織,你可能還不那么熟悉。
創(chuàng)新工場(chǎng)AI工程院成立于2016年9月,以“科研+工程實(shí)驗(yàn)室”模式,規(guī)劃研發(fā)方向發(fā)展。
而且這也不是創(chuàng)新工場(chǎng)AI工程院首次成果展示,光2019年,其聯(lián)合國(guó)內(nèi)外科研高校,就有過(guò)8篇頂會(huì)論文研究披露。
包含NeurIPS 2019、ICCV、IROS、EMNLP、IEEE TVCG等在內(nèi)的頂會(huì)和頂級(jí)期刊,均有創(chuàng)新工場(chǎng)AI工程院的身影。
此外值得一體的是,今年創(chuàng)新工場(chǎng)AI工程院還有一篇區(qū)塊鏈技術(shù)論文入選計(jì)算機(jī)網(wǎng)絡(luò)頂級(jí)學(xué)術(shù)會(huì)議NSDI,這是國(guó)際主流學(xué)術(shù)界首次認(rèn)可區(qū)塊鏈擴(kuò)容方案的相關(guān)研究,是該會(huì)議今年錄取的唯一一篇與區(qū)塊鏈相關(guān)的論文。
創(chuàng)新工場(chǎng)也積極參與了國(guó)際相關(guān)的技術(shù)標(biāo)準(zhǔn)制定工作。例如,今年8月,第28屆國(guó)際人工智能聯(lián)合會(huì)議(IJCAI)在中國(guó)澳門(mén)隆重舉辦,期間召開(kāi)了IEEE P3652.1(聯(lián)邦學(xué)習(xí)基礎(chǔ)架構(gòu)與應(yīng)用)標(biāo)準(zhǔn)工作組第三次會(huì)議。
領(lǐng)軍人才方面,香港科技大學(xué)教授、前騰訊AI Lab主任張潼目前是創(chuàng)新工場(chǎng)科研合伙人、創(chuàng)新工場(chǎng)大灣區(qū)AI研究院名譽(yù)院長(zhǎng)。
香港科技大學(xué)也是創(chuàng)新工場(chǎng)的重要合作機(jī)構(gòu)之一,今年3月20日,香港科技大學(xué)和創(chuàng)新工場(chǎng)還聯(lián)合宣布成立計(jì)算機(jī)感知與智能控制聯(lián)合實(shí)驗(yàn)室(Computer Perception and Intelligent Control Lab)。
按照官方披露,目前創(chuàng)新工場(chǎng)AI工程院設(shè)有醫(yī)療AI、機(jī)器人、機(jī)器學(xué)習(xí)理論、計(jì)算金融、計(jì)算機(jī)感知等面向前沿科技與應(yīng)用方向的研發(fā)實(shí)驗(yàn)室,還先后設(shè)立了創(chuàng)新工場(chǎng)南京國(guó)際人工智能研究院、創(chuàng)新工場(chǎng)大灣區(qū)人工智能研究院。
目標(biāo)是培養(yǎng)人工智能高端科研與工程人才,研發(fā)以機(jī)器學(xué)習(xí)為核心的前沿人工智能技術(shù),并同各行業(yè)領(lǐng)域相結(jié)合,為行業(yè)場(chǎng)景提供一流的產(chǎn)品和解決方案。
所以怎么說(shuō)呢?在新技術(shù)周期時(shí)代,創(chuàng)新工場(chǎng)可能是全世界最硬核、最愿意為技術(shù)研發(fā)投入的投資機(jī)構(gòu)了。
此次開(kāi)源的中文預(yù)訓(xùn)練模型ZEN,就是一個(gè)更好的開(kāi)始。
對(duì)于學(xué)術(shù)科研領(lǐng)域來(lái)說(shuō),有錢(qián)有心的投資機(jī)構(gòu)們?cè)敢鈪⑴c推動(dòng)這樣的技術(shù)進(jìn)步,再好不過(guò)啦。
傳送門(mén)ZEN開(kāi)源地址:
https://github.com/sinovation/zen
論文地址:
http://arxiv.org/abs/1911.00720
— 完 —
量子位 QbitAI · 頭條號(hào)簽約
關(guān)注我們,第一時(shí)間獲知前沿科技動(dòng)態(tài)
以上就是關(guān)于pos機(jī)中文,中文預(yù)訓(xùn)練模型ZEN開(kāi)源的知識(shí),后面我們會(huì)繼續(xù)為大家整理關(guān)于pos機(jī)中文的知識(shí),希望能夠幫助到大家!
