中文詞語(yǔ)分析一體化系統(tǒng).ppt

上傳人：xt****7

文檔編號(hào)：2515128

上傳時(shí)間：2019-11-27

格式：PPT

頁(yè)數(shù)：30

大小：371.05KB

《中文詞語(yǔ)分析一體化系統(tǒng).ppt》由會(huì)員分享，可在線閱讀，更多相關(guān)《中文詞語(yǔ)分析一體化系統(tǒng).ppt（30頁(yè)珍藏版）》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

,張華平劉群 zhanghp@ 中科院計(jì)算技術(shù)研究所 2002-5-28,中文詞語(yǔ)一體化分析,綱要,問(wèn)題背景與難點(diǎn)分析主要研究方法與相關(guān)系統(tǒng) 我們的研究思路—基于多層HMM的一體化方法基于N-最短路徑的詞語(yǔ)粗分基于角色標(biāo)注的未登錄詞識(shí)別計(jì)算所中文詞語(yǔ)一體化分析系統(tǒng)ICTCLAS 結(jié)論,問(wèn)題背景與難點(diǎn)分析,問(wèn)題背景,漢語(yǔ)的書(shū)面語(yǔ)是按句分開(kāi)的,詞與詞之間沒(méi)有明確的分隔標(biāo)記。詞是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分。中文信息處理只要涉及句法、語(yǔ)義(如檢索、翻譯、文摘、校對(duì)等應(yīng)用),就需要以詞為基本單位。句法分析、語(yǔ)句理解、自動(dòng)文摘、自動(dòng)分類和機(jī)器翻譯等，更是少不了詞的詳細(xì)信息。,問(wèn)題背景與難點(diǎn)分析 II,分詞的必要性,物,理,學(xué),physics,products,…,price,image,body,theory,barber,science,understand,reason,school,study,credit,student,subject,物理學(xué),physics,physicist,,,,,,,,,…,…,,,,,,,evidence,,,,,,,,,6 5 5 = 150 : 2,,問(wèn)題背景與難點(diǎn)分析 III,中文詞語(yǔ)分析的主要難點(diǎn) 歧義交叉歧義(86%): 結(jié)合成分子時(shí) 組合歧義(14%): 這個(gè)人手上有痣；我們?nèi)比耸?全局歧義與局部歧義: 乒乓球拍/賣/完了；乒乓球/拍賣/完了；我很/難過(guò),問(wèn)題背景與難點(diǎn)分析 IV,未登錄詞問(wèn)題干擾作用克林頓對(duì)內(nèi)塔尼亞胡說(shuō) 龔學(xué)平等領(lǐng)導(dǎo) 最終識(shí)別多樣性復(fù)雜性上下文干擾,主要研究方法與相關(guān)系統(tǒng),當(dāng)前主要的研究方法基于規(guī)則的方法最大匹配法（Maximum Matching）正向、逆向、雙向最優(yōu)路徑（+詞頻選擇）法（最少分詞法）基于統(tǒng)計(jì)的方法 (N元語(yǔ)法，HMM) 基于規(guī)則和基于統(tǒng)計(jì)相結(jié)合其他的一些方法 (壓縮，自監(jiān)督，基于轉(zhuǎn)移的錯(cuò)誤驅(qū)動(dòng)方法等),主要研究方法與相關(guān)系統(tǒng)II,當(dāng)前主要的中文詞語(yǔ)分析系統(tǒng) 哈工大統(tǒng)計(jì)分詞系統(tǒng) 自動(dòng)化所三元統(tǒng)計(jì)模型清華大學(xué)SEGTAG系統(tǒng) 詞典中的每一個(gè)重要的詞都加上了切分標(biāo)志無(wú)條件切出qk類詞；完全切分ck類詞；其他無(wú)交叉歧義的切之，否則全切分。 “動(dòng)態(tài)規(guī)劃“和“全切分搜索+葉子評(píng)價(jià)“,主要研究方法與相關(guān)系統(tǒng)III,Microsoft Research多國(guó)語(yǔ)言處理平臺(tái)NLPWin中的中文詞語(yǔ)分析詞系統(tǒng) 雙向的Chart Parsing，使用了語(yǔ)法規(guī)則并以概率模型作導(dǎo)向切詞-句法分析一體化北大計(jì)算語(yǔ)言所分詞和詞類標(biāo)注系統(tǒng) 分詞和詞類標(biāo)注結(jié)合起來(lái) 基于規(guī)則的標(biāo)注排歧與基于語(yǔ)料庫(kù)統(tǒng)計(jì)模型的排歧結(jié)合處理過(guò)程包括了自動(dòng)切分和初始詞性標(biāo)記、切分歧義字段識(shí)別、組詞和標(biāo)注預(yù)處理、詞性標(biāo)記排歧、切分和詞性標(biāo)注后處理,主要研究方法與相關(guān)系統(tǒng)IV,現(xiàn)有方法的一些潛在不足(待探討)：規(guī)則與統(tǒng)計(jì)的結(jié)合，更大意義上是一種組合，兩種處理出現(xiàn)在系統(tǒng)中相對(duì)獨(dú)立的兩個(gè)不同階段。排歧、識(shí)別未登錄詞更多的是利用規(guī)則，難以量化。即使量化，也很難和普通詞實(shí)現(xiàn)真正量值上的比較。歧義字段、未登錄詞作為特殊情況處理，后期處理中沒(méi)有與普通詞統(tǒng)一。沒(méi)有相對(duì)統(tǒng)一的處理模型和評(píng)估體系。最終導(dǎo)致：準(zhǔn)確率、召回率在開(kāi)放測(cè)試的條件下并不像宣稱的那樣理想，尤其是在未登錄詞、歧義字段存在的情況里。,我們的研究思路 —基于多層HMM的一體化方法,目標(biāo)：分詞、詞性標(biāo)注的一體化；未登錄詞與普通詞處理的一體化；評(píng)估體系一體化。基本思想：采取HMM模型，建立切分詞圖。詞語(yǔ)粗分階段，先得出N個(gè)概率最大的切分結(jié)果。然后，利用角色標(biāo)注方法識(shí)別未登錄詞，并計(jì)算其概率，將未登錄詞加入到切分詞圖中，之后視它為普通詞處理，最終進(jìn)行動(dòng)態(tài)規(guī)劃優(yōu)選出N個(gè)最大概率切分標(biāo)注結(jié)果。,基于多層HMM的一體化方法II,利用噪聲-信道模型,建立目標(biāo)評(píng)估函數(shù),其中 C:原始字串；W:切分的詞串；T:詞性標(biāo)注序列 ∵ P(C|W)=1→P(CW)=P(W) P((W,T)|C)=P(T|CW)P(W|C)=P(T|W)P(W|C) =P(T)P(W|T)/P(W) ? P(W)/P(C) = P(T)P(W|T)/P(C) (字串C出現(xiàn)的概率P(C)為一常數(shù),不影響結(jié)果，可以忽略),(W,T)*= …….……………………(0),基于多層HMM的一體化方法III,利用隱馬模型展開(kāi)P(T)P(W|T),并引入共現(xiàn)概率 P((W,T)|C) =ΠP(ti|ti-1)P(wi|ti).…………………………….(1) P*(W,T)=lnP(W,T) =ln Π P(wi|ti) =Σ ln P(ti|ti-1) + Σ ln P(wi|ti) …………………….(2) ∴ 評(píng)價(jià)函數(shù)或者決策函數(shù)如下： (W,T)*= [Σ ln P(ti|ti-1) + Σ ln P(wi|ti)],,基于多層HMM的一體化方法IV,一體化需要解決的主要問(wèn)題排歧問(wèn)題未登錄詞的概率問(wèn)題P(wi|ti) P(張華平|nr)? P(奧斯特羅夫斯基|nr)? P(大石頭村|ns)?,基于N-最短路徑的詞語(yǔ)粗分,基本思想根據(jù)詞典，建立字串詞語(yǔ)切分有向無(wú)環(huán)圖。每個(gè)詞對(duì)應(yīng)圖中的一條有向邊，并賦給相應(yīng)的邊長(zhǎng)（權(quán)值）。然后針對(duì)該切分圖，在起點(diǎn)到終點(diǎn)的所有路徑中，求出長(zhǎng)度值按嚴(yán)格升序排列（任何兩個(gè)不同位置上的值一定不等，下同）依次為第1，第2，…，第i，…，第N的路徑集合作為相應(yīng)的粗分結(jié)果集。如果兩條或兩條以上路徑長(zhǎng)度相等，那么他們的長(zhǎng)度并列第i，都要列入粗分結(jié)果集，而且不影響其他路徑的排列序號(hào)，最后的粗分結(jié)果集合大小大于或等于N。,基于N-最短路徑的詞語(yǔ)粗分II,出發(fā)點(diǎn) 實(shí)際上是最短路徑方法和全切分的有機(jī)結(jié)合。一方面避免了最短路徑分詞方法大量舍棄正確結(jié)果的可能，另一方面又大大解決了全切分搜索空間過(guò)大，運(yùn)行效率差的弊端。 “求同存異，保留爭(zhēng)端”。即：解決在切詞階段能解決的大部分問(wèn)題；而對(duì)歧義、未登錄詞等問(wèn)題盡量保留下來(lái)，留給后續(xù)過(guò)程處理。統(tǒng)計(jì)與非統(tǒng)計(jì)方法,基于N-最短路徑的詞語(yǔ)粗分III,測(cè)試結(jié)果說(shuō)明：統(tǒng)計(jì)N-最短路徑句子總數(shù)為： 185,192,基于N-最短路徑的詞語(yǔ)粗分IV -對(duì)比測(cè)試實(shí)驗(yàn)[召回率/結(jié)果數(shù)],基于角色標(biāo)注的未登錄詞識(shí)別,現(xiàn)有未登錄詞識(shí)別方法的不足大部分只針對(duì)切分碎片進(jìn)行識(shí)別。 “單點(diǎn)激活”：必須遇到具明顯特征的上下文或者未登錄詞用字時(shí)，才會(huì)觸發(fā)未登錄詞的識(shí)別過(guò)程。對(duì)識(shí)別出來(lái)的很難給出實(shí)際意義上的概率值歧義排除乏力呂梁的特點(diǎn)是貧困人口占全省的１／３左右。格威特等高水準(zhǔn)的競(jìng)爭(zhēng)對(duì)手也是促使李寧牌不斷創(chuàng)新突破的一個(gè)誘因周鵬和同學(xué),未登錄詞識(shí)別II,基于角色的未登錄詞識(shí)別方法采用Viterbi算法，確定句子概率最大的角色序列，在角色序列的基礎(chǔ)上，進(jìn)行模式匹配。未登錄詞的角色內(nèi)部組成：首部、中部、尾部、內(nèi)部成詞上下文上下文與內(nèi)部組成交叉成詞句子中其他成分,未登錄詞識(shí)別 III,漢族人名的角色表（示例，有省略）,未登錄詞識(shí)別 IV,具體實(shí)現(xiàn) R#≈ 角色標(biāo)注過(guò)程類似于詞性標(biāo)注，也是一層HMM 示例：館內(nèi)陳列周恩來(lái)和鄧穎超生前使用過(guò)的物品館/內(nèi)/陳列/周/恩/來(lái)/和/鄧/穎/超生/前/使用/過(guò)/的/物品/ 館/A內(nèi)/A 陳列/K周/B恩/C來(lái)/D和/M鄧/B穎/C超生/V前/A使用/A過(guò)/A的/A物品/A V需要拆分，最終匹配人名模板，得到“周恩來(lái)”“鄧穎超”,未登錄詞識(shí)別 V,未登錄詞概率的計(jì)算 P(wi|ti) wi= c1 c2 …cn 角色序列 Ri= r1 r2 …rn P(wi|ti)=P(wi|Ri) P(ti|Ri) = P(ti|Ri) P(ti|Ri)可以由語(yǔ)料統(tǒng)計(jì)得到；例如單姓+單名生成姓名的概率等于單姓單名除以總的人名數(shù)目；其結(jié)果大約為12%,未登錄詞識(shí)別 VI,漢族人名測(cè)試結(jié)果,計(jì)算所中文詞語(yǔ)一體化分析系統(tǒng)ICTCLAS,Institute of Computing Tech., Chinese Lexical Analysis System. (ICTCLAS) 設(shè)計(jì)的基本原則一體化結(jié)果不唯一 “當(dāng)斷則斷，不留后患” “求同存異，保留爭(zhēng)端”,ICTCLAS—系統(tǒng)處理流程,,,,,,,,,,,,,,,,,,,,,,ICTCLAS—功能模塊,ICTCLAS,,,,,N-最短路徑切分（概率統(tǒng)計(jì)）,未登錄詞識(shí)別,隱馬標(biāo)注,,,,,人名,地名,譯名,,其他,,,結(jié)果生成,,,,重疊詞,規(guī)范,,其他,,ICTCLAS—初評(píng)結(jié)果,評(píng)測(cè)語(yǔ)料庫(kù)為《人民日?qǐng)?bào)》1998年1月1日-1月15日（12000行）的新聞?wù)Z料總共詞數(shù)：601646 切分正確率（按詞統(tǒng)計(jì)）98.38%；按句子統(tǒng)計(jì)93.15% 一級(jí)標(biāo)注正確率（按詞統(tǒng)計(jì)）：97.16%；按句子統(tǒng)計(jì)78.44%,結(jié)論,漢語(yǔ)詞語(yǔ)分析是中文信息處理的基礎(chǔ)，無(wú)論是理論上，還是實(shí)際應(yīng)用上都極其重要。其難點(diǎn)主要在于排歧和未登錄詞的識(shí)別。目前常用的研究方法及相關(guān)系統(tǒng)，存在著一些不足：不統(tǒng)一；量化困難，缺乏可比性。 N-最短路徑方法進(jìn)行詞語(yǔ)粗分，可以盡可能的解決詞語(yǔ)切分問(wèn)題，同時(shí)將未登錄詞與歧義問(wèn)題保留到下一過(guò)程。基于角色標(biāo)注的未登錄詞識(shí)別方法，可以克服觸發(fā)與候選字段選取的盲目性，并能計(jì)算出候選詞的概率。最終效果能滿足實(shí)際要求。基于HMM的一體化方法能夠?qū)⑽吹卿浽~、歧義排除和普通詞的處理統(tǒng)一起來(lái)，我們?cè)贗CTCLAS中進(jìn)行了實(shí)際的應(yīng)用。,敬請(qǐng)指導(dǎo)！謝謝！,

下載提示(請(qǐng)認(rèn)真閱讀)

1.請(qǐng)仔細(xì)閱讀文檔，確保文檔完整性，對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來(lái)的問(wèn)題本站不予受理。
2.下載的文檔，不會(huì)出現(xiàn)我們的網(wǎng)址水印。
3、該文檔所得收入（下載+內(nèi)容+預(yù)覽）歸上傳者、原創(chuàng)作者；如果您是本文檔原作者，請(qǐng)點(diǎn)此認(rèn)領(lǐng)！既往收益都?xì)w您。

同意并開(kāi)始全文預(yù)覽

文檔包含非法信息？點(diǎn)此舉報(bào)后獲取現(xiàn)金獎(jiǎng)勵(lì)！

文檔加載中……請(qǐng)稍候！
如果長(zhǎng)時(shí)間未打開(kāi)，您也可以點(diǎn)擊刷新試試。

下載文檔到電腦，查找使用更方便

9.9 積分

還剩頁(yè)未讀，繼續(xù)閱讀

舉報(bào)

版權(quán)申訴 word格式文檔無(wú)特別注明外均可編輯修改；預(yù)覽文檔經(jīng)過(guò)壓縮，下載后原文更清晰！ 立即下載

配套講稿：: 如PPT文件的首頁(yè)顯示word圖標(biāo)，表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開(kāi)word文檔。
特殊限制：: 部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片，僅作為作品整體效果示例展示，禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
關(guān) 鍵詞：: 中文詞語(yǔ) 分析一體化系統(tǒng)

溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

裝配圖網(wǎng)所有資源均是用戶自行上傳分享，僅供網(wǎng)友學(xué)習(xí)交流，未經(jīng)上傳用戶書(shū)面授權(quán)，請(qǐng)勿作他用。

關(guān)于本文

本文標(biāo)題：中文詞語(yǔ)分析一體化系統(tǒng).ppt
鏈接地址：http://kudomayuko.com/p-2515128.html

相關(guān)資源更多

正為您匹配相似的精品文檔

相關(guān)搜索

中文 詞語(yǔ) 分析 一體化 系統(tǒng)

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號(hào):蜀ICP備2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺(tái)，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請(qǐng)立即通知裝配圖網(wǎng)，我們立即給予刪除！

中文詞語(yǔ)分析一體化系統(tǒng).ppt

最新文檔