国产精品婷婷久久久久久,国产精品美女久久久浪潮av,草草国产,人妻精品久久无码专区精东影业

漢語(yǔ)分詞在中文信息處理軟件中應(yīng)用.doc

約14頁(yè)DOC格式手機(jī)打開(kāi)展開(kāi)

漢語(yǔ)分詞在中文信息處理軟件中應(yīng)用,1.1萬(wàn)字 14頁(yè)摘要 漢語(yǔ)言詞語(yǔ)切分(以下簡(jiǎn)稱分詞)是漢語(yǔ)信息處理系統(tǒng)中重要的一個(gè)環(huán)節(jié),它是將連續(xù)的缺乏詞的分隔標(biāo)志的生語(yǔ)料,自動(dòng)切分出以詞為單位的熟語(yǔ)料,也就是將字串分割成詞串。本文闡述了漢語(yǔ)言詞語(yǔ)分詞技術(shù)面臨的關(guān)鍵問(wèn)題以及分詞常用的基本算法,通過(guò)對(duì)分詞技術(shù)在漢語(yǔ)信息處理軟件中的應(yīng)用...
編號(hào):10-31659大小:195.50K
分類: 論文>計(jì)算機(jī)論文

內(nèi)容介紹

此文檔由會(huì)員 xiaowei 發(fā)布

漢語(yǔ)分詞在中文信息處理軟件中應(yīng)用
1.1萬(wàn)字 14頁(yè)



摘要
漢語(yǔ)言詞語(yǔ)切分(以下簡(jiǎn)稱分詞)是漢語(yǔ)信息處理系統(tǒng)中重要的一個(gè)環(huán)節(jié),它是將連續(xù)的缺乏詞的分隔標(biāo)志的生語(yǔ)料,自動(dòng)切分出以詞為單位的熟語(yǔ)料,也就是將字串分割成詞串。本文闡述了漢語(yǔ)言詞語(yǔ)分詞技術(shù)面臨的關(guān)鍵問(wèn)題以及分詞常用的基本算法,通過(guò)對(duì)分詞技術(shù)在漢語(yǔ)信息處理軟件中的應(yīng)用舉例,說(shuō)明中文處理功能都要建立在對(duì)漢語(yǔ)文本的分詞處理這一基本功能之上。因而,漢語(yǔ)分詞是中文信息處理的基礎(chǔ),在中文信息處理系統(tǒng)中具有廣泛的應(yīng)用前景。
關(guān)鍵詞 分詞、詞表

引言
中文信息處理是我國(guó)重要的計(jì)算機(jī)應(yīng)用技術(shù),在計(jì)算機(jī)產(chǎn)業(yè)中,是我國(guó)的專長(zhǎng)。國(guó)務(wù)院制定的國(guó)家中長(zhǎng)期科技發(fā)展綱領(lǐng)中明確提出“中文信息處理技術(shù)是高新技術(shù)發(fā)展的重點(diǎn)”。據(jù)統(tǒng)計(jì),在信息領(lǐng)域中80%以上的信息是以語(yǔ)言文字為載體的。這些語(yǔ)言信息的自動(dòng)輸入和輸出,文本的??昂头诸?,信息的提取和檢索以及語(yǔ)言翻譯等語(yǔ)言工程,都是國(guó)民經(jīng)濟(jì)和國(guó)防信息化建設(shè)的重要基礎(chǔ)。中文信息涵蓋了字、詞、短語(yǔ)、句子、篇章等多層面的信息加工處理任務(wù)。由于詞是最小能獨(dú)立運(yùn)用的語(yǔ)言單位1,因此,當(dāng)前漢語(yǔ)信息處理以由“字處理”轉(zhuǎn)移到“詞處理”由于中文文本是按句子連寫的,詞間無(wú)間隙,因而在中文文本處理中首先遇到的是詞的切分問(wèn)題。按句連寫轉(zhuǎn)換為按詞連寫,詞的正確切分是進(jìn)行中文文本信息處理的必要條件。正如陳力為院士所說(shuō):“漢語(yǔ)書(shū)面語(yǔ)的分詞技術(shù)已經(jīng)悄悄地形成一門新興的富有挑戰(zhàn)性的學(xué)問(wèn)。”



參考文獻(xiàn)
[1]《漢語(yǔ)信息處理詞匯01部分;基本術(shù)語(yǔ)(GB12200.1-90)》,中國(guó)標(biāo)準(zhǔn)出版社,1991
[2] 朱德熙《語(yǔ)法講義》,商務(wù)印書(shū)館,1982