漢語分詞在中文信息處理軟件中應(yīng)用.doc
約14頁DOC格式手機(jī)打開展開
漢語分詞在中文信息處理軟件中應(yīng)用,1.1萬字 14頁摘要 漢語言詞語切分(以下簡(jiǎn)稱分詞)是漢語信息處理系統(tǒng)中重要的一個(gè)環(huán)節(jié),它是將連續(xù)的缺乏詞的分隔標(biāo)志的生語料,自動(dòng)切分出以詞為單位的熟語料,也就是將字串分割成詞串。本文闡述了漢語言詞語分詞技術(shù)面臨的關(guān)鍵問題以及分詞常用的基本算法,通過對(duì)分詞技術(shù)在漢語信息處理軟件中的應(yīng)用...
內(nèi)容介紹
此文檔由會(huì)員 xiaowei 發(fā)布
漢語分詞在中文信息處理軟件中應(yīng)用
1.1萬字 14頁
摘要
漢語言詞語切分(以下簡(jiǎn)稱分詞)是漢語信息處理系統(tǒng)中重要的一個(gè)環(huán)節(jié),它是將連續(xù)的缺乏詞的分隔標(biāo)志的生語料,自動(dòng)切分出以詞為單位的熟語料,也就是將字串分割成詞串。本文闡述了漢語言詞語分詞技術(shù)面臨的關(guān)鍵問題以及分詞常用的基本算法,通過對(duì)分詞技術(shù)在漢語信息處理軟件中的應(yīng)用舉例,說明中文處理功能都要建立在對(duì)漢語文本的分詞處理這一基本功能之上。因而,漢語分詞是中文信息處理的基礎(chǔ),在中文信息處理系統(tǒng)中具有廣泛的應(yīng)用前景。
關(guān)鍵詞 分詞、詞表
引言
中文信息處理是我國重要的計(jì)算機(jī)應(yīng)用技術(shù),在計(jì)算機(jī)產(chǎn)業(yè)中,是我國的專長(zhǎng)。國務(wù)院制定的國家中長(zhǎng)期科技發(fā)展綱領(lǐng)中明確提出“中文信息處理技術(shù)是高新技術(shù)發(fā)展的重點(diǎn)”。據(jù)統(tǒng)計(jì),在信息領(lǐng)域中80%以上的信息是以語言文字為載體的。這些語言信息的自動(dòng)輸入和輸出,文本的??昂头诸?,信息的提取和檢索以及語言翻譯等語言工程,都是國民經(jīng)濟(jì)和國防信息化建設(shè)的重要基礎(chǔ)。中文信息涵蓋了字、詞、短語、句子、篇章等多層面的信息加工處理任務(wù)。由于詞是最小能獨(dú)立運(yùn)用的語言單位1,因此,當(dāng)前漢語信息處理以由“字處理”轉(zhuǎn)移到“詞處理”由于中文文本是按句子連寫的,詞間無間隙,因而在中文文本處理中首先遇到的是詞的切分問題。按句連寫轉(zhuǎn)換為按詞連寫,詞的正確切分是進(jìn)行中文文本信息處理的必要條件。正如陳力為院士所說:“漢語書面語的分詞技術(shù)已經(jīng)悄悄地形成一門新興的富有挑戰(zhàn)性的學(xué)問?!?br>
參考文獻(xiàn)
[1]《漢語信息處理詞匯01部分;基本術(shù)語(GB12200.1-90)》,中國標(biāo)準(zhǔn)出版社,1991
[2] 朱德熙《語法講義》,商務(wù)印書館,1982
1.1萬字 14頁
摘要
漢語言詞語切分(以下簡(jiǎn)稱分詞)是漢語信息處理系統(tǒng)中重要的一個(gè)環(huán)節(jié),它是將連續(xù)的缺乏詞的分隔標(biāo)志的生語料,自動(dòng)切分出以詞為單位的熟語料,也就是將字串分割成詞串。本文闡述了漢語言詞語分詞技術(shù)面臨的關(guān)鍵問題以及分詞常用的基本算法,通過對(duì)分詞技術(shù)在漢語信息處理軟件中的應(yīng)用舉例,說明中文處理功能都要建立在對(duì)漢語文本的分詞處理這一基本功能之上。因而,漢語分詞是中文信息處理的基礎(chǔ),在中文信息處理系統(tǒng)中具有廣泛的應(yīng)用前景。
關(guān)鍵詞 分詞、詞表
引言
中文信息處理是我國重要的計(jì)算機(jī)應(yīng)用技術(shù),在計(jì)算機(jī)產(chǎn)業(yè)中,是我國的專長(zhǎng)。國務(wù)院制定的國家中長(zhǎng)期科技發(fā)展綱領(lǐng)中明確提出“中文信息處理技術(shù)是高新技術(shù)發(fā)展的重點(diǎn)”。據(jù)統(tǒng)計(jì),在信息領(lǐng)域中80%以上的信息是以語言文字為載體的。這些語言信息的自動(dòng)輸入和輸出,文本的??昂头诸?,信息的提取和檢索以及語言翻譯等語言工程,都是國民經(jīng)濟(jì)和國防信息化建設(shè)的重要基礎(chǔ)。中文信息涵蓋了字、詞、短語、句子、篇章等多層面的信息加工處理任務(wù)。由于詞是最小能獨(dú)立運(yùn)用的語言單位1,因此,當(dāng)前漢語信息處理以由“字處理”轉(zhuǎn)移到“詞處理”由于中文文本是按句子連寫的,詞間無間隙,因而在中文文本處理中首先遇到的是詞的切分問題。按句連寫轉(zhuǎn)換為按詞連寫,詞的正確切分是進(jìn)行中文文本信息處理的必要條件。正如陳力為院士所說:“漢語書面語的分詞技術(shù)已經(jīng)悄悄地形成一門新興的富有挑戰(zhàn)性的學(xué)問?!?br>
參考文獻(xiàn)
[1]《漢語信息處理詞匯01部分;基本術(shù)語(GB12200.1-90)》,中國標(biāo)準(zhǔn)出版社,1991
[2] 朱德熙《語法講義》,商務(wù)印書館,1982