中文校對系統(tǒng)的詞語切分處理.doc
約15頁DOC格式手機打開展開
中文校對系統(tǒng)的詞語切分處理,1.1萬字15頁摘要中文信息處理技術(shù)是高新技術(shù)發(fā)展的重點,中文校對系統(tǒng)是中文信息處理的重要的一個分支,詞語切分是中文校對系統(tǒng)的基礎(chǔ)。本文簡要介紹了中文自動分詞的相關(guān)理論,并就中文自動校對系統(tǒng)中的詞語切分介紹了一般性詞表分詞法和hash詞表分詞法。關(guān)鍵詞:中文信息處理、中文校對系統(tǒng)、詞語切分、一...
![](http://img.queshao.com/images/pcgzh.gif)
![](http://preview.queshao.com/tobuy/31657.gif)
內(nèi)容介紹
此文檔由會員 200306 發(fā)布
中文校對系統(tǒng)的詞語切分處理
1.1萬字 15頁
摘要
中文信息處理技術(shù)是高新技術(shù)發(fā)展的重點,中文校對系統(tǒng)是中文信息處理的重要的一個分支,詞語切分是中文校對系統(tǒng)的基礎(chǔ)。本文簡要介紹了中文自動分詞的相關(guān)理論,并就中文自動校對系統(tǒng)中的詞語切分介紹了一般性詞表分詞法和HASH詞表分詞法。
關(guān)鍵詞:中文信息處理、中文校對系統(tǒng)、詞語切分、一般性詞表、HASH詞表
ABSTRCT
Chinese Info Manage Technique is the keystone of the development of new technique. Chinese Auto Collecting System is an important offset of Chinese Info Manage. Word segmentation is the basic of Chinese Collecting System. The document is about some interfix theories of Chinese Auto Word Segmentation, and recommend Universality Word List word segmentation and HASH Word List word segmentation in word segmentation of Chinese Auto Collecting System.
Keywords Chinese Info Manage; Chinese Auto Collecting System; Word segmentation; Universality Word List; HASH Word List
引言
中文信息處理是我國重要的計算機應(yīng)用技術(shù),在計算機產(chǎn)業(yè)中,是我國的專長。國務(wù)院制定的國家中長期科技發(fā)展綱領(lǐng)中明確提出“中文信息處理技術(shù)是高新技術(shù)發(fā)展的重點”。據(jù)統(tǒng)計,在信息領(lǐng)域中80%以上的信息是以語言文字為載體的。這些語言信息的自動輸入和輸出,文本的??焙头诸?,信息的提取和檢索以及語言翻譯等語言工程,都是國民經(jīng)濟和國防信息化建設(shè)的重要基礎(chǔ)。中文信息涵蓋了字、詞、短語、句子、篇章等多層面的信息加工處理任務(wù)。由于詞是最小能獨立運用的語言單位,因此,當(dāng)前漢語信息處理以由“字處理”轉(zhuǎn)移到“詞處理”由于中文文本是按句子連寫的,詞間無間隙,因而在中文文本處理中首先遇到的是詞的切分問題。詞的正確切分是進行中文文本信息處理的基礎(chǔ)。正如陳力為院士所說:“漢語書面語的分詞技術(shù)已經(jīng)悄悄地形成一門新興的富有挑戰(zhàn)性的學(xué)問?!?br>
1.1萬字 15頁
摘要
中文信息處理技術(shù)是高新技術(shù)發(fā)展的重點,中文校對系統(tǒng)是中文信息處理的重要的一個分支,詞語切分是中文校對系統(tǒng)的基礎(chǔ)。本文簡要介紹了中文自動分詞的相關(guān)理論,并就中文自動校對系統(tǒng)中的詞語切分介紹了一般性詞表分詞法和HASH詞表分詞法。
關(guān)鍵詞:中文信息處理、中文校對系統(tǒng)、詞語切分、一般性詞表、HASH詞表
ABSTRCT
Chinese Info Manage Technique is the keystone of the development of new technique. Chinese Auto Collecting System is an important offset of Chinese Info Manage. Word segmentation is the basic of Chinese Collecting System. The document is about some interfix theories of Chinese Auto Word Segmentation, and recommend Universality Word List word segmentation and HASH Word List word segmentation in word segmentation of Chinese Auto Collecting System.
Keywords Chinese Info Manage; Chinese Auto Collecting System; Word segmentation; Universality Word List; HASH Word List
引言
中文信息處理是我國重要的計算機應(yīng)用技術(shù),在計算機產(chǎn)業(yè)中,是我國的專長。國務(wù)院制定的國家中長期科技發(fā)展綱領(lǐng)中明確提出“中文信息處理技術(shù)是高新技術(shù)發(fā)展的重點”。據(jù)統(tǒng)計,在信息領(lǐng)域中80%以上的信息是以語言文字為載體的。這些語言信息的自動輸入和輸出,文本的??焙头诸?,信息的提取和檢索以及語言翻譯等語言工程,都是國民經(jīng)濟和國防信息化建設(shè)的重要基礎(chǔ)。中文信息涵蓋了字、詞、短語、句子、篇章等多層面的信息加工處理任務(wù)。由于詞是最小能獨立運用的語言單位,因此,當(dāng)前漢語信息處理以由“字處理”轉(zhuǎn)移到“詞處理”由于中文文本是按句子連寫的,詞間無間隙,因而在中文文本處理中首先遇到的是詞的切分問題。詞的正確切分是進行中文文本信息處理的基礎(chǔ)。正如陳力為院士所說:“漢語書面語的分詞技術(shù)已經(jīng)悄悄地形成一門新興的富有挑戰(zhàn)性的學(xué)問?!?br>