wps程序資源中多國文字一致性智能判定的研究與實(shí)現(xiàn).rar
wps程序資源中多國文字一致性智能判定的研究與實(shí)現(xiàn),wps程序資源中多國文字一致性智能判定的研究與實(shí)現(xiàn)2萬字40頁包括開題報告和任務(wù)書摘要本文針對wps多國語言版本的語言一致性測試中遇到的問題進(jìn)行了研究,定義了多國語言一致性判定的概念,將多國語言的一致性分為三個級別:字符、詞、語義。在這三個級別中,根據(jù)unicode編碼規(guī)則結(jié)合各種語言獨(dú)有的多字節(jié)字符集的編碼規(guī)則實(shí)現(xiàn)了...
該文檔為壓縮文件,包含的文件列表如下:
內(nèi)容介紹
原文檔由會員 20023286 發(fā)布
WPS程序資源中多國文字一致性智能判定的研究與實(shí)現(xiàn)
2萬字 40頁
包括開題報告和任務(wù)書
摘 要
本文針對WPS多國語言版本的語言一致性測試中遇到的問題進(jìn)行了研究,定義了多國語言一致性判定的概念,將多國語言的一致性分為三個級別:字符、詞、語義。在這三個級別中,根據(jù)Unicode編碼規(guī)則結(jié)合各種語言獨(dú)有的多字節(jié)字符集的編碼規(guī)則實(shí)現(xiàn)了字符級別一致性的判定;在字符一致性的基礎(chǔ)上,利用分詞技術(shù)將文本分詞,然后通過查找詞典的方法實(shí)現(xiàn)了詞級別的一致性判定;在分詞的基礎(chǔ)上,建立一個N-Gram統(tǒng)計(jì)語言模型,將文本分詞后與該模型進(jìn)行匹配實(shí)現(xiàn)了語義級別的一致性判定。
最后,我們根據(jù)本文提出的方法實(shí)現(xiàn)了一個WPS的中、英文一致性判定的自動化工具。對于英文,本文采用了基于詞典查找的拼寫檢查方法使一致性判定達(dá)到了詞的級別;對于中文,本文采用統(tǒng)計(jì)語言模型進(jìn)行一致性檢查使一致性判定達(dá)到了語義級別。利用這個工具在WPS的三個項(xiàng)目中共找出了有效的英文錯誤33處、中文錯誤15處。試驗(yàn)結(jié)果證明了本文的方法是可行的,統(tǒng)計(jì)語言模型是能夠應(yīng)用到多國文字一致性判定中去的。
關(guān)鍵詞:一致性判定,n-gram,統(tǒng)計(jì)語言模型,分詞,多國文字
The research and realization that multilateral languages consistency
intelligence judgment for the WPS program Source
Abstract
The paper researches the problems in the multi-language conformance testing of WPS, and defines the consistency judgment that includes three levers: character, word, semantic. The rule of coding Unicode and the character set of the given language is used to realize the character lever. Then it segments the sentence to words, and compares the words with standard dictionary to realize the word lever. Thirdly the paper builds an N-gram language model segmentation-based, and use this model to realize the semantic lever.
Finally, we developed a tool for English and Chinese consistency judgment by the method in this paper in WPS. For English, there adopted the method of looking up dictionary based spelling to realize the word consistency in sentences. For Chinese, there used the Statistical language model, which could express the frequency of word pair, to realize the semantic consistency in sentences. Three projects of WPS are examined using this tool. As a result it finds 33 errors in English edition, 15 errors in Chinese edition. It proves that the method in this paper is feasible and the Statistical language model is useful in the multilateral languages consistency judgment.
Key Words:Consistency Judgment,N-Gram,Language Model, Participle,Multilateral Languages
目 錄
1. 緒論 1
1.1 課題的背景及目的 1
1.2 國內(nèi)外研究狀況 1
1.3 課題研究方法 3
1.4 論文研究內(nèi)容 3
2. 字符編碼簡介 5
2.1 從ASCII到Unicode 5
2.2 Unicode、UCS和UTF 6
2.3 中日韓統(tǒng)一表意文字 6
2.3.1. CJK的發(fā)展 6
2.3.2.字源分離原則 7
2.3.3. CJK編碼區(qū)間 8
2.4 Unicode與GB2312在本文中的作用 8
3. 分詞介紹及語言統(tǒng)計(jì)模型 10
3.1 中文分詞簡介 10
3.1.1 最大正向匹配法 11
3.1.2 逆向最大匹配法 12
3.1.3 最少切分法 12
3.1.4 雙向匹配法 12
3.1.5 中文分詞中的難題 13
3.2 統(tǒng)計(jì)語言模型 14
3.2.1 統(tǒng)計(jì)語言模型簡史 14
3.2.2 統(tǒng)計(jì)語言模型的發(fā)展 14
3.2.3 建立一個簡單的統(tǒng)計(jì)語言模型 15
3.3 N_Gram統(tǒng)計(jì)語言模型 16
3.3.1 N-Gram語言模型概述[2] 16
3.3.2 建立一個BiGram模型[6] 16
3.3.3 N-Gram的數(shù)據(jù)稀疏問題 18
3.3.4 N-Gram的數(shù)據(jù)平滑處理 18
4. WPS程序資源中多國語言一致性智能判定的實(shí)現(xiàn) 22
4.1 提取資源字符串 22
4.2 英文一致性判定的實(shí)現(xiàn) 23
4.2.1 英文字符一致性判定的實(shí)現(xiàn) 23
4.2.2 英文詞、語法一致性的判定的實(shí)現(xiàn) 24
4.3 中文一致性判定的實(shí)現(xiàn) 27
4.3.1 中文字符一致性判定的實(shí)現(xiàn) 27
4.3.2 中文詞、語法一致性的判定的實(shí)現(xiàn) 27
4.4 實(shí)驗(yàn)結(jié)果與分析 29
結(jié)論與展望 32
致 謝 34
參考文獻(xiàn) 35
參考文獻(xiàn)
[1] Dr.International(美).國際化軟件開發(fā)(第2版)(M).機(jī)械工業(yè)出版社.
[2] 黃昌寧.中文信息處理的主流技術(shù)是什么(D).北京.清華大學(xué)自動控制系.
[3] 馬金山,張宇,劉挺,李生等.利用三元模型及依存分析查找中文文本錯誤(J).中文信息學(xué)報.2001.15(3).
[4] 駱衛(wèi)華,羅振聲,龔小謹(jǐn).中文文本自動校對的語義級查錯研究(D).清華大學(xué)中文系.2002.6.
[5] 黃曉宏.漢語文本自動查錯和確認(rèn)糾錯系統(tǒng)的研究(D).清華大學(xué)計(jì)算機(jī)系.1996.
[6] 張民,李生,趙鐵軍.大規(guī)模漢語語料庫中任意的n-gram統(tǒng)計(jì)算法及知識獲取方法(D).1997.
[7] 常寶寶.N-gram和數(shù)據(jù)平滑(C).北京大學(xué)計(jì)算語言學(xué)研究所.
[8] 李江波,周強(qiáng),陳祖舜.漢語詞典快速查詢算法研究(D).清華大學(xué)智能技術(shù)與國家重點(diǎn)實(shí)驗(yàn)室.
2萬字 40頁
包括開題報告和任務(wù)書
摘 要
本文針對WPS多國語言版本的語言一致性測試中遇到的問題進(jìn)行了研究,定義了多國語言一致性判定的概念,將多國語言的一致性分為三個級別:字符、詞、語義。在這三個級別中,根據(jù)Unicode編碼規(guī)則結(jié)合各種語言獨(dú)有的多字節(jié)字符集的編碼規(guī)則實(shí)現(xiàn)了字符級別一致性的判定;在字符一致性的基礎(chǔ)上,利用分詞技術(shù)將文本分詞,然后通過查找詞典的方法實(shí)現(xiàn)了詞級別的一致性判定;在分詞的基礎(chǔ)上,建立一個N-Gram統(tǒng)計(jì)語言模型,將文本分詞后與該模型進(jìn)行匹配實(shí)現(xiàn)了語義級別的一致性判定。
最后,我們根據(jù)本文提出的方法實(shí)現(xiàn)了一個WPS的中、英文一致性判定的自動化工具。對于英文,本文采用了基于詞典查找的拼寫檢查方法使一致性判定達(dá)到了詞的級別;對于中文,本文采用統(tǒng)計(jì)語言模型進(jìn)行一致性檢查使一致性判定達(dá)到了語義級別。利用這個工具在WPS的三個項(xiàng)目中共找出了有效的英文錯誤33處、中文錯誤15處。試驗(yàn)結(jié)果證明了本文的方法是可行的,統(tǒng)計(jì)語言模型是能夠應(yīng)用到多國文字一致性判定中去的。
關(guān)鍵詞:一致性判定,n-gram,統(tǒng)計(jì)語言模型,分詞,多國文字
The research and realization that multilateral languages consistency
intelligence judgment for the WPS program Source
Abstract
The paper researches the problems in the multi-language conformance testing of WPS, and defines the consistency judgment that includes three levers: character, word, semantic. The rule of coding Unicode and the character set of the given language is used to realize the character lever. Then it segments the sentence to words, and compares the words with standard dictionary to realize the word lever. Thirdly the paper builds an N-gram language model segmentation-based, and use this model to realize the semantic lever.
Finally, we developed a tool for English and Chinese consistency judgment by the method in this paper in WPS. For English, there adopted the method of looking up dictionary based spelling to realize the word consistency in sentences. For Chinese, there used the Statistical language model, which could express the frequency of word pair, to realize the semantic consistency in sentences. Three projects of WPS are examined using this tool. As a result it finds 33 errors in English edition, 15 errors in Chinese edition. It proves that the method in this paper is feasible and the Statistical language model is useful in the multilateral languages consistency judgment.
Key Words:Consistency Judgment,N-Gram,Language Model, Participle,Multilateral Languages
目 錄
1. 緒論 1
1.1 課題的背景及目的 1
1.2 國內(nèi)外研究狀況 1
1.3 課題研究方法 3
1.4 論文研究內(nèi)容 3
2. 字符編碼簡介 5
2.1 從ASCII到Unicode 5
2.2 Unicode、UCS和UTF 6
2.3 中日韓統(tǒng)一表意文字 6
2.3.1. CJK的發(fā)展 6
2.3.2.字源分離原則 7
2.3.3. CJK編碼區(qū)間 8
2.4 Unicode與GB2312在本文中的作用 8
3. 分詞介紹及語言統(tǒng)計(jì)模型 10
3.1 中文分詞簡介 10
3.1.1 最大正向匹配法 11
3.1.2 逆向最大匹配法 12
3.1.3 最少切分法 12
3.1.4 雙向匹配法 12
3.1.5 中文分詞中的難題 13
3.2 統(tǒng)計(jì)語言模型 14
3.2.1 統(tǒng)計(jì)語言模型簡史 14
3.2.2 統(tǒng)計(jì)語言模型的發(fā)展 14
3.2.3 建立一個簡單的統(tǒng)計(jì)語言模型 15
3.3 N_Gram統(tǒng)計(jì)語言模型 16
3.3.1 N-Gram語言模型概述[2] 16
3.3.2 建立一個BiGram模型[6] 16
3.3.3 N-Gram的數(shù)據(jù)稀疏問題 18
3.3.4 N-Gram的數(shù)據(jù)平滑處理 18
4. WPS程序資源中多國語言一致性智能判定的實(shí)現(xiàn) 22
4.1 提取資源字符串 22
4.2 英文一致性判定的實(shí)現(xiàn) 23
4.2.1 英文字符一致性判定的實(shí)現(xiàn) 23
4.2.2 英文詞、語法一致性的判定的實(shí)現(xiàn) 24
4.3 中文一致性判定的實(shí)現(xiàn) 27
4.3.1 中文字符一致性判定的實(shí)現(xiàn) 27
4.3.2 中文詞、語法一致性的判定的實(shí)現(xiàn) 27
4.4 實(shí)驗(yàn)結(jié)果與分析 29
結(jié)論與展望 32
致 謝 34
參考文獻(xiàn) 35
參考文獻(xiàn)
[1] Dr.International(美).國際化軟件開發(fā)(第2版)(M).機(jī)械工業(yè)出版社.
[2] 黃昌寧.中文信息處理的主流技術(shù)是什么(D).北京.清華大學(xué)自動控制系.
[3] 馬金山,張宇,劉挺,李生等.利用三元模型及依存分析查找中文文本錯誤(J).中文信息學(xué)報.2001.15(3).
[4] 駱衛(wèi)華,羅振聲,龔小謹(jǐn).中文文本自動校對的語義級查錯研究(D).清華大學(xué)中文系.2002.6.
[5] 黃曉宏.漢語文本自動查錯和確認(rèn)糾錯系統(tǒng)的研究(D).清華大學(xué)計(jì)算機(jī)系.1996.
[6] 張民,李生,趙鐵軍.大規(guī)模漢語語料庫中任意的n-gram統(tǒng)計(jì)算法及知識獲取方法(D).1997.
[7] 常寶寶.N-gram和數(shù)據(jù)平滑(C).北京大學(xué)計(jì)算語言學(xué)研究所.
[8] 李江波,周強(qiáng),陳祖舜.漢語詞典快速查詢算法研究(D).清華大學(xué)智能技術(shù)與國家重點(diǎn)實(shí)驗(yàn)室.