国产精品婷婷久久久久久,国产精品美女久久久浪潮av,草草国产,人妻精品久久无码专区精东影业

基于web的大規(guī)模雙語平行語料庫(kù)自動(dòng)獲取技術(shù)研究與系統(tǒng)實(shí)現(xiàn).doc

約60頁DOC格式手機(jī)打開展開

基于web的大規(guī)模雙語平行語料庫(kù)自動(dòng)獲取技術(shù)研究與系統(tǒng)實(shí)現(xiàn),60頁共計(jì)31159字摘 要大規(guī)模雙語語料庫(kù)的建設(shè)與獲取存在著很大的困難,雖然各國(guó)都投入了大量的人力、物力和財(cái)力來加強(qiáng)雙語語料庫(kù)的建設(shè),但現(xiàn)有雙語語料庫(kù)在規(guī)模、時(shí)效性和領(lǐng)域平衡性等方面還不能滿足處理真實(shí)文本的需要。這也間接導(dǎo)致了目前的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)仍然主要處于實(shí)驗(yàn)室開發(fā)研究階段,離實(shí)際的應(yīng)用還有一定的距離。本文致力于...
編號(hào):45-37691大小:1.44M
分類: 論文>計(jì)算機(jī)論文

內(nèi)容介紹

此文檔由會(huì)員 bfxqt 發(fā)布

60頁共計(jì)31159字
摘 要
大規(guī)模雙語語料庫(kù)的建設(shè)與獲取存在著很大的困難,雖然各國(guó)都投入了大量的人力、物力和財(cái)力來加強(qiáng)雙語語料庫(kù)的建設(shè),但現(xiàn)有雙語語料庫(kù)在規(guī)模、時(shí)效性和領(lǐng)域平衡性等方面還不能滿足處理真實(shí)文本的需要。這也間接導(dǎo)致了目前的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)仍然主要處于實(shí)驗(yàn)室開發(fā)研究階段,離實(shí)際的應(yīng)用還有一定的距離。本文致力于構(gòu)建一個(gè)基于Web的大規(guī)模雙語平行語料庫(kù)自動(dòng)獲取平臺(tái)。取得主要成果有以下幾方面:
1. 研究了雙語平行資源在互聯(lián)網(wǎng)上的存在形式并探索了相應(yīng)的獲取方法
互聯(lián)網(wǎng)上雖然存在著海量的多語言文本資源,但任何系統(tǒng)都無法將所有的互聯(lián)網(wǎng)文本進(jìn)行處理,從而獲取所需的特定雙語平行的語料庫(kù)。因此需要定義一種啟發(fā)式信息來概括這類多語種平行文本存在的共同特征,以此作為一個(gè)有效的入口,來獲取我們關(guān)心的Web資源。以往的系統(tǒng)都致力從一些雙語網(wǎng)站中獲取互為翻譯的雙語網(wǎng)頁對(duì)。但是通過觀察,我們發(fā)現(xiàn)在Web上雙語平行資源不僅存在于兩個(gè)平行的單語網(wǎng)頁中,還存在于雙語對(duì)照的同一網(wǎng)頁中。本文對(duì)這兩種資源都定義了有效的啟發(fā)式信息,從而很好地解決了大規(guī)模數(shù)據(jù)的來源問題。
2. 提出了基于URL命名相似性的雙語候選網(wǎng)頁獲取算法
網(wǎng)絡(luò)作者在進(jìn)行雙語平行網(wǎng)頁URL命名時(shí)往往具有一定的規(guī)律性,兩個(gè)URL之間一般只有與語種相關(guān)的部分字符串不相同。以往的系統(tǒng)在這個(gè)環(huán)節(jié)需要預(yù)先定義在URL命名中常見的與特定語種相關(guān)的前后綴表。本文提出了一種可以自動(dòng)發(fā)現(xiàn)一個(gè)具有命名規(guī)律性的雙語網(wǎng)站中雙語平行網(wǎng)頁之間命名規(guī)律的方法,不再依賴預(yù)定義。實(shí)驗(yàn)表明,本文的方法不僅可以發(fā)現(xiàn)所有常見的URL命名規(guī)律,而且還可以找出不同的網(wǎng)頁編輯者帶個(gè)人特色的URL命名規(guī)律,從而可以找出盡可能多的可信的中英候選網(wǎng)頁對(duì)。綜合各方面的評(píng)估與評(píng)價(jià),該方法可以充分挖掘出具有命名相似性的雙語網(wǎng)站中存在的雙語平行網(wǎng)頁,初步解決了雙語語料庫(kù)的獲取難題,達(dá)到了本文預(yù)期的目的。
3. 改進(jìn)了雙語平行句對(duì)抽取技術(shù)
雙語平行的網(wǎng)頁文本不同于一般的雙語對(duì)照文本,其中不僅存在有用的雙語對(duì)照信息,還存在一定的無關(guān)信息;此外,網(wǎng)頁文本中的詞匯量也大大超出任何一本雙語詞典的范圍。這些都造成了對(duì)雙語平行網(wǎng)頁進(jìn)行句子對(duì)齊的難度。以往的系統(tǒng)在這方面研究都是利用雙語平行網(wǎng)頁在其HTML結(jié)構(gòu)上的相似性,但是很少雙語平行網(wǎng)頁在HTML結(jié)構(gòu)上是完全一致的,其中的噪聲很大。因此,得到的雙語平行句對(duì)的質(zhì)量也不盡理想。本文提出了一種雙語平行句對(duì)的抽取技術(shù),不僅可以利用雙語平行網(wǎng)頁HTML結(jié)構(gòu)相似性這一優(yōu)點(diǎn),而且可以牢牢把握住雙語平行句對(duì)互為翻譯這一本質(zhì)特征,從而取得到了很好的效果。
最后,我們實(shí)現(xiàn)了上述三個(gè)方面的技術(shù),搭建了一個(gè)可以持續(xù)獲取大規(guī)模的雙語平行語料庫(kù)的平臺(tái)。
目錄
摘 要 I
目錄 V
圖目錄 IX
表目錄 X
第一章 引 言 11
1.1概述 11
1.1.1研究背景 11
1.1.2國(guó)內(nèi)外研究現(xiàn)狀分析 12
1.1.3現(xiàn)有系統(tǒng)介紹與比較 14
1.2主要研究目標(biāo)和內(nèi)容 16
1.2.1 研究目標(biāo) 16
1.2.2 研究?jī)?nèi)容 17
1.3論文組織結(jié)構(gòu) 17
第二章 基于WEB的雙語平行語料庫(kù)獲取的總體架構(gòu) 18
2.1 基本流程 18
2.2 任務(wù)分析與界定 19
2.2.1雙語候選資源獲取與預(yù)處理 19
2.2.2雙語候選網(wǎng)頁獲取 20
2.2.3雙語平行網(wǎng)頁獲取 20
2.2.4雙語平行句對(duì)抽取 20
2.3 本章小結(jié) 21
第三章 雙語候選資源獲取與預(yù)處理 22
3.1研究現(xiàn)狀 22
3.2網(wǎng)頁間平行語料獲取途徑 22
3.3網(wǎng)頁內(nèi)部平行語料獲取途徑 23
3.3.1基本思想 23
3.3.2可行性評(píng)估實(shí)驗(yàn) 23
3.4 網(wǎng)頁解析與去噪聲 24
3.4.1網(wǎng)頁內(nèi)容解析 24
3.4.2去噪聲處理 24
3.4.2網(wǎng)頁語種識(shí)別與編碼轉(zhuǎn)換 25
3.5本章小結(jié) 25
第四章 雙語網(wǎng)頁URL命名模板的自動(dòng)發(fā)現(xiàn) 26
4.1相關(guān)研究 26
4.2雙語平行網(wǎng)頁URL命名模板的抽象與定義方法 27
4.2雙語平行網(wǎng)頁URL命名模板的自動(dòng)發(fā)現(xiàn)算法 29
4.3 獲取具有 URL 命名相似性的雙語候選網(wǎng)頁算法 31
4.4實(shí)驗(yàn)與分析 32
4.4.1數(shù)據(jù)描述與實(shí)驗(yàn)設(shè)置 32
4.4.2實(shí)驗(yàn)結(jié)果 32
4.5本章小結(jié) 33
第五章 雙語平行網(wǎng)頁獲取 34
5.1相關(guān)研究 34
5.2基于最大熵分類器的雙語平行網(wǎng)頁獲取 35
5.2.1最大熵分類器 35
5.2.2特征抽取 36
5.2.3模型訓(xùn)練 38
5.3實(shí)驗(yàn)與分析 39
5.3.1數(shù)據(jù)描述與實(shí)驗(yàn)設(shè)置 39
5.3.2實(shí)驗(yàn)結(jié)果 39
5.4本章小結(jié) 39
第六章 雙語平行句對(duì)抽取 40
6.1相關(guān)研究 40
6.2雙語平行句對(duì)抽取模型 41
6.2.1模型基本思想 41
6.2.2生成雙語候選句對(duì)集合 41
6.2.3特征抽取 42
6.2.4分類與后處理過程 44
6.3 實(shí)驗(yàn)與分析 44
6.3.1數(shù)據(jù)描述與實(shí)驗(yàn)設(shè)置 44
6.3.2實(shí)驗(yàn)結(jié)果 44
6.4本章小結(jié) 45
第七章 雙語平行語料庫(kù)自動(dòng)獲取平臺(tái)(PPSM)系統(tǒng)實(shí)現(xiàn) 46
7.1 主要進(jìn)程介紹 46
7.2 進(jìn)程間的數(shù)據(jù)傳遞 47
7.3 系統(tǒng)性能介紹 47
7.4 系統(tǒng)成果 48
7.5 本章小結(jié) 48
第八章 總結(jié) 49
8.1總結(jié) 49
8.2下一步工作 50
附錄一 網(wǎng)頁間平行資源-錨文本列表 52
附錄二 網(wǎng)頁內(nèi)部平行資源-錨文本列表 53
附錄二 HTML特殊字符轉(zhuǎn)換表 54
附錄三 可處理的網(wǎng)頁文件類型 55
參考文獻(xiàn) 56
致 謝 59

關(guān)鍵詞: 雙語平行語料庫(kù),網(wǎng)頁挖掘,雙語平行句對(duì),統(tǒng)計(jì)機(jī)器翻譯
參考文獻(xiàn)
[1] Philip Resnik. Parallel strands: a preliminary investigation into mining the web for bilingual text. In: Proceeding of the Third Conference of the Association for Machine Translation. America, pages 72-2, 1998.
[2] Church, K. and Mercer, R., “Introduction to the Special Issue on Computational Linguistics Using Large Corpora,” CL 19:1, pp. 1-24, 1993.
[3] Jiang Chen and Jian-Yun Nie. Automatic construction of parallel english-chinese corpus for cross-language information retrieval. In: Proceedings of the International Conference on Chinese Language Computing. San Francisco, pages 21-28, 2000.
[4] Philip Resnik. Parallel strands: a preliminary investigation into mining the Web for bilingual text. In: Proceeding of the Third Conference of the Association for Machine Translation. America, pages 72-82, 1998.
[5] Philip Resnik and Noah A. Smith. The Web as a parallel corpus. Computational Linguistics, volume 29, pages 349-380.
[6] Xiaoyi Ma and Mark Y. Liberman. Bits: A method for bilingual text search over the Web. In: Proceedings of the Machine Translation Summit VII, 1999.
[7] Jisong Chen, Rowena Chau, and Chung-Hsing Yeh. Discovering parallel text from the World Wide WEB . In CRPIT’32: Proceedings of the second workshop on Australasian information security, Data Mining and Web Intelligence, and Software Internationalization. Australia, pages 157-61, 2004.
[8] Ying Zhang, Ke. Wu, Jianfeng Gao, and P. Vines. Automatic acquisition of chinese-english parallel corpus from the web. In: Proceedings of ECIR-06, 28th European Conference on Information Retrieval. ACL, 2006.
[9] Cavnar, W. B. and J. M. Trenkle, ``N-Gram-Based Text Categorization'' In Proceedings of Third Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, NV, UNLV Publications/Reprographics, pp. 161-175, 11-13 April 1994
[10] E. T. Jaynes, “Information Theory and Statistical Mechanics. II,” Physical Review, vol. 108, no. 2, pp. 171-190; October 15, 1957.
[11] Brown, P. F., J. C. Lai and R. L. Mercer. 1991. Aligning Sentences in arallel Corpora. In Proceedings of 29th Annual Meeting of the Association for omputational Linguistics.
[12] Chen, S. 1993. Aligning Sentences in Bilingual Corpora Using Lexical Information. In Proceedings of 31st Annual Meeting of the Association for Computational Linguistics.
[13] Gale W. A. and K. Church. 1991. A Program for Aligning Sentences in Parallel Corpora. In Proceedings of 29th Annual Meeting of the Association for Computational Linguistics.
[14] Gale W. A. and K. Church. 1991. A Program for Aligning Sentences in Parallel Corpora. In Proceedings of 29th Annual Meeting of the Association for Computational Linguistics.
[15] Zhao B. and S. Vogel. 2002. Adaptive Parallel Sentences Mining From Web Bilingual News Collection. In 2002 IEEE International Conference on Data Mining. page: 745.
[16] Lei Shi, Cheng Niu, Ming Zhou, and Jianfeng Gao. A dom tree alignment model for mining parallel data from the web. In: Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL. Sydney, pages 489-496, 2006.
[17] Dragos Stefan Munteanu and Daniel Marcu. Improving machine translation performance by exploiting non-parallel corpora. Computational Linguistics, volume 31, pages 477-504.
[18] Fei Huang, Ying Zhang and Stephan Vogel. Mingning Key Phrase Translations from Web Corpora, in the Proceedings of the LT-EMNLP-2005:483-490
[19] Dekai WU and Pascale FUNG Inversion Transduction Grammar Constraints for Mining Parallel Sentences from Quasi-Comparable Corpora”. Second International Jint Conference on Natural Language Processing(IJCNLP-2005): 257-268
[20] Gaolin, Hao Yu, Fumihito Nishino. Web-Based Terminology Translation Mining Second International Joint Conference on Natural Language Processing(IJCNLP-2005):1004-1016
[21] Zhang Y. and Vines, Using the Web for Automated Translation Extraction in Cross-Language Information Retrieval In Proceedings of SIGIR-2004:162-169
[22] C.C.Yang and K. W. Li Ming English/Chinese Parallel Documents from the World Wide WEB. Proceedings of the International World Wide WEB Conference, Honolulu, Hawaii, 2002.
[23] Yunbo Cao, Huang Li: Base Boun Phrase Translation Using Web Data and the EM Algorithm Proceedings of the 20th International Conference on Computational Linguistic(COLONG 2002):127-133
[24] 劉非凡,趙軍,徐波。大規(guī)模非限定領(lǐng)域漢英雙語語料庫(kù)建設(shè)及句子對(duì)齊研究。全國(guó)第7屆計(jì)算語言聯(lián)合學(xué)術(shù)會(huì)議,20003:339-345
[25] 常寶寶,詹衛(wèi)東,張化瑞。面向漢英機(jī)器翻譯的雙語語料庫(kù)的建設(shè)及其管理,《術(shù)語標(biāo)準(zhǔn)化與信息技術(shù)》,2003(1):28-31
[26] 常寶寶、柏曉靜。北京大學(xué)漢英雙語平行語料庫(kù)標(biāo)記規(guī)范,《漢語語言于計(jì)算學(xué)報(bào)》,2003.13(2):195-214
[27] 揭春雨,劉曉月,冼景炬,衛(wèi)真道. 從網(wǎng)絡(luò)獲取香港法律雙語語料庫(kù). 全國(guó)第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005):193-199
[28] Pu-Jen Cheng, Wen-Hsiang Lu, Jer-Wen Teng, Lee-Feng Chien. Creating Multilingual Translation Lexicons with Regional Variations Using Web Corpora. Annual Meeting of the Association for Computational Linguistics (ACL-2004).
[29] Fei Huang, Ying Zhang and Stephan Vogel. Mining Key Phrase Translations from Web Corpora, in the Proceedings of the HLT-EMNLP-2005:483-490
[30] Tao Tao, ChengXiang Zhai , Mining Comparable Bilingual Text Corpora for Cross-Language Information Integration
[31] Ying Zhang, Fei Huang, Stephan Vogel, Mining Translations of OOV Terms from the Web through Crosslingual Query Expansion
[32] 原雙慶,李芳,盛煥燁. 多語種翻譯詞匯的在線自動(dòng)抽取. 計(jì)算機(jī)研究與發(fā)展, 2004.5:843-847