国产精品婷婷久久久久久,国产精品美女久久久浪潮av,草草国产,人妻精品久久无码专区精东影业

主題可定制的web雙語平行語料庫自動(dòng)獲取技術(shù)研究.doc

約73頁DOC格式手機(jī)打開展開

主題可定制的web雙語平行語料庫自動(dòng)獲取技術(shù)研究,碩士論文 73頁共計(jì)42022字摘要大規(guī)模雙語平行語料庫是構(gòu)建高質(zhì)量統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的重要基礎(chǔ)資源。在特定領(lǐng)域統(tǒng)計(jì)機(jī)器翻譯應(yīng)用中,使用與領(lǐng)域主題相關(guān)的平行語料作為訓(xùn)練數(shù)據(jù)能夠獲得好的翻譯質(zhì)量。本文提出了一種主題可定制的web雙語平行語料庫自動(dòng)獲取方法,目的在于充分利用we...
編號(hào):150-33879大小:1.69M
分類: 論文>計(jì)算機(jī)論文

內(nèi)容介紹

此文檔由會(huì)員 bfxqt 發(fā)布

碩士論文 主題可定制的web雙語平行語料庫自動(dòng)獲取技術(shù)研究

73頁共計(jì)42022字


摘 要
大規(guī)模雙語平行語料庫是構(gòu)建高質(zhì)量統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的重要基礎(chǔ)資源。在特定領(lǐng)域統(tǒng)計(jì)機(jī)器翻譯應(yīng)用中,使用與領(lǐng)域主題相關(guān)的平行語料作為訓(xùn)練數(shù)據(jù)能夠獲得好的翻譯質(zhì)量。本文提出了一種主題可定制的Web雙語平行語料庫自動(dòng)獲取方法,目的在于充分利用Web中大量存在的雙語平行資源,從中獲取滿足用戶特定領(lǐng)域和主題翻譯需求的雙語平行語料,以提高統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量。
具體來說,本文研究包括以下幾方面內(nèi)容:
1. 基于Web的雙語平行語料庫自動(dòng)獲取
在互聯(lián)網(wǎng)上,平行網(wǎng)站的風(fēng)格千差萬別,基于URL命名相似性與基于網(wǎng)頁結(jié)構(gòu)相似性的平行句對(duì)獲取方法在處理不同風(fēng)格的平行網(wǎng)站時(shí)各有優(yōu)劣,表現(xiàn)出適應(yīng)能力的互補(bǔ)。本文深入研究了兩種方法的特點(diǎn),對(duì)現(xiàn)有技術(shù)進(jìn)行改進(jìn),提出了一種基于標(biāo)簽序列最長公共子串的DOM樹對(duì)齊改進(jìn)算法。針對(duì)兩種方法各自的優(yōu)勢(shì),我們?cè)O(shè)計(jì)了融合兩種獲取方法的策略。實(shí)驗(yàn)證明,融合后的方法能夠有效提高獲取系統(tǒng)適應(yīng)復(fù)雜網(wǎng)站情況的能力。
2. 主題可定制雙語平行語料庫自動(dòng)獲取
對(duì)于特定領(lǐng)域的機(jī)器翻譯應(yīng)用,使用領(lǐng)域主題相關(guān)的語料作為訓(xùn)練數(shù)據(jù)可以提高統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量。本文借鑒信息檢索相關(guān)技術(shù),研究并提出了領(lǐng)域主題相關(guān)的雙語平行語料庫自動(dòng)獲取方法,包括主題描述模型和主題相關(guān)數(shù)據(jù)檢索方法。實(shí)驗(yàn)表明,利用本文提出的方法,用戶可以方便地進(jìn)行領(lǐng)域主題的定制,有效地實(shí)現(xiàn)特定領(lǐng)域主題雙語語料庫的檢索;利用該方法檢索得到的雙語平行語料庫來加強(qiáng)領(lǐng)域翻譯模型的訓(xùn)練,可以有效地改善特定領(lǐng)域統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量。

3. 主題可定制的雙語平行語料庫自動(dòng)獲取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
在以上研究的基礎(chǔ)上,搭建了一個(gè)主題可定制的Web雙語平行語料庫自動(dòng)獲取系統(tǒng)。該系統(tǒng)包括候選網(wǎng)站檢索、平行網(wǎng)站識(shí)別、獲取策略選擇等9個(gè)功能模塊。用戶可以利用該系統(tǒng)方便地實(shí)現(xiàn)特定領(lǐng)域雙語語料庫的定制和檢索。
目 錄
摘 要 I
目 錄 V
圖目錄 VII
表目錄 IX
第一章 引言 1
1.1概述 1
1.1.1研究背景和意義 1
1.1.2 國內(nèi)外研究現(xiàn)狀分析 2
1.1.2.1雙語語料庫建設(shè) 2
1.1.2.2基于web的雙語翻譯資源自動(dòng)獲取 3
1.1.2.3領(lǐng)域主題可定制的雙語資源獲取 4
1.2主要研究目標(biāo)和內(nèi)容 5
1.2.1研究目標(biāo) 5
1.2.2主要研究內(nèi)容 5
1.3 論文組織結(jié)構(gòu) 6
第二章 基于Web的雙語平行語料庫自動(dòng)獲取 9
2.1引言 9
2.2基于URL命名相似性的平行句對(duì)獲取方法簡介 10
2.3基于網(wǎng)頁結(jié)構(gòu)相似性的平行句對(duì)獲取 12
2.3.1基于DOM樹對(duì)齊模型的平行句對(duì)獲取方法簡介 13
2.3.2基于標(biāo)簽序列最長公共子串的DOM樹對(duì)齊改進(jìn)獲取算法 16
2.4融合URL相似性及網(wǎng)頁結(jié)構(gòu)相似性的平行句對(duì)獲取方法 20
2.5實(shí)驗(yàn)與分析 22
2.5.1平行網(wǎng)站識(shí)別模塊效果分析 22
2.5.2網(wǎng)頁相似度情況統(tǒng)計(jì) 22
2.5.3兩種獲取方法的比較 23
2.6本章小結(jié) 24
第三章 主題可定制雙語平行語料庫自動(dòng)獲取 25
3.1引言 25
3.2主題描述模型 26
3.2.1用戶需求描述 26
3.2.2用戶主題描述的分析和理解 28
3.3特定主題數(shù)據(jù)獲取方法 34
3.4實(shí)驗(yàn)及討論 36
3.4.1主題可定制雙語資源獲取方法性能評(píng)價(jià) 36
3.4.2特定主題雙語數(shù)據(jù)在統(tǒng)計(jì)機(jī)器翻譯中的應(yīng)用 37
3.4.2.1在NIST評(píng)測(cè)任務(wù)中的實(shí)驗(yàn) 37
3.4.2.2在旅游會(huì)話主題上的實(shí)驗(yàn) 40
3.5本章小結(jié) 40
第四章 主題可定制雙語資源自動(dòng)獲取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) 43
4.1 引言 43
4.2 系統(tǒng)設(shè)計(jì)及主要模塊介紹 43
4.3 重要功能的實(shí)現(xiàn) 47
4.3.1 網(wǎng)站下載功能 47
4.3.2 用戶交互方式 48
4.3.3 數(shù)據(jù)檢索功能 48
4.4 系統(tǒng)應(yīng)用 50
4.5 本章小結(jié) 50
第五章 總結(jié) 53
5.1 本文工作總結(jié) 53
5.2 下一步研究方向 54
參考文獻(xiàn) i
致 謝 ii
關(guān)鍵字:雙語平行語料庫,網(wǎng)頁挖掘,主題定制,統(tǒng)計(jì)機(jī)器翻譯
參考文獻(xiàn)
[1] Lei Shi, et al. "A DOM Tree Alignment Model for Mining Parallel Data from the Web" Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, pages 489-496, Sydney, July 2006.
[2] Peter F. Brown, John Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, Fredrick Jelinek, John D. Lafferty, Robert L. Mercer, Paul S. Roossin, A Statistical Approach to Machine Translation, Computational Linguistics, 1990
[3] Melamed, I. Dan. 2000. Models of translational equivalence among words. Computational Linguistics, 26(2):211-249.
[4] Och, Franz-Josef and Hermann Ney. 2002. Discriminative training and maximum entropy models for statistical machine translation. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), pages 295-302, Philadelphia, July.
[5] Gale, William A. and Kenneth W. Church. 1991. Identifying word correspondences in parallel texts. In Fourth DARPA Workshop on Speech and Natural Language, pages 152-157, Asilomar, CA, February.
[6] Melamed, I. Dan 1997. Automatic discovery of non-compositional compounds in parallel data. In Proceedings of the 2nd Conference on Empirical Methods in Natural Language Processing (EMNLP-97), pages 97-108, Providence, RI, August.
[7] Davis, Mark and Ted Dunning. 1995. A TREC evaluation of query translation methods for multi-lingual text retrieval. In Fourth Text Rerieval Conference (TREC-4), pages 483-498. NIST, Gaithersburg, MD.
[8] Nie, J.Y., Simard, M., Foster, G.,: Using parallel web pages for multi-lingual ir. Carol Peters, editor, Cross-Language Information Retrieval and Evaluation, number 2069 in Lecture Notes in Computer Science. Springer Verlag, 2001.
[9] Philip Resnik. Parallel strands: a preliminary investigation into mining the web for bilingual text. In: Proceeding of the Third Conference of the Association for Machine Translation. America, pages 72-2, 1998.
[10] Menezes, Arul and Stephen D. Richardson. 2001. A best-first alignment algorithm for automatic extraction of transfer mappings from bilingual corpora. In Proceedings of the ACL 2001 Workshop on Data-Driven Methods in Machine Translation, pages 39-46, Toulouse, France.
[11] Resnik, Philip and I. Dan Melamed. 1997. Semi-automatic acquisition of domain-specific translation lexicons.
[14] Jiang Chen and Jian-Yun Nie. Automatic construction of parallel english-chinese corpus for cross-language information retrieval. In: Proceedings of the International Conference on Chinese Language Computing. San Francisco, pages 21-28, 2000.
[15] Philip Resnik and Noah A. Smith. The Web as a parallel corpus. Computational Linguistics, volume 29, pages 349-380.
[16] Xiaoyi Ma and Mark Y. Liberman. Bits: A method for bilingual text search over the Web. In: Proceedings of the Machine Translation Summit VII, 1999.
[17] Ying Zhang, Ke. Wu, Jianfeng Gao, and P. Vines. Automatic acquisition of chinese-english parallel corpus from the web. In: Proceedings of ECIR-06, 28th European Conference on Information Retrieval. ACL, 2006.
[18] Jisong Chen, Rowena Chau, and Chung-Hsing Yeh. Discovering parallel text from the World Wide WEB . In CRPIT'32: Proceedings of the second workshop on Australasian information security, Data Mining and Web Intelligence, and Software Internationalization. Australia, pages 157-61, 2004.
[19] 葉莎妮,基于Web的大規(guī)模雙語平行語料庫自動(dòng)獲取技術(shù)研究與系統(tǒng)實(shí)現(xiàn),碩士學(xué)位論文,2008.
[20] Brown, P. F., J. C. Lai and R. L. Mercer. 1991. Aligning Sentences in Parallel Corpora. In Proceedings of 29th Annual Meeting of the Association for Computational Linguistics.
[21] Chen, S. 1993. Aligning Sentences in Bilingual Corpora Using Lexical Information. In Proceedings of 31st Annual Meeting of the Association for Computational Linguistics.
[22] Gale W. A. and K. Church. 1991. A Program for Aligning Sentences in Parallel Corpora. In Proceedings of 29th Annual Meeting of the Association for Computational Linguistics.
[23] Zhao B. and S. Vogel. 2002. Adaptive Parallel Sentences Mining From Web Bilingual News Collection. In 2002 IEEE International Conference on Data Mining. page: 745.
[24] Zhao B. and S. Vogel. 2002. Adaptive Parallel Sentences Mining From Web Bilingual News Collection. In 2002 IEEE International Conference on Data Mining.
[25] Thomas H. Cormen, Charles E. Leiserson, Ronald L. Rivest, Clifford Stein, INTRODUCTION TO ALGORITHMS (Second Edition), Higher Education Press, 2002.
[26] 黃瑾, 統(tǒng)計(jì)機(jī)器翻譯預(yù)處理若干技術(shù)研究, 碩士學(xué)位論文, 2007.
[27] Almut Silja Hildebrand et al, Adaptation of the Translation Model for Statistical Machine Translation based on Information Retrieval [A]. EAMT 2005 Conference Proceedings[C].