国产精品婷婷久久久久久,国产精品美女久久久浪潮av,草草国产,人妻精品久久无码专区精东影业

基于短語的統(tǒng)計(jì)機(jī)器翻譯性能改進(jìn)方法研究與系統(tǒng)實(shí)現(xiàn).doc

約55頁DOC格式手機(jī)打開展開

基于短語的統(tǒng)計(jì)機(jī)器翻譯性能改進(jìn)方法研究與系統(tǒng)實(shí)現(xiàn),碩士論文 55頁共計(jì)27429字摘 要本文研究如何提高現(xiàn)有基于短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的性能,并利用文中提出的思想實(shí)現(xiàn)面向特定領(lǐng)域的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)。文中研究了兩種改善基于短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)性能的方法,并結(jié)合在通用領(lǐng)域和特定領(lǐng)域的應(yīng)用給出了實(shí)驗(yàn)結(jié)果,同時(shí)實(shí)現(xiàn)了一個(gè)面向特...
編號(hào):150-33868大小:598.00K
分類: 論文>計(jì)算機(jī)論文

內(nèi)容介紹

此文檔由會(huì)員 bfxqt 發(fā)布

碩士論文 基于短語的統(tǒng)計(jì)機(jī)器翻譯性能改進(jìn)方法研究與系統(tǒng)實(shí)現(xiàn)

55頁共計(jì)27429字

摘 要
本文研究如何提高現(xiàn)有基于短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的性能,并利用文中提出的思想實(shí)現(xiàn)面向特定領(lǐng)域的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)。文中研究了兩種改善基于短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)性能的方法,并結(jié)合在通用領(lǐng)域和特定領(lǐng)域的應(yīng)用給出了實(shí)驗(yàn)結(jié)果,同時(shí)實(shí)現(xiàn)了一個(gè)面向特定領(lǐng)域的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)。
文中通過定義多種特征,利用單純形算法實(shí)現(xiàn)了對(duì)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的翻譯結(jié)果的重排序(rerank);同時(shí)還提出了一種人工定義翻譯模板規(guī)則的泛化方法,以及翻譯模板的匹配算法和翻譯模板規(guī)則與統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的融合策略;并基于上述兩個(gè)思想,輔以記憶庫、詞典等常用技術(shù),開發(fā)了一套面向?qū)@I(lǐng)域的漢英統(tǒng)計(jì)機(jī)器翻譯軟件。取得主要成果有以下幾方面:
1、 統(tǒng)計(jì)機(jī)器翻譯中判別重排序算法的實(shí)現(xiàn)和特征的選擇
判別重排序(discriminative reranking)就是指針對(duì)某個(gè)評(píng)估標(biāo)準(zhǔn)對(duì)機(jī)器翻譯程序輸出的多個(gè)翻譯候選結(jié)果進(jìn)行重新排序,重新選擇,從中選擇出使該標(biāo)準(zhǔn)達(dá)到最優(yōu)時(shí)的翻譯結(jié)果。文中基于實(shí)驗(yàn)室開發(fā)的基于短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)--孔夫子(Confucius)系統(tǒng),實(shí)現(xiàn)了利用單純形算法(Simplex Algorithm)進(jìn)行重排序,定義了多種特征,像英語的語言模型特征,句子序列的詞性語言模型特征等,實(shí)驗(yàn)表明,無論是在開發(fā)集還是在測試集上,無論是在國際評(píng)測中的通用集合上還是在特定領(lǐng)域的測試集合上,BLEU值都有比較明顯的提高,重排序過程對(duì)孔夫子統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的整體性能的確起到了促進(jìn)的作用。
2、 融合了翻譯模板和統(tǒng)計(jì)機(jī)器翻譯技術(shù)的翻譯方法
當(dāng)前,主流的基于短語的統(tǒng)計(jì)機(jī)器翻譯技術(shù)對(duì)于句子中短語間的長距離調(diào)序問題以及句子中非連續(xù)的固定搭配的翻譯等問題,解決的都不是很理想,而傳統(tǒng)的規(guī)則方法在這方面則具有一定的優(yōu)勢,因此,我們提出了在統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中融合翻譯模板規(guī)則的翻譯方法,我們提出了書寫人工翻譯模板規(guī)則的泛化方法,以及翻譯模板的匹配算法和翻譯模板與孔夫子統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的融合策略。我們利用傳統(tǒng)中藥領(lǐng)域的語料重新訓(xùn)練了孔夫子系統(tǒng),并從語料中抽取出一部分作為開發(fā)集和測試集,實(shí)驗(yàn)結(jié)果表明,翻譯模板規(guī)則的加入和使用使得系統(tǒng)的BLEU值有較大幅度的提高,并且比較好地解決了句子的長距離調(diào)序問題和句子中非連續(xù)固定搭配的翻譯問題,一定程度上提高了孔夫子統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的性能。
3、 面向?qū)@I(lǐng)域的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)——專譯家系統(tǒng)
以實(shí)驗(yàn)室開發(fā)的孔夫子統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)作為翻譯的解碼核心,加上上述兩種性能改進(jìn)的方法,同時(shí)輔以記憶庫、詞典等模塊,我們開發(fā)了基于服務(wù)器-客戶端模式的漢英統(tǒng)計(jì)機(jī)器翻譯軟件——專譯家系統(tǒng)(TransAngel),該系統(tǒng)為用戶提供了方便的操作界面,用戶可以動(dòng)態(tài)地添加自定義模板,詞典等來指導(dǎo)和校正翻譯結(jié)果,同時(shí)可以進(jìn)行后臺(tái)的批量文件翻譯。
目錄
摘 要 I
目錄 V
圖目錄 VII
表目錄 VIII
第一章 引 言 1
1.1概述 1
1.1.1研究背景 1
1.1.2研究現(xiàn)狀 2
1.2主要研究內(nèi)容 2
1.3論文組織結(jié)構(gòu) 3
第二章 統(tǒng)計(jì)機(jī)器翻譯結(jié)果的重排序 4
2.1研究背景與研究現(xiàn)狀分析 4
2.1.1研究背景 4
2.1.2研究現(xiàn)狀分析 5
2.2統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中重排序的基本原理 6
2.2.1對(duì)數(shù)線性模型簡介 6
2.2.2重排序的基本原理 7
2.3利用單純形算法進(jìn)行統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的重排序 8
2.3.1重排序的基本流程 9
2.3.2重排序中單純形算法的實(shí)現(xiàn) 10
2.4重排序?qū)嶒?yàn)中所選特征的介紹及實(shí)驗(yàn)結(jié)果比較 12
2.5總結(jié) 16
第三章 融合了翻譯模板和統(tǒng)計(jì)機(jī)器翻譯的翻譯方法 18
3.1研究背景 18
3.2翻譯模板泛化規(guī)則的抽象與定義方法 20
3.3翻譯模板匹配算法 23
3.3.1翻譯模板匹配算法介紹 23
3.3.2翻譯模板匹配算法的實(shí)現(xiàn) 24
3.4系統(tǒng)融合策略 25
3.5實(shí)驗(yàn)及系統(tǒng)性能介紹 27
3.5.1模板匹配實(shí)驗(yàn)對(duì)比 27
3.5.2模板匹配后對(duì)翻譯結(jié)果進(jìn)行重排序的實(shí)驗(yàn)介紹 28
3.6總結(jié) 29
第四章 面向?qū)@I(lǐng)域的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng) 30
4.1專譯家系統(tǒng)的研究與應(yīng)用背景 30
4.2專譯家系統(tǒng)所用到的技術(shù) 31
4.2.1翻譯系統(tǒng)核心——孔夫子統(tǒng)計(jì)機(jī)器翻譯系統(tǒng) 31
4.2.2翻譯模板輔助模塊 32
4.2.3翻譯結(jié)果重排序模塊 32
4.2.4翻譯記憶庫輔助模塊 32
4.2.5翻譯詞典輔助模塊 32
4.2.6基于服務(wù)器-客戶端的多線程調(diào)度模式 33
4.3專譯家系統(tǒng)的體系結(jié)構(gòu) 33
4.3.1專譯家系統(tǒng)的物理拓?fù)浣Y(jié)構(gòu) 33
4.3.2專譯家系統(tǒng)的邏輯結(jié)構(gòu) 35
4.3.3專譯家系統(tǒng)的框架結(jié)構(gòu) 36
4.4專譯家系統(tǒng)的翻譯流程 37
4.5系統(tǒng)主要界面展示 39
4.5.1客戶端界面 39
4.5.2服務(wù)器端界面 40
4.6專譯家系統(tǒng)性能介紹 40
4.7總結(jié) 41
第五章 總結(jié) 42
5.1總結(jié) 42
5.2進(jìn)一步的工作 43
參考文獻(xiàn) 44
關(guān)鍵字:統(tǒng)計(jì)機(jī)器翻譯,判別重排序,單純形算法,翻譯模板,專譯家系統(tǒng)
參考文獻(xiàn)
[1]. P. F. Brown, S. A. Della Pietra, V. J. Della Pietra, R. L. Mercer. The Mathematics of Statistical Machine Translation, Computational Linguistics, vol. 19, no. 2, 1993.
[2]. Yaser Al-Onaizan, Jan Curin, Michael Jahr, Kevin Knight, John Lafferty, Dan Melamed, Franz-Josef Och, David Purdy, Noah A. Smith and David Yarowsky (1999). Statistical Machine Translation: Final Report, Johns Hopkins University 1999 Summer Workshop on Language Engineering, Center for Speech and Language Processing, Baltimore, MD.
[3]. Philipp Koehn, Franz Josef Och, and Daniel Marcu . Statistical phrase-based translation. In Proceedings of HLTNAACL, 2003, pages 127–133.
[4]. M Collins. Head-Driven Statistical Models for Natural Language Parsing. Ph. D. Thesis, the University of Pennsylvania, 1999.
[5]. Deyi Xiong, Shuanglong Li, Qun Liu, Shouxun Lin, Yueliang Qian. Parsing the Penn Chinese Treebank with Semantic Knowledge. Lecture Notes in Computer Science, Springer-Verlag, Volume 3651, Sep 2005, Pages 70 - 81.
[6]. Deyi Xiong, Qun Liu. 2004. Statistical Chinese parsing with rich linguistic features. in Chinese. Journal of Chinese Information Processing, Vol.19, Pages 61 - 66, March 2005.
[7]. 熊德意,劉群,林守勛,融合豐富語言知識(shí)的漢語統(tǒng)計(jì)句法分析,中文信息學(xué)報(bào),2005, 19(3):61-66
[8]. Yang Liu, Qun Liu, and Shouxun Lin. 2006. Tree-to-String Alignment Template for Statistical Machine Translation. In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics (COLING/ACL 2006), pages 609-616, Sydney, Australia, July.
[9]. Kenji Yamada and Kevin Knight. 2001. A syntax-based statistical translation model. In Proceedings of 39th Annual Meeting of the ACL, pages 523-530.
[10]. Yang Liu, Yun Huang, Qun Liu, and Shouxun Lin. 2007. Forest-to-String Statistical Translation Rules. To appear in Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics (ACL 2007), Prague, Czech, June.
[11]. Jonathan Graehl and Kevin Knight. 2004. Training tree transducers. In Proceedings of NAACL-HLT 2004, pages 105-112.
[12]. Libin Shen, Anoop Sarkar, Franz Josef Och. Discriminative Reranking for Machine Translation. In Proc. HLTNAACL 2004.
[13]. Zhongjun He, Yang Liu, Deyi Xiong, Hongxu Hou, and Qun Liu. ICT System Description for the 2006 TC-STAR Run#2 SLT Evaluation. TC-STAR Evaluation Workshop, Barcelona, Spain, June 19-21. 2006.
[14]. W.M. Press, B.P. Flannery, S.A. Teukolsky, and W.T. Vetterling, Numerical Recipes in C: The Art of Scientific Computing, Cambridge Univ. Press, 1992.
[15]. Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu, Bleu: a Method for Automatic Evaluation of Machine Translation.RC22176 September 17,2001,Computer Science.