国产精品婷婷久久久久久,国产精品美女久久久浪潮av,草草国产,人妻精品久久无码专区精东影业

基于文本的web圖片搜索引擎的研究.doc

約65頁DOC格式手機打開展開

基于文本的web圖片搜索引擎的研究,65頁共計39501字摘要本文研究工作是針對web圖片搜索引擎的應用背景,以構建大型web圖片搜索引擎為目標,提出基于文本檢索方式的web圖片搜索引擎設計方案。文中介紹和研究了一系列與web圖片搜索引擎相關的技術,包括網頁抓取、相關性排序(vsm和lsi)、信息提取、信息索引等,這些技術將被應用到文中提出的系統(tǒng)設計方案...
編號:45-37707大小:1.19M
分類: 論文>計算機論文

內容介紹

此文檔由會員 bfxqt 發(fā)布

65頁共計39501字
摘 要
本文研究工作是針對Web圖片搜索引擎的應用背景,以構建大型Web圖片搜索引擎為目標,提出基于文本檢索方式的Web圖片搜索引擎設計方案。
文中介紹和研究了一系列與Web圖片搜索引擎相關的技術,包括網頁抓取、相關性排序(VSM和LSI)、信息提取、信息索引等,這些技術將被應用到文中提出的系統(tǒng)設計方案中。
本文重點地研究如何從HTML文檔中提取圖片相關信息,保證高效和準確的實現(xiàn)圖片檢索。在對真實數(shù)據(jù)進行實驗和分析的基礎上,提出了若干關鍵技術,用于系統(tǒng)的設計,現(xiàn)歸納如下:
1) 本文提出的方法通過細致地分析HTML文件的標記、標記、網頁標題、網頁的超鏈接文本、圖片URL、標記、關聯(lián)的結構、結構、圖片周圍文本等部分的結構特點,并利用真實數(shù)據(jù)進行實驗驗證,總結了9條提取模式,用于從這些結構中提取與圖片相關的信息,以保證提取到的信息相關性程度較高。研究了三種具體的提取方法:基于DOM的方法、基于字符串的方法和基于Wrapper的方法。
2) 提出了過濾無用圖片的方法,提高了系統(tǒng)中圖片的可用度。該方法將圖片文件大小小于某一閾值,圖片的長或寬小于某一閾值,圖片的長寬比例超過某一閾值以及同一網頁內通過引用次數(shù)超過某一閾值的圖片作為無用圖片剔除。
3) 通過統(tǒng)計分析總結出HTML文件中表現(xiàn)出的一些潛在規(guī)律,比如JPG和GIF的區(qū)別、標記的不同意義以及圖片引用次數(shù)的不同意義。得到如下結論:JPG重要性大于GIF;標記來源圖片的重要性大于標記的圖片;引用次數(shù)越高的圖片重要性越高,而引用次數(shù)高的圖片需要經過過濾才能保證重要性較高。
4) 粗略地探討了將LSI算法應用于圖片搜索引擎來整合文字和內容信息的方法,并通過簡單實驗進行了效果驗證。
5) 設計并實現(xiàn)了一個基于文本的Web圖片搜索引擎,給出了系統(tǒng)的總體結構圖,并對獲取網頁、提取信息、圖片抓取和死鏈檢查、生成縮略圖、建立索引和提供查詢這6個工作流程進行了詳細的描述,最后對系統(tǒng)的使用效果和性能進行了簡單評測。
目 錄
第1章 引言 1
1.1 背景 1
1.2 圖片檢索系統(tǒng)概述 3
1.2.1 系統(tǒng)應用領域 3
1.2.2 用戶檢索方式 3
1.2.3 系統(tǒng)評價 4
1.3 研究現(xiàn)狀 5
1.4 現(xiàn)有圖片檢索系統(tǒng)簡介 5
1.5 本文的主要工作 8
第2章 相關技術 10
2.1 網頁抓取技術 10
2.1.1 基本原理 10
2.1.2 大型Spider的問題 10
2.2 相關性排序技術 11
2.2.1 VSM 12
2.2.2 VSM的改良:LSI 13
2.3 信息提取技術 15
2.3.1 基于內容的提取技術 15
2.3.2 基于文本的提取技術 17
2.4 信息索引技術 17
2.4.1 索引方式 18
2.4.2 提高索引的性能 19
2.5 其它相關技術 20
2.6 本章小結 21
第3章 WEB上的圖片信息提取 22
3.1 HTML簡介 22
3.2 圖片信息提取模式 23
3.3 HTML信息提取方法 27
3.3.1 HTML文檔的規(guī)范化 27
3.3.2 基于DOM的提取方法 27
3.3.3 基于字符串的提取方法 28
3.3.4 基于Wrapper的提取方法 28
3.4 無用圖片過濾 30
3.5 挖掘HTML的潛在規(guī)律 31
3.5.1 GIF和JPG的區(qū)別 31
3.5.2
的不同意義 32
3.5.3 圖片引用次數(shù)的分析 32
3.6 基于文本和基于內容的整合模式 34
3.7 本章小結 37
第4章 WEB圖片搜索引擎的設計和實現(xiàn) 38
4.1 系統(tǒng)簡介 38
4.2 系統(tǒng)詳細工作流程 40
4.2.1 獲取網頁 40
4.2.2 提取信息 40
4.2.3 圖片抓取和死鏈檢查 42
4.2.4 生成縮略圖 42
4.2.5 建立索引 43
4.2.6 提供查詢 47
4.3 系統(tǒng)評測 50
4.4 本章小結 51
第5章 總結和展望 52
5.1 主要工作總結 52
5.2 技術發(fā)展方向 52
參 考 文 獻 54
致 謝 58

關鍵詞:Web圖片搜索引擎 圖像檢索 基于文本 基于內容 信息提取
參 考 文 獻
[1]. 中國互聯(lián)網絡信息中心(CNNIC)?!?003年中國互聯(lián)網絡信息資源數(shù)量調查報告》(2004.4.1)。http://www.cnnic.com.cn/index/0E/00/12/index.htm
[2]. Arvind Arasu et al. Searching The Web. ACM Transactions on Internet Technology, Volume 1, Issue 1, Pages 2 – 43, August 2001
[3]. Lawrence Page, Sergey Brin. The pagerank citation ranking: Bringing order to the Web. In Technical report, Computer Science Department, Stanford University, 1998.
[4]. E. V. Munson and Y. Tsymbalenko. To Search for Images on the Web, Look at the Text, Then Look at the Images, in Proceedings of the First International Workshop on Web Document Analysis, Seattle, pages 39-42, September 2001.
[5]. M. La Cascia, S. Sethi, and S. Sclaroff . Combining Textual and Visual Cues for Content-based Image Retrieval on the World Wide Web. Proc. IEEE Workshop on Content-Based Access of Image and Video Libraries, June 1998
[6]. 百度圖片搜索。http://image.baidu.com
[7]. Google圖像搜索。http://images.google.com/
[8]. ImageRover. http://www.cs.bu.edu/groups/ivc/ImageRover
[9]. WebSeer. http://infolab.cs.uchicago.edu/Webseer
[10]. WebSeek. http://www.ctr.columbia.edu/WebSEEk/
[11]. ImageSpace. http://www.wi.leidenuniv.nl/home/lim/image.scape.HTML
[12]. Scott C. Deerwester, Susan T. Dumais, Thomas K. Landauer, George W. Furnas, and Richard A. Harshman. Indexing by Latent Semantic Analysis. Journal of the American Society of Information Science, 41(6):391--407, 1990
[13]. Landauer, T. K., Foltz, P. W., and Laham, D. Introduction to Latent Semantic Analysis. Discourse Processes, 25, 259-284, 1998
[14]. H.T. Shen, B.C. Ooi, and K.L. Tan. Giving Meanings to WWW Images. ACM Multimedia'2000, pp 39-48
[15]. Zheng Chen, Liu Wenyin, Feng Zhang, Minjing Li and Hongjiang Zhang. Web Mining for Web Image Retrieval. Journal of the American Society for Information Science, vol. 52, No. 10, pp. 831-839, 2001
[16]. Zheng Chen, Liu Wenyin, Rui Yang, Mingjing Li and HongJiang Zhang. A Web Media Agent. WWW Posters 2001. The 3rd Annual Conference on World Wide Web Applications, September 5-7, 2001
    <tr id="8p680"></tr>