基于文本的web圖片搜索引擎的研究.doc
約65頁DOC格式手機打開展開
基于文本的web圖片搜索引擎的研究,65頁共計39501字摘要本文研究工作是針對web圖片搜索引擎的應用背景,以構建大型web圖片搜索引擎為目標,提出基于文本檢索方式的web圖片搜索引擎設計方案。文中介紹和研究了一系列與web圖片搜索引擎相關的技術,包括網頁抓取、相關性排序(vsm和lsi)、信息提取、信息索引等,這些技術將被應用到文中提出的系統(tǒng)設計方案...
內容介紹
此文檔由會員 bfxqt 發(fā)布
65頁共計39501字
摘 要
本文研究工作是針對Web圖片搜索引擎的應用背景,以構建大型Web圖片搜索引擎為目標,提出基于文本檢索方式的Web圖片搜索引擎設計方案。
文中介紹和研究了一系列與Web圖片搜索引擎相關的技術,包括網頁抓取、相關性排序(VSM和LSI)、信息提取、信息索引等,這些技術將被應用到文中提出的系統(tǒng)設計方案中。
本文重點地研究如何從HTML文檔中提取圖片相關信息,保證高效和準確的實現(xiàn)圖片檢索。在對真實數(shù)據(jù)進行實驗和分析的基礎上,提出了若干關鍵技術,用于系統(tǒng)的設計,現(xiàn)歸納如下:
1) 本文提出的方法通過細致地分析HTML文件的標記、標記、網頁標題、網頁的超鏈接文本、圖片URL、標記、關聯(lián)的和結構、
摘 要
本文研究工作是針對Web圖片搜索引擎的應用背景,以構建大型Web圖片搜索引擎為目標,提出基于文本檢索方式的Web圖片搜索引擎設計方案。
文中介紹和研究了一系列與Web圖片搜索引擎相關的技術,包括網頁抓取、相關性排序(VSM和LSI)、信息提取、信息索引等,這些技術將被應用到文中提出的系統(tǒng)設計方案中。
本文重點地研究如何從HTML文檔中提取圖片相關信息,保證高效和準確的實現(xiàn)圖片檢索。在對真實數(shù)據(jù)進行實驗和分析的基礎上,提出了若干關鍵技術,用于系統(tǒng)的設計,現(xiàn)歸納如下:
1) 本文提出的方法通過細致地分析HTML文件的標記、標記、網頁標題、網頁的超鏈接文本、圖片URL、標記、關聯(lián)的和結構、