網(wǎng)絡(luò)爬蟲的設(shè)計與分析.doc
![](http:///template/default/images/docicon2.gif)
![](http:///template/default/images/docicon3.gif)
約35頁DOC格式手機(jī)打開展開
網(wǎng)絡(luò)爬蟲的設(shè)計與分析,摘要 隨著互聯(lián)網(wǎng)的快速發(fā)展,社會對信息的獲得越來越顯得重要,而在互聯(lián)網(wǎng)時代利用網(wǎng)絡(luò)爬蟲搜集網(wǎng)頁已經(jīng)成為一種有效的手段,網(wǎng)絡(luò)爬蟲是一種自動搜集互聯(lián)網(wǎng)信息的程序。其功能強(qiáng)大,應(yīng)用廣泛,能夠?yàn)樗阉饕娌杉W(wǎng)絡(luò)信息,也可以作為定向信息采集器,定向采集某些網(wǎng)站下的特定信息,如政府的輿情監(jiān)控應(yīng)用,企業(yè)的信息采集...
![](http://img.queshao.com/images/pcgzh.gif)
![](http://preview.queshao.com/tobuy/1471030.gif)
內(nèi)容介紹
此文檔由會員 那年三月 發(fā)布
網(wǎng)絡(luò)爬蟲的設(shè)計與分析
摘要 隨著互聯(lián)網(wǎng)的快速發(fā)展,社會對信息的獲得越來越顯得重要,而在互聯(lián)網(wǎng)時代利用網(wǎng)絡(luò)爬蟲搜集網(wǎng)頁已經(jīng)成為一種有效的手段,網(wǎng)絡(luò)爬蟲是一種自動搜集互聯(lián)網(wǎng)信息的程序。其功能強(qiáng)大,應(yīng)用廣泛,能夠?yàn)樗阉饕娌杉W(wǎng)絡(luò)信息,也可以作為定向信息采集器,定向采集某些網(wǎng)站下的特定信息,如政府的輿情監(jiān)控應(yīng)用,企業(yè)的信息采集等。
本文利用JAVA實(shí)現(xiàn)了一個基于廣度優(yōu)先算法的多線程爬蟲程序。本論文闡述了網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)中一些主要問題:為何使用廣度優(yōu)先的爬行策略,以及如何實(shí)現(xiàn)廣度優(yōu)先爬行;為何要使用多線程,以及如何實(shí)現(xiàn)多線程;爬蟲執(zhí)行時的數(shù)據(jù)存儲方案;網(wǎng)頁信息解析功能等。