網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與分析.doc
約35頁(yè)DOC格式手機(jī)打開展開
網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與分析,摘要 隨著互聯(lián)網(wǎng)的快速發(fā)展,社會(huì)對(duì)信息的獲得越來(lái)越顯得重要,而在互聯(lián)網(wǎng)時(shí)代利用網(wǎng)絡(luò)爬蟲搜集網(wǎng)頁(yè)已經(jīng)成為一種有效的手段,網(wǎng)絡(luò)爬蟲是一種自動(dòng)搜集互聯(lián)網(wǎng)信息的程序。其功能強(qiáng)大,應(yīng)用廣泛,能夠?yàn)樗阉饕娌杉W(wǎng)絡(luò)信息,也可以作為定向信息采集器,定向采集某些網(wǎng)站下的特定信息,如政府的輿情監(jiān)控應(yīng)用,企業(yè)的信息采集...
內(nèi)容介紹
此文檔由會(huì)員 那年三月 發(fā)布
網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與分析
摘要 隨著互聯(lián)網(wǎng)的快速發(fā)展,社會(huì)對(duì)信息的獲得越來(lái)越顯得重要,而在互聯(lián)網(wǎng)時(shí)代利用網(wǎng)絡(luò)爬蟲搜集網(wǎng)頁(yè)已經(jīng)成為一種有效的手段,網(wǎng)絡(luò)爬蟲是一種自動(dòng)搜集互聯(lián)網(wǎng)信息的程序。其功能強(qiáng)大,應(yīng)用廣泛,能夠?yàn)樗阉饕娌杉W(wǎng)絡(luò)信息,也可以作為定向信息采集器,定向采集某些網(wǎng)站下的特定信息,如政府的輿情監(jiān)控應(yīng)用,企業(yè)的信息采集等。
本文利用JAVA實(shí)現(xiàn)了一個(gè)基于廣度優(yōu)先算法的多線程爬蟲程序。本論文闡述了網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)中一些主要問題:為何使用廣度優(yōu)先的爬行策略,以及如何實(shí)現(xiàn)廣度優(yōu)先爬行;為何要使用多線程,以及如何實(shí)現(xiàn)多線程;爬蟲執(zhí)行時(shí)的數(shù)據(jù)存儲(chǔ)方案;網(wǎng)頁(yè)信息解析功能等。