网络爬虫是做什么的?
优就业吧
全部回复
仅看楼主
level 12
st1erearth 楼主
2020年08月06日 01点08分 1
level 6
网络爬虫(Web crawler),就是通过网址获得网络中的数据、然后根据目标解析数据、存储目标信息。这个过程可以自动化程序实现,行为类似一个蜘蛛。蜘蛛在互联网上爬行,一个一个网页就是蜘蛛网。这样蜘蛛可以通过一个网页爬行到另外一个网页。
网络爬虫的基本工作流程:
1.首先选取一部分精心挑选的种子URL;
2.将这些URL放入待抓取URL队列;
3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。
4.分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。
5.在抓取过程中,大多会涉及到网站的访问限制或者反爬机制,这个时候需要通过更换ip的策略来进行绕过。
2020年08月06日 03点08分 2
1