网络爬虫是做什么的？ - 优就业吧

level 6

网络爬虫(Web crawler)，就是通过网址获得网络中的数据、然后根据目标解析数据、存储目标信息。这个过程可以自动化程序实现，行为类似一个蜘蛛。蜘蛛在互联网上爬行，一个一个网页就是蜘蛛网。这样蜘蛛可以通过一个网页爬行到另外一个网页。
网络爬虫的基本工作流程：
1.首先选取一部分精心挑选的种子URL；
2.将这些URL放入待抓取URL队列；
3.从待抓取URL队列中取出待抓取在URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。
4.分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环。
5.在抓取过程中，大多会涉及到网站的访问限制或者反爬机制，这个时候需要通过更换ip的策略来进行绕过。

2020年08月06日 03点08分 2