level 1
2、分布式爬虫:即使用尽了各种方法,单机单位时间内可以抓取的网页数量仍然是有限的。
面对大量的网页队列,可以计算的时间还是很长的。这种情况下就必须要用机器换时间了,这就是分布式爬虫。
分布式不是爬虫的本质,也不是必须的。对于相互独立、无通信的任务,可以手动分割任务,然后在多台机器上执行,减少每台机器的工作量,时间会成倍减少。
举例来说,有200W的网页要爬,可以用5台机器各自爬40W的网页互不重复,相对来说单机费时就缩短了5倍
2021年08月16日 06点08分
