使用HttpProxy筛选可用HTTP代理
http吧
全部回复
仅看楼主
level 9
YyyyFffff 楼主
研究爬虫的人都知道HTTP代理的重要性,他保证了我们抓取目标网站数据时,我们的IP地址不被目标服务器ban掉。
HttpProxy是一个用于检测西刺代理中可用代理的一个小项目。用于检测的代理地址来自WebSplider抓取的西刺代理的数据。HttpProxy同时提供API,方便用户调用检测后的数据。
曾在网上找了很多自建代理池的方法、代码,他们判断代理是否可用的方法基本都是检测设置代理后,请求目标站点,返回状态码是否为200。但是,代理服务器可能会将你的请求劫持,响应别的网站数据,这种情况下返回的状态码也是200。HttpProxy解决方案是检测状态码与检测内容返回值。我构造了一个返回数字1的URL,设置代理后请求URL,返回内容是1的话,即表明该代理可用。
2020年10月18日 06点10分 1
1