http代理IP如何应用于爬虫采集?
http吧
全部回复
仅看楼主
level 2
xs07890 楼主
河马ip代理
在整体互联网的web结构当中,一个出现频率非常高的组件就是http代理服务器,当然其他的还有浏览器,缓存服务器等等,如果想要更换的认识并了解web构架,那么我们需要理解http代理服务器
代理服务器的位置
上图所示就是一个最原始代理服务器的角色:
假设你现在在某一处地方访问某个网站,假设那个地点就是网吧,那么通常来说,你是通过该网吧的代理服务器来进行互联网的访问。你本地浏览器的http请求先代理服务器,
代理服务器收到你的请求之后解析你的请求报文,然后向目标服务器发起HTTP请求,收到目标服务器的响应之后,再把响应报文回复给你。这就是代理服务器的工作流程。
就跟房屋中介是的,跟你对接的不是房东,而是中介。
那么我们为什么需要代理服务器呢
为什么需要代理服务器 有些公司需要限制某些网站不能被员工访问,那么就可以在代理服务器上添加策略:当检测到有员工访问该网站时直接提示;
公司出于安全的考虑,避免员工访问的网站带入病毒,因为所有请求和响应都会经过代理,所以就可以在代理上做病毒检测;
假设员工A和员工B都想访问某网站的测试网站,那代理服务器可以缓存test.html,这样员工A和B的两个请求可以缩减为一个,降低了网络带宽的开销;
总而言之,代理服务器是一个口子,有了这个口子,我们就可以在这个口子上做任何事情。
代理服务器与缓存服务器
在现实的架构中,代理服务器与缓存服务器的角色越来越模糊,或者说通常把两者合二为一,一个位于客户端和服务端中间位置的服务器既有代理的功能又有缓存的功能,比如我们熟悉的CDN。
反向代理服务器
在代理服务器的基础上,又逐渐衍生出代理反向代理服务器
最原始的代理服务器的代理是指充当客户端的“代理”,那如上图所示的代理则是Web服务器的代理,因此我们给其取名为反向代理服务器。(反向的含义是以前代理客户端,现在代理服务端)
反向代理服务器对外屏蔽了真实的服务器,并且作为服务端的出入口,我们可以在反向代理服务器上添加策略:比如Web攻击防护策略、CC攻击防护策略等。
http代理IP的应用非常广泛,http代理IP主要应用于浏览器层面,主要应用于爬虫数据采集,舆情监测、补量、APP排名,seo优化当中。
2019年11月04日 03点11分 1
1