关于我们

深圳市数据动力信息技术有限公司从2012年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有数千个的稳定高匿HTTP代理地址池,可以有效绕过各种反采集策略。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是EXCEL,CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

联系我们

0755-27586035(拨打免费)

15899780267

 61979241或 1033289572

 

点击这里给我发消息

友情链接

当前位置: 首页 > 技术文章 >
哪种代理适合用于Web数据采集
发布时间: 来源:数据动力 浏览:10

在Web数据采集中为了避免被服务器封锁而通过代理下载的情况很常见。但是,并非所有的代理都适合于Web数据采集。

根据HTTP代理的匿名性可以将其分为以下几种:

 

1. 透明代理(Transparent Proxies)

目标服务器能够检测到真实的源IP。

 

目标服务器根据HTTP请求头进行检测,判断依据:

REMOTE_ADDR = 代理服务器 IP

HTTP_VIA = 通常为代理服务器 IP(或代理软件名称,也可能无此头)

HTTP_X_FORWARDED_FOR = 真实源IP(不用代理时,无此头或值为空)

PS:该类型代理不适合用于Web数据采集。

 

2. (普通)匿名代理(Anonymous Proxies)

目标服务器无法检测到真实的源IP,但能够检测到使用了代理。

 

检测依据:

REMOTE_ADDR = 代理服务器 IP

HTTP_VIA = 通常为代理服务器 IP(或代理软件名称,也可能无此头)

HTTP_X_FORWARDED_FOR = 代理服务器 IP(知道你使用了代理,但无法得知真实源IP)

PS:该类型代理可以用于Web数据采集,但有被检测到的风险。

 

3. 高匿名代理(High Anonymity Proxies -Elite proxies

目标服务器无法检测到你在是使用代理。

 

检测依据:

REMOTE_ADDR = 代理服务器 IP

HTTP_VIA = 值为空或无此头

HTTP_X_FORWARDED_FOR = 没数值或无此头

PS:该类型的代理非常适合用户Web数据采集。鲲鹏数据的付费代理方案提供的全部为高匿名类型的代理。

 

另外,不使用代理时发出的头:

REMOTE_ADDR =真实源 IP

HTTP_VIA = 值为空或无此头

HTTP_X_FORWARDED_FOR = 没数值或无此头

 

不过,在检测严格的情况下,即使没有HTTP_VIA头和HTTP_X_FORWARDED_FOR头,如果存在HTTP_PROXY_CONNECTION头,会被认为在使用普通匿名代理。

http://www.datapowers.cn