关于我们

深圳市数据动力信息技术有限公司从2012年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有数千个的稳定高匿HTTP代理地址池,可以有效绕过各种反采集策略。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是EXCEL,CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

联系我们

0755-27586035(拨打免费)

15899780267

 61979241或 1033289572

 

点击这里给我发消息

友情链接

当前位置: 首页 > 技术文章 >
如何抓取亚马逊(中文)的图书
发布时间: 来源:数据动力 浏览:3

亚马逊(中国)的图书列表默认只能显示前400页(即前4800条),之后的列表均是重复的。

例如:“现代当代小说”分类下有48248条(包括无库存)记录,http://www.amazon.cn/gp/search/ref=sr_nr_p_n_availability_1?rh=n:2130609051,p_n_availability:2122562051

第400页之后的列表内容和400页是一样的:

http://www.amazon.cn/gp/search/ref=sr_nr_p_n_availability_1?rh=n:2130609051,p_n_availability:2122562051&page=400

 如下图示第400页:

http://www.amazon.cn/gp/search/ref=sr_nr_p_n_availability_1?rh=n:2130609051,p_n_availability:2122562051&page=401

  如下图示第401页:

 

 

为了抓取到尽可能多的记录,我们可以采用按照分类逐级进入的方法:

1)如果当前分类下记录数少于4800,则直接抓取当前分类。

2)如果当前分类下记录数多于4800条,则进入各子分类。