关于我们

深圳市数据动力信息技术有限公司从2012年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有数千个的稳定高匿HTTP代理地址池,可以有效绕过各种反采集策略。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是EXCEL,CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

联系我们

0755-27586035(拨打免费)

15899780267

 61979241或 1033289572

 

点击这里给我发消息

友情链接

当前位置: 首页 > 技术文章 >
新蛋网图片价格转文本方案
发布时间: 来源:数据动力 浏览:5

新蛋网的价格信息是以图片的形式显示的(如下图所示),给采集造成了障碍。

 

 

鲲鹏数据的技术人员经过分析发现,新蛋网的价格图片格式都很规范:字符间距明显,同一字符的表现形式都是一致的。这样就可以采用特征库匹配的方法得到很好的识别效果。

如下图所示,是对新蛋网图片价格制做的特征库:

 

利用该特征库进行图片识别的效果如下: