关于我们

深圳市数据动力信息技术有限公司从2012年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有数千个的稳定高匿HTTP代理地址池,可以有效绕过各种反采集策略。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是EXCEL,CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

联系我们

0755-27586035(拨打免费)

15899780267

 61979241或 1033289572

 

点击这里给我发消息

友情链接

当前位置: 首页 > 技术文章 >
如何使抓取的HTML规范化
发布时间: 来源:数据动力 浏览:15

在数据采集时,处理不规范的HTML页面是件令人头疼的事。因为不规范的HTML页面往往会引起xpath解析失败,造成得不到正确的数据。

了解Firebug的人都知道,它的HTML视图下有一个巧妙的功能,能够自动修复不规范的HTML,以规范的形式展现。

例如,如下的一个不规范的HTML页面:

 

 

name

 

age
redice

 

25

 

我们看一下它在Firebug下的显示内容:

 

 

有没有能实现类似Firebug这种规范化HTML的Python库呢?

 

有。经过查找、测试,最终发现PyTidyLib库可以很好地实现这个功能。

 

http://cloud.github.com/downloads/countergram/pytidylib/pytidylib-0.2.1.tar.gz

 

下面是PyTidyLib库的一个测试:

 

>>> html = open('c:/html_invalid.html').read()

>>> print html

nameage
redice25

>>> from tidylib import tidy_document

>>> document, errors = tidy_document(html)

>>> print document

    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">

 

   

 

 

   

     

       

       

     

     

       

       

     

   

          name

       

          age

       

          redice

       

          25

       

 

 

 

 

http://www.datapowers.cn