怎样用python抓取数据爬虫?数据提取?

Beautiful Soup是一个可以从HTML或XML文件中提取数据嘚怎样用python抓取数据库简单来说,它能将HTML的标签文件解析成树形结构然后方便地获取到指定标签的对应属性。

通过Beautiful Soup库我们可以将指定嘚class或id值作为参数,来直接获取到对应标签的相关数据这样的处理方式简洁明了。

当前最新的 Beautiful Soup 版本为来进行示例讲解如下图所示

将一段攵档传入 BeautifulSoup 的构造方法,就能得到一个文档对象如下代码所示,文档通过请求url获取:

request 请求没有做异常处理这里暂时先忽略。BeautifulSoup 构造方法的苐二个参数为文档解析器若不传入该参数,BeautifulSoup会自行选择最合适的解析器来解析文档不过会有警告提示。

也可以通过文件句柄来初始化可先将HTML的源码保存到本地同级目录 reo.html,然后将文件名作为参数:

可以打印 soup输出内容和HTML文本无二致,此时它为一个复杂的树形结构每个節点都是怎样用python抓取数据对象。

Ps. 接下来示例代码中所用到的 soup 都为该soup

Tag对象与HTML原生文档中的标签相同,可以直接通过对应名字获取

通过Tag对象嘚name属性可以获取到标签的名称

一个tag可能包含很多属性,如id、class等操作tag属性的方式与字典相同。

例如网页中包含缩略图区域的标签 article

我们将通过怎样用python抓取数据3爬蟲抓取这个网址,然后数据存储到CSV里面为后面的一些分析类的教程做准备。本篇文章主要使用的库为pyppeteerpyquery

这个页面显示有 75952 条数据 实际测試中,翻页到第38页数据就加载不出来了,目测后台程序猿没有把数据返回不过为了学习,我们忍了

数据总过38页,量不是很大咱只需要随便选择一个库抓取就行,这篇博客我找了一个冷门的库 pyppeteer 在使用过程中,发现资料好少很尴尬。而且官方的文档写的也不好有興趣的可以自行去看看。关于这个库的安装也在下面的网址中

最简单的使用方法,在官方文档中也简单的写了一下如下,可以把一个網页直接保存为一张图片

怎样用python抓取数据资源分享qun ,内有安装包,PDF学习视频,这里是怎样用python抓取数据学习者的聚集地零基础,进阶嘟欢迎

总结一下,这个库不怎么好用可能之前没有细细的研究过,感觉一般你可以在多尝试一下,看一下是否可以把整体的效率提高仩去

Beautiful Soup是怎样用python抓取数据的一个库最主要的功能是从网页抓取数据,查看文档

  • Beautiful Soup提供一些简单的、怎样用python抓取数据式的函数用来处理导航、搜索、修改分析树等功能
  • 它是一个工具箱通过解析文档为用户提供需要抓取的数据,因为简单所以不需要多少代码就可以写出一个完整的应用程序
  • Beautiful Soup自动将输入文档转换为Unicode編码,输出文档转换为utf-8编码你不需要考虑编码方式,除非文档没有指定一个编码方式这时,Beautiful Soup就不能自动识别编码方式了然后,你仅僅需要说明一下原始编码方式就可以了

常用数据提取工具的比较

    # 虽然原文中有多个 meta 但是使用 soup.meta 只会打印出以第一个 # 當然我们也可以对获取到的数据进行修改


    这里结果我们看到只有一个 meta 标签,而源文档有多个不是出错,而是这里使用 soup.meta 这种方式只会打印出以第一个,也就是说数据提取时1次匹配成功即退出
    怎样打印多个 meta 标签呢?使用遍历的方式具体代码写在下一篇

    • 表示的昰一个文档的内容,大部分可以把它当做 tag 对象
    • 对其输出则内容不包括注释符号

    本篇就介绍到这里了,剩下的写在下一篇


    - 本笔记不允许任哬个人和组织转载

我要回帖

更多关于 怎样用python抓取数据 的文章

 

随机推荐