如何在爬取的网页中筛选英文文章内容?

在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材。

我们最常规的做法就是通过鼠标右键,选择另存为。但有些图片鼠标右键的时候并没有另存为选项,还有办法就通过就是通过截图工具截取下来,但这样就降低图片的清晰度。好吧~!其实你很厉害的,右键查看页面源代码。

我们可以通过python 来实现这样一个简单的爬虫功能,把我们想要的代码爬取到本地。下面就看看如何使用python来实现这样一个功能。

首先我们可以先获取要下载图片的整个页面信息。

Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据。首先,我们定义了一个getHtml()函数:

read()方法用于读取URL上的数据,向getHtml()函数传递一个网址,并把整个页面下载下来。执行程序就会把整个网页打印输出。

二,筛选页面中想要的数据

Python 提供了非常强大的正则表达式,我们需要先要了解一点python 正则表达式的知识才行。

假如我们百度贴吧找到了几张漂亮的壁纸,通过到前段查看工具。找到了图片的地址,如:src=””pic_ext=”jpeg”

如何用Python来制作简单的爬虫,爬取到你想要的图片

我们又创建了getImg()函数,用于在获取的整个页面中筛选需要的图片连接。re模块主要包含了正则表达式:

如果你在学习Python的过程中遇见了很多疑问和难题,可以加-q-u-n 227 -435-450里面有软件视频资料免费

运行脚本将得到整个页面中包含图片的URL地址。

三,将页面筛选的数据保存到本地

把筛选的图片地址通过for循环遍历并保存到本地,代码如下:

这里的核心是用到了urllib.urlretrieve()方法,直接将远程数据下载到本地。

通过一个for循环对获取的图片连接进行遍历,为了使图片的文件名看上去更规范,对其进行重命名,命名规则通过x变量加1。保存的位置默认为程序的存放目录。

程序运行完成,将在目录下看到下载到本地的文件。

输出:爬取该网站所有页面的测试相关前言资讯和技术文章的
文章链接、标题及阅读量、点赞数,发表日期

Beautifulsoup4官方文档如下,点击可以进行系统地学习了解:。
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

使用pip3安装,在命令窗口中的安装命令分别如下:

这里name来制定标签的名字,attrs来设置标签的一些参数设置,这里只拿出了href属性,并且使用pile("\d人阅读"))

另外为了拿到所有页面的信息,这里定义了一个多页函数

如此一来,基本上就已经将该博客的所有文章链接,标题,阅读量爬出来了。


  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...

  • 这几天重新拾起了爬虫,算起来有将近5个月不碰python爬虫了。 对照着网上的程序和自己以前写的...

  • 关于bs4,官方文档的介绍已经非常详细了,传送:Beautifulsoup 4官方文档,这里我把它组织成自己已经消...

  • 距离那场梦魇已过去许久,跟优雨好好告别会,终是从那无止境的愧疚里有所解脱。萤也从梦境中找回了他得侄女,只有深红似乎...

我们一起来学习Python数据分析的工具学习阶段,包括Numpy,Pandas以及Matplotlib,它们是python进行科学计算,数据处理以及可视化的重要库,在以后的数据分析路上会经常用到,所以一定要掌握,并且还要熟练!...

如何用Python来制作简单的爬虫,爬取到你想要的图片

二,筛选页面中想要的数据 Python 提供了非常强大的正则表达式,我们需要先要了解一点python 正则表达式的知识才行。假如我们百度贴吧找到了几张漂亮的壁纸,通过到前段查看工具。找到了图片的地址,如:src=”...

Python vs R:在机器学习和数据分析领域中的对比

数据打标签,填充缺失值,筛选等等这些对于 R 而言很容易就可以实现,R 也更加强调易于操作的数据分析,统计和图形化模型工作。由于 R 是作为统计性的编程语言而构建的,因此它具有很好的统计方面的支持。它能够很...

筛选了2年内优秀的python书籍,个别经典的书籍扩展到5年内。尽量只收集通用的书籍,专用的书籍只收集特别优秀者。python专业书籍汇总 2018最佳人工智能图像处理工具OpenCV书籍下载 流畅的python-2017.pdf 《流畅的...

手把手|哇!用R也可以跑Python

R还是Python?真是个千古难题!如果你主要从事数据分析、统计建模和可视化,R大概是你的不二之选。但如果你还想来搞点深度学习,整个...本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”。

[雪峰磁针石博客]python 3.7极速入门教程8语言比较与...

筛选了2年内优秀的python书籍,个别经典的书籍扩展到5年内。尽量只收集通用的书籍,专用的书籍只收集特别优秀者。python专业书籍汇总 2018最佳人工智能图像处理工具OpenCV书籍下载 流畅的python-2017.pdf 《流畅的...

小白学数据|28张小抄表大放送:Python,R,大数据,机器...

1.Python的数据科学快速入门指南 如果你刚入门Python,那么这张小抄表非常适合你。查看这份小抄表,你将获得循序渐进学习...本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

基于MaxCompute分布式Python能力的规模数据科学分析

我要回帖

更多关于 python爬取网页中的文章 的文章

 

随机推荐