编玩边学

>

资讯中心

>

推荐资讯

> 正文

Python爬虫入门学习

2019-08-26 来源:编玩边学

爬虫就是获取网页上的各种资源的一种程序,使用Python设计爬虫最为流行。今天就来爬取网页中的图片,爬取图片,首先要使用urllib获取要爬取URL的资源。

import urllib as ul

htmlone = ul.urlopen(‘https://www.codepku.com/information/589’)

htmltwo = htmlone.read()

然后我们需要找到获取的图片代码特征,并用正则表达式匹配

import re

imgone = r’src=”.+?\.jpg” style’

imgtwo = re.compile(imgone)

然后两者合并

import urllib as ul

import re

 

def gethtml(url):

htmlone = ul.urlopen(url)

htmltwo = htmlone.read()

return html

 

imgone = r’src=”.+?\.jpg” style’

imgtwo = re.compile(imgone)

imglist = imgtwo.findall(gethtml(‘https://www.codepku.com/information/589’))

最后把图片保存到本地

x = 0

for img in imglist:

  ul.urlretrieve(img,’%s,jpg’ %x)

  x += 1

最后就能得到以正整数命名的图片了。更深入的爬虫还要针对反爬虫和登录等问题一一解决。下次再说。


所以如果您想报名少儿编程培训课程,就请点击“少儿编程报名”,填写信息,并领取5G的免费试听课程和学习资料。    

版权及免责声明

1、"编玩边学"上的内容,包括文章、资料、资讯等,本网注明"来源:编玩边学"的,其版权均为"编玩边学"或深圳市编玩边学教育科技有限公司所有,任何公司、媒体、网站或个人未经授权不得转载、链接、转贴或以其他方式使用。已经得到"编玩边学"许可的媒体、网站,在使用时必须注明"来源:编玩边学",违者本网站将依法追究责任。

2、"编玩边学" 未注明"来源:编玩边学"的文章、资料、资讯等均为转载,本网站转载出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性。如其他媒体、网站或个人从本网站下载使用,必须保留本网站注明的"稿件来源",并自负版权等法律责任。如擅自篡改为" 来源:编玩边学 " ,本网站将依法追究其法律责任。

3、如果本网所转载内容侵犯了您的权益,请与我们联系team@codepku.com,我们将及时处理。

证书查询 x
请输入证书编号:

请输入正确的证书编号

学员姓名:孙兴民

课程:Scratch Level 1

发证日期:2019.08.15

证书查询

该证书不存在