编玩边学

资讯中心

Python爬虫入门学习

2019-08-26 来源：编玩边学

爬虫就是获取网页上的各种资源的一种程序，使用Python设计爬虫最为流行。今天就来爬取网页中的图片，爬取图片，首先要使用urllib获取要爬取URL的资源。

import urllib as ul

htmlone = ul.urlopen(‘https://www.codepku.com/information/589’)

htmltwo = htmlone.read()

然后我们需要找到获取的图片代码特征，并用正则表达式匹配

import re

imgone = r’src=”.+?\.jpg” style’

imgtwo = re.compile(imgone)

然后两者合并

import urllib as ul

import re

def gethtml(url):

htmlone = ul.urlopen(url)

htmltwo = htmlone.read()

return html

imgone = r’src=”.+?\.jpg” style’

imgtwo = re.compile(imgone)

imglist = imgtwo.findall(gethtml(‘https://www.codepku.com/information/589’))

最后把图片保存到本地

x = 0

for img in imglist:

ul.urlretrieve(img,’%s,jpg’ %x)

x += 1

最后就能得到以正整数命名的图片了。更深入的爬虫还要针对反爬虫和登录等问题一一解决。下次再说。

所以如果您想报名少儿编程培训课程，就请点击“少儿编程报名”，填写信息，并领取5G的免费试听课程和学习资料。

关注我们的自媒体

获取更多精彩内容

编玩边学订阅号

编玩边学服务号

微博

编玩边学广东深圳

实用工具

资讯排行

编程少年：张天骏，阳光少年成长记

最值得推荐的少儿编程进阶书籍清单

Python培训怎么样

VR版本《Minecraft》来了！就在Oculus

儿童在游戏过程中学习才能获得兴趣

编玩边学魔法演绎，会唱歌的胡萝卜

版权及免责声明

1、"编玩边学"上的内容，包括文章、资料、资讯等，本网注明"来源：编玩边学"的，其版权均为"编玩边学"或深圳市编玩边学教育科技有限公司所有，任何公司、媒体、网站或个人未经授权不得转载、链接、转贴或以其他方式使用。已经得到"编玩边学"许可的媒体、网站，在使用时必须注明"来源：编玩边学"，违者本网站将依法追究责任。

2、"编玩边学" 未注明"来源：编玩边学"的文章、资料、资讯等均为转载，本网站转载出于传递更多信息之目的，并不意味着赞同其观点或证实其内容的真实性。如其他媒体、网站或个人从本网站下载使用，必须保留本网站注明的"稿件来源"，并自负版权等法律责任。如擅自篡改为" 来源：编玩边学 " ，本网站将依法追究其法律责任。

3、如果本网所转载内容侵犯了您的权益，请与我们联系team@codepku.com，我们将及时处理。

扫描免费领取价值千元试听课

400-636-1878

证书查询 x

请输入证书编号：

请输入正确的证书编号

学员姓名：孙兴民

课程：Scratch Level 1

发证日期：2019.08.15

证书查询

编玩边学

资讯中心

推荐资讯

Python爬虫入门学习

实用工具

资讯排行

最新资讯

独家首发：米切尔·雷斯尼克教授来华，或与编玩边学开展深入合作

编玩边学创始人郝祥林、李涛入选《2018胡润30×30创业领袖》榜单！

满载信赖，荣耀起航！编玩边学2019战略发布会圆满举办，全程高能回顾！

官宣！教育部公布「2020全国中小学生白名单赛事」，编程占一半！

人民日报统计：未来40年最吃香的3个专业，家有考生的快看看！

编玩边学：深圳少儿编程的发展现状怎么样？

游戏化改造K12学科？编玩边学发布新品《玩学世界》

《玩学世界》用户突破100万，“3D+游戏”发力教育生态效果惊人

用户隐私政策

人民日报：这9个好习惯，趁假期一定要让孩子养成，受益终身！

第十二届最后一场STEMA测评报名开始啦

4条编程学习小妙计，让你更好地教孩子学编程~

教育惩戒新规3月1日实施，划定7条红线明确惩戒尺度

【请查收】1月24日 STEMA评测线上考试指南！！！

教育部发布2021年寒假中小学生和幼儿护眼要诀，快收藏！

《玩学世界》用户突破100万，“3D+游戏”发力教育生态效果惊人

热门搜索

幼儿教学

人工智能

编程比赛编程竞赛小学生竞赛全国竞赛

深圳少儿编程，编玩边学少儿编程，少儿编程品牌