python正则表达式网页爬虫
正则表达式
正则表达式相关知识
1,背景
字符串是编程时涉及到的最多的一种数据结构,对字符串进行操作的需求几乎无处不在。比如判断一个字符串是否是合法的Email地址,虽然可以编程提取@前后的子串,再分别判断是否是单词和域名,但这样做不但麻烦,而且代码难以复用。
2,定义
正则表达式(regular expression,rc)是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它“匹配”了,否则,该字符串就是不合法的。
3,方法
(1)创建一个匹配Email的正则表达式;
(2)用该正则表达式去匹配用户的输入来判断是否合法。
4,应用
(1)验证用户名和密码:(”w{5,15}$”)正确格式:”[A-Z][a-z]_[0-9]”组成,并且第一个字必须为字母6~16位;
(2)验证电话号码:(”^(d{3,4}-)d{7,8}$”)正确格式:xxx/xxxx-xxxxxxx/xxxxxxxx;
(3)验证手机号码(包含虚拟号码和新号码段):”^1([38][0-9]|4[5-9]|5[0-3,5-9]|66|7[0-8]|9[89])[0-9]{8}$”;
(4)验证身份证号(15位):”d{14}[[0-9],0-9xX]”,(18位):”d{17}(d|X|x)”;
题目
3)不能以0开头
实现代码
运行结果
网页爬虫
目的
1、学习网络爬虫编程,掌握网络爬虫编程实例;
2、掌握利用正则表达式从字符串中提取特定字符串的方法;
3、掌握利用正则表达式实现爬虫编程,爬取网络信息的方法。
要求
1、掌握正则表达式检查字符串是否与指定模式匹配、从字符串中提取特定字符串的方法,掌握了利用正则表达式实现爬虫编程,爬取网络信息的方法。
2、掌握爬虫程序的基本操作原理以及操作过程,能设计简单的爬虫程序,对今后网络编程技术打下基础。
题目
1、利用正则表达式,编写一个爬虫程序,抓取页面中文字:桂电要闻、文明校园建设、桂电新闻、校园快讯、学院动态、媒体桂电、通知公告、招标公示。
2、利用bs4抓取主页 www.guet.edu.cn 标题
实现代码
运行结果
- a-zA-Z