2018-02-09 python 宅必备 好久没更新Python相关的内容了,这个专题主要说的是Python在爬虫方面的应用,包括爬取和处理部分 第一节我们介绍如何爬取静态网页 静态网页指的是网页的内容不是通过js动态加载出来的 我们可以直接使用一些**开发者工具查看** 这里我采用谷歌浏览器的开发者工具 [TOC] ## 开发环境 操作系统:windows 10 Python版本 :3.6 爬取网页模块:requests 分析网页模块:Beautiful Soup 4 ## 模块安装 ``` pip3 install requests pip3 install beautifulsoup4 ``` ## 网页分析 我们使用炉石传说的页面来开始分析 ``` https://www.douyu.com/directory/game/How ``` 我们可以通过左上角的箭头来定位网页内容对应的源 [image:14 size:orig] [image:15 size:orig] 从上面我们可以看出单个直播的信息都在li标签下面,包括: - 封面图片地址 - 直播介绍 - 主播名称 - 观看人数 - 代码介绍 这里逐行介绍代码 **1. import相关的模块** ``` import requests from bs4 import BeautifulSoup ``` **2. 使用request模块打开并获取网页内容** verify=False 在打开https网页时使用 ``` url='HTTPs://www.douyu.com/directory/game/'+douyugame r = requests.get(url,verify=False) content=r.content ``` **3. 使用bs4格式化获取的网页** 这时就可以使用bs4的功能来处理网页了 ``` soup = BeautifulSoup(content,"lxml") ``` **4. 获取所有li标签** 这里获取所有具有data-cid属性的li标签 ``` live_list=soup.find_all('li',attrs = {'data-cid' : True}) ``` **5.循环获取到li标签,然后提取需要的信息** [image:16 size:orig] 我们这里只提取在线人数大于8000的直播间 ``` game_count=all_game.find('span',attrs = {'class' : 'dy-num fr'}).text ``` 代表查找一个span标签,其class属性值为dy-num fr,然后获取它的内容 [image:17 size:orig] ``` game_link='https://www.douyu.com'+all_game['href'] ``` 代表获取a标签中href属性的值 [image:18 size:orig] 剩下的同理 **6. 最后将获取到的信息放入字典中** [image:19 size:orig] 这时我们可以将结果存入数据库中供查看,这里就不多说了 ## 源码位置 源码请访问我的github主页 [https://github.com/bsbforever/spider/blob/master/static_web.py](https://github.com/bsbforever/spider/blob/master/static_web.py)