bs4进行数据解析
- 数据解析原理
- 1.标签定位
- 2.提取标签,标签属性中存储的数据值
- bs4数据解析的原理
- 1.实力化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中
- 2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取
- 如何实例化一个BeautifulSoup对象
- from bs4 import BeautifulSoup
- 对象的实例化:
- 1.将本地的html文档加载到该对象中
- 2.将互联网上的源码加载到该对象中
- 提供的用于数据解析的方法和属性
- soup.TagName:返回的是文档第一次出现的TagName标签
- soup.find():
- soup.find(TagName):等同于soup.div
- 属性定位:
- soup.find(‘div’,class_/id/attr=’sang)
- soup.find_all(‘tagname ‘):返回要求的所有列表(列表)
- soup.seleect()
- seleect(‘某种选择器(id,class,标签选择器)’),返回是一个列表
- 层级选择器:
- soup.select(‘.tang > ui > li >a ‘)>表示一个层级
- soup.select(‘.tang > ui > a ‘) 空格表示多个层级
- 获取标签之间文本数据:
- soup.a.text/string/get_text()
- text/get_text():可以获取某一个标签中所有
- string获取直系下面的值
- 获取标签中的属性值
- soup.a[‘href’]
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容