python – 爬虫bs4笔记

温馨提示: 本文最后更新于2024-11-03 12:13:28,某些文章具有时效性,若有错误或已失效,请在下方 留言或联系 梦幻屋

bs4进行数据解析

  • 数据解析原理
    • 1.标签定位
    • 2.提取标签,标签属性中存储的数据值
  • bs4数据解析的原理
    • 1.实力化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中
    • 2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取
  • 如何实例化一个BeautifulSoup对象
    • from bs4 import BeautifulSoup
    • 对象的实例化:
      • 1.将本地的html文档加载到该对象中
      • 2.将互联网上的源码加载到该对象中
    • 提供的用于数据解析的方法和属性
      • soup.TagName:返回的是文档第一次出现的TagName标签
      • soup.find():
        • soup.find(TagName):等同于soup.div
        • 属性定位:
          • soup.find(‘div’,class_/id/attr=’sang)
      • soup.find_all(‘tagname ‘):返回要求的所有列表(列表)
      • soup.seleect()
        • seleect(‘某种选择器(id,class,标签选择器)’),返回是一个列表
        • 层级选择器:
          • soup.select(‘.tang > ui > li >a ‘)>表示一个层级
          • soup.select(‘.tang > ui > a ‘) 空格表示多个层级
      • 获取标签之间文本数据:
        • soup.a.text/string/get_text()
        • text/get_text():可以获取某一个标签中所有
        • string获取直系下面的值
      • 获取标签中的属性值
        • soup.a[‘href’]

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容