pandas使用

温馨提示: 本文最后更新于2024-08-29 11:45:22,某些文章具有时效性,若有错误或已失效,请在下方 留言或联系 玩偶教程网

安装pandas

php install panndas

导包

import pandas as pd

将pandas别名改成pd,调用更方便

创建series

s = pd.Series([5,4,45,89,15])

*0     5
1     4
2    45
3    89
4    15
dtype: int64

获得series元素和索引

s = pd.Series([5,4,45,89,15])
print(s.values)
print(s.index)

*[ 5  4 45 89 15]
RangeIndex(start=0, stop=5, step=1)

 

索引和切片操作

s = pd.Series([5,4,45,89,15])
print(s[3])
print(s[0:5])

*89
0     5
1     4
2    45
3    89
4    15
dtype: int64

用两种索引取值

用标签索引 s[“a”] s.loc

用位置索引 s[2] s.iloc

s = pd.Series([5,4,45,89,15],index=["a","b","c","d","e"])
print(s["a"])
print(s[2])

*5 
45

axis

s = pd.Series([5,4,45,89,15],index=["a","b","c","d","e"])
print(s.max(axis=0))

*如果不填写则是列
0是列
1是行

接收函数

 

读取json文件

pd.read_json("路径")

读取csv文件


pd.read_csv("路径")

 


作为标签索引


pd.read_csv("路径",index_col="123")

查看展示列数上限


pandas.set_option('option_name', value)

  • display.max_rows: 控制在Jupyter Notebook中显示的最大行数。

  • display.max_columns: 控制在Jupyter Notebook中显示的最大列数。

  • display.width: 控制输出的宽度。

  • display.max_colwidth: 控制DataFrame列的最大宽度。

  • display.precision: 控制浮点数显示的精度。

评估数据



  • 结构

    • 乱数据:结构方面需要清理的数据

    • 整洁数据:结构方面不需要清理的数据



  • 内容

    • 脏数据:内容方面需要清理的数据

    • 干净数据:内容方面不需要清理的数据




获取开头/结尾/随机N行(以10行为例)


s.head
s.tail
s.sample(1)

丢失数据


s.isnull().sum()

重复数据


import pandas as pd

# 创建一个示例DataFrame
df = pd.DataFrame({
'A': [1, 2, 2, 3, 4],
'B': [5, 6, 6, 7, 8]
})

# 检查所有列上的重复项
print(df.duplicated())

# 检查特定列上的重复项,例如只检查列'A'
print(df.duplicated(subset='A'))

 



  • 如果subset=[](默认值),则在所有列上检查重复项。

  • 如果指定了subset,比如subset=['column1', 'column2'],则只检查column1column2这两列的组合是否重复。

  • duplicated()返回的布尔索引数组中,True表示该行是重复的,False表示该行不是重复的。

  • 默认情况下,第一次出现的行不会被标记为重复,只有后续出现的相同行才会被标记。

 

重命名索引和列名

 

 

 

 

 

 

 

 

 

 

 

© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享
相关推荐
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容