安装pandas
php install panndas
导包
import pandas as pd
将pandas别名改成pd,调用更方便
创建series
s = pd.Series([5,4,45,89,15])
*0 5
1 4
2 45
3 89
4 15
dtype: int64
获得series元素和索引
s = pd.Series([5,4,45,89,15])
print(s.values)
print(s.index)
*[ 5 4 45 89 15]
RangeIndex(start=0, stop=5, step=1)
索引和切片操作
s = pd.Series([5,4,45,89,15])
print(s[3])
print(s[0:5])
*89
0 5
1 4
2 45
3 89
4 15
dtype: int64
用两种索引取值
用标签索引 s[“a”] s.loc
用位置索引 s[2] s.iloc
s = pd.Series([5,4,45,89,15],index=["a","b","c","d","e"])
print(s["a"])
print(s[2])
*5
45
axis
s = pd.Series([5,4,45,89,15],index=["a","b","c","d","e"])
print(s.max(axis=0))
*如果不填写则是列
0是列
1是行
接收函数
读取json文件
pd.read_json("路径")
读取csv文件
pd.read_csv("路径")
作为标签索引
pd.read_csv("路径",index_col="123")
查看展示列数上限
pandas.set_option('option_name', value)
display.max_rows
: 控制在Jupyter Notebook中显示的最大行数。display.max_columns
: 控制在Jupyter Notebook中显示的最大列数。display.width
: 控制输出的宽度。display.max_colwidth
: 控制DataFrame列的最大宽度。display.precision
: 控制浮点数显示的精度。
评估数据
- 结构
- 乱数据:结构方面需要清理的数据
- 整洁数据:结构方面不需要清理的数据
- 内容
- 脏数据:内容方面需要清理的数据
- 干净数据:内容方面不需要清理的数据
获取开头/结尾/随机N行(以10行为例)
s.head
s.tail
s.sample(1)
丢失数据
s.isnull().sum()
重复数据
import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({
'A': [1, 2, 2, 3, 4],
'B': [5, 6, 6, 7, 8]
})
# 检查所有列上的重复项
print(df.duplicated())
# 检查特定列上的重复项,例如只检查列'A'
print(df.duplicated(subset='A'))
- 如果
subset=[]
(默认值),则在所有列上检查重复项。 - 如果指定了
subset
,比如subset=['column1', 'column2']
,则只检查column1
和column2
这两列的组合是否重复。 duplicated()
返回的布尔索引数组中,True
表示该行是重复的,False
表示该行不是重复的。- 默认情况下,第一次出现的行不会被标记为重复,只有后续出现的相同行才会被标记。
重命名索引和列名
© 版权声明
THE END
暂无评论内容