找回密码
 立即注册
首页 群组 IT互联网 网站 程序园子 pandas输出基本信息,df.info()和df.describe()函数详解 ...

pandas输出基本信息,df.info()和df.describe()函数详解

垢峒 2025-5-29 18:20:14
一、基本统计量

1、df.info()函数
info()函数展示数据表基本信息:

  • index
  • 列名
  • 每列不是空值的计数
  • 每列数据类型
  • 占用内存
    接下来通过代码进行展示,先生成一份数据,便于展示。
  1. import pandas as pd
  2. data = {
  3.     "name":['张三',"李四","王二","周六"],
  4.     "age":[20,19,23,22],
  5.     "hometown":["Anhui","Jiangsu","Zhejiang","Hunan"],
  6. }
  7. df = pd.DataFrame(data)
  8. df.info()
复制代码
输出结果如下:
  1. <class 'pandas.core.frame.DataFrame'>
  2. RangeIndex: 4 entries, 0 to 3
  3. Data columns (total 3 columns):
  4. #   Column    Non-Null Count  Dtype
  5. ---  ------    --------------  -----
  6. 0   name      4 non-null      object
  7. 1   age       4 non-null      int64
  8. 2   hometown  4 non-null      object
  9. dtypes: int64(1), object(2)
  10. memory usage: 228.0+ bytes
复制代码
  1. DataFrame.info(verbose=None, buf=None, max_cols=None, memory_usage=None, show_counts=None)
复制代码
info函数一共有6个函数。

  • verbose默认为Ture,控制函数是否展示表格详细的信息。
  • buf:如果提供可写入对象,输出将被写入这个对象而不是打印到标准输出。这对于捕获输出到字符串或文件中很有用。
  • max_cols:指定要显示的列的最大数量。如果DataFrame的列数超过这个值,则只显示前max_cols列的信息,其余列的信息将被省略,并在输出中注明。默认为None显示所有信息。
  • memory_usage
  • 控制是否显示内存使用情况以及显示的详细程度。

    • True或'deep':显示DataFrame元素占用的内存(可能较慢,因为需要深入检查每个元素)。
    • False或'shallow':仅显示对象本身的内存占用(不包括元素)。
    • 默认为'deep'。

  • show_counts

    • 当设置为True时,显示每列的非空值数量。
    • 当设置为False时,不显示每列的非空值数量。

2、df.describe()展示数据统计量
函数主要展示计数、平均值、标准差、最小值、四分之一分位点、二分之分位点、四分之三分位点、最大值。
  1. df.describe() #统计信息
复制代码
结果如下:
  1. |age|
  2. |---|
  3. |count|4.000000|
  4. |mean|21.000000|
  5. |std|1.825742|
  6. |min|19.000000|
  7. |25%|19.750000|
  8. |50%|21.000000|
  9. |75%|22.250000|
  10. |max|23.000000|
复制代码

  • percentiles:指定要包括的其他百分位数,例如percentiles=[.25, .5, .75]将返回第一、第二和第三四分位数。
  • include:指定要包括的数据类型,默认为'all',可以设置为'all', 'nums', 或 'object'。
  • exclude:指定要排除的数据类型。
比如输出一个混乱的分位数[.45,.65,.87,.96,.99]f
  1. df.describe(percentiles=[.45,.65,.87,.96,.99])
复制代码
输出结果:
  1. |age|
  2. |---|
  3. |count|4.000000|
  4. |mean|21.000000|
  5. |std|1.825742|
  6. |min|19.000000|
  7. |45%|20.700000|
  8. |50%|21.000000|
  9. |65%|21.900000|
  10. |87%|22.610000|
  11. |96%|22.880000|
  12. |99%|22.970000|
  13. |max|23.000000|
复制代码
3、其他函数
pandas还拥有众多展示基本信息的函数,这里展示一部分:

  • df.sum 求和
  • df.median 中位数
  • df.mean 平均值
  • df.min 最小值
  • df.max 最大值
  • df.idxmin 返回最小值列名和index,参数axis
  • df.idxmax 返回最大值列名和index,参数axis
  • df.corr 相关系数
  • df.cov 协方差
  • df['column'].unique() 找出唯一值
  • df['column'].nunique() 找出唯一值的数量
  • df.sort_index 按照index排序
  • df.sort_values 按照值排序,参数key可以使用函数


来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!