You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
 
 
 
 

134 lines
3.7 KiB

---
title: Pandas
date: 2020-06-23 16:31:03
updated: 2020-09-10 10:24:41
tags:
categories:
keywords:
description:
top_img:
comments:
cover:
toc:
toc_number:
toc_style_simple:
copyright:
copyright_author:
copyright_author_href:
copyright_url:
copyright_info:
katex: true
highlight_shrink:
aside:
---
### 一、Pandas 和 Series 的 describe() 方法
####  1)功能
- **功能**:对数据中每一列数进行统计分析;(以“列”为单位进行统计分析)
- 默认只先对**“number”**的列进行统计分析;
 
- **一列数据全是“number”**
1. **count**:一列的元素个数;
2. **mean**:一列数据的平均值;
3. **std**:一列数据的均方差;(方差的算术平方根,反映一个数据集的离散程度:越大,数据间的差异越大,数据集中数据的离散程度越高;越小,数据间的大小差异越小,数据集中的数据离散程度越低)
4. **min**:一列数据中的最小值;
5. **max**:一列数中的最大值;
6. **25%**:一列数据中,前 25% 的数据的平均值;
7. **50%**:一列数据中,前 50% 的数据的平均值;
8. **75%**:一列数据中,前 75% 的数据的平均值;
 
- **一列数据: “categorical”、“categorical” + “number”:**
1. **count**:一列数据的元素个数;
2. **unique**:一列数据中元素的种类;
3. **top**:一列数据中出现频率最高的元素;
4. **freq**:一列数据中出现频率最高的元素的个数;
 
- **一列数据:object(如时间序列)**
1. **first**:开始时间;
2. **last**:结束时间;
 
####  2)实例及参数使用:Series 数据类型
- number
- ![Pandas.md-fig-0.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-0.png)
 
- categorical
- ![Pandas.md-fig-1.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-1.png)
 
- object(统称为 “string” 类)
- ![Pandas.md-fig-2.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-2.png)
####  
####  
####  3)实例及参数使用:DataFrame 数据类型
- (一)默认只处理 number
- ![Pandas.md-fig-3.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-3.png)
 
- **(二)**分析整个 DataFrame 数据:include = 'all'
- ![Pandas.md-fig-4.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-4.png)
 
- (三)指定统计分析 DataFrame 中的某一列
- ![Pandas.md-fig-5.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-5.png)
 
- (四)只分析所有的 “number” 列
- 也可以是:**df.describe(include=['number'])**
- ![Pandas.md-fig-6.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-6.png)
 
- (五)只分析所有 “category” 列
- ![Pandas.md-fig-7.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-7.png)
 
- (六)只统计所有 “object” 列
- ![Pandas.md-fig-8.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-8.png)
 
- (七)分析除了 “number” 列的所有列
- ![Pandas.md-fig-9.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-9.png)
 
- (八)分析除了 “object” 列的所有列
- ![Pandas.md-fig-10.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-10.png)
 
####  4)与 loc、sort 的配合使用
- **df.describe(include=['number']).loc[['min', 'max', 'mean', 'std']].T.sort_values('max')**
- 只对数据的“min”、“max”、“mean”、“std”进行分析,并将分析的结果转置后,以“max”的大小对每行进行排序;(默认从小到大)