|
|
--- |
|
|
title: Pandas |
|
|
date: 2020-06-23 16:31:03 |
|
|
updated: 2020-09-10 10:24:41 |
|
|
tags: |
|
|
categories: |
|
|
keywords: |
|
|
description: |
|
|
top_img: |
|
|
comments: |
|
|
cover: |
|
|
toc: |
|
|
toc_number: |
|
|
toc_style_simple: |
|
|
copyright: |
|
|
copyright_author: |
|
|
copyright_author_href: |
|
|
copyright_url: |
|
|
copyright_info: |
|
|
katex: true |
|
|
highlight_shrink: |
|
|
aside: |
|
|
--- |
|
|
|
|
|
### 一、Pandas 和 Series 的 describe() 方法 |
|
|
#### 1)功能 |
|
|
|
|
|
- **功能**:对数据中每一列数进行统计分析;(以“列”为单位进行统计分析) |
|
|
|
|
|
- 默认只先对**“number”**的列进行统计分析; |
|
|
|
|
|
|
|
|
|
|
|
- **一列数据全是“number”** |
|
|
|
|
|
1. **count**:一列的元素个数; |
|
|
2. **mean**:一列数据的平均值; |
|
|
3. **std**:一列数据的均方差;(方差的算术平方根,反映一个数据集的离散程度:越大,数据间的差异越大,数据集中数据的离散程度越高;越小,数据间的大小差异越小,数据集中的数据离散程度越低) |
|
|
4. **min**:一列数据中的最小值; |
|
|
5. **max**:一列数中的最大值; |
|
|
6. **25%**:一列数据中,前 25% 的数据的平均值; |
|
|
7. **50%**:一列数据中,前 50% 的数据的平均值; |
|
|
8. **75%**:一列数据中,前 75% 的数据的平均值; |
|
|
|
|
|
|
|
|
|
|
|
- **一列数据: “categorical”、“categorical” + “number”:** |
|
|
|
|
|
1. **count**:一列数据的元素个数; |
|
|
2. **unique**:一列数据中元素的种类; |
|
|
3. **top**:一列数据中出现频率最高的元素; |
|
|
4. **freq**:一列数据中出现频率最高的元素的个数; |
|
|
|
|
|
|
|
|
|
|
|
- **一列数据:object(如时间序列)** |
|
|
|
|
|
1. **first**:开始时间; |
|
|
2. **last**:结束时间; |
|
|
|
|
|
|
|
|
#### 2)实例及参数使用:Series 数据类型 |
|
|
|
|
|
- number |
|
|
|
|
|
- ![Pandas.md-fig-0.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-0.png) |
|
|
|
|
|
|
|
|
|
|
|
- categorical |
|
|
|
|
|
- ![Pandas.md-fig-1.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-1.png) |
|
|
|
|
|
|
|
|
|
|
|
- object(统称为 “string” 类) |
|
|
|
|
|
- ![Pandas.md-fig-2.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-2.png) |
|
|
#### |
|
|
#### |
|
|
#### 3)实例及参数使用:DataFrame 数据类型 |
|
|
|
|
|
- (一)默认只处理 number |
|
|
|
|
|
- ![Pandas.md-fig-3.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-3.png) |
|
|
|
|
|
|
|
|
|
|
|
- **(二)**分析整个 DataFrame 数据:include = 'all' |
|
|
|
|
|
- ![Pandas.md-fig-4.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-4.png) |
|
|
|
|
|
|
|
|
|
|
|
- (三)指定统计分析 DataFrame 中的某一列 |
|
|
|
|
|
- ![Pandas.md-fig-5.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-5.png) |
|
|
|
|
|
|
|
|
|
|
|
- (四)只分析所有的 “number” 列 |
|
|
|
|
|
- 也可以是:**df.describe(include=['number'])** |
|
|
- ![Pandas.md-fig-6.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-6.png) |
|
|
|
|
|
|
|
|
|
|
|
- (五)只分析所有 “category” 列 |
|
|
|
|
|
- ![Pandas.md-fig-7.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-7.png) |
|
|
|
|
|
|
|
|
|
|
|
- (六)只统计所有 “object” 列 |
|
|
|
|
|
- ![Pandas.md-fig-8.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-8.png) |
|
|
|
|
|
|
|
|
|
|
|
- (七)分析除了 “number” 列的所有列 |
|
|
|
|
|
- ![Pandas.md-fig-9.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-9.png) |
|
|
|
|
|
|
|
|
|
|
|
- (八)分析除了 “object” 列的所有列 |
|
|
|
|
|
- ![Pandas.md-fig-10.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-10.png) |
|
|
|
|
|
|
|
|
#### 4)与 loc、sort 的配合使用 |
|
|
|
|
|
- **df.describe(include=['number']).loc[['min', 'max', 'mean', 'std']].T.sort_values('max')** |
|
|
- 只对数据的“min”、“max”、“mean”、“std”进行分析,并将分析的结果转置后,以“max”的大小对每行进行排序;(默认从小到大)
|
|
|
|