--- title: Pandas date: 2020-06-23 16:31:03 updated: 2020-09-10 10:24:41 tags: categories: keywords: description: top_img: comments: cover: toc: toc_number: toc_style_simple: copyright: copyright_author: copyright_author_href: copyright_url: copyright_info: katex: true highlight_shrink: aside: --- ### 一、Pandas 和 Series 的 describe() 方法 ####  1)功能 - **功能**:对数据中每一列数进行统计分析;(以“列”为单位进行统计分析) - 默认只先对**“number”**的列进行统计分析;   - **一列数据全是“number”** 1. **count**:一列的元素个数; 2. **mean**:一列数据的平均值; 3. **std**:一列数据的均方差;(方差的算术平方根,反映一个数据集的离散程度:越大,数据间的差异越大,数据集中数据的离散程度越高;越小,数据间的大小差异越小,数据集中的数据离散程度越低) 4. **min**:一列数据中的最小值; 5. **max**:一列数中的最大值; 6. **25%**:一列数据中,前 25% 的数据的平均值; 7. **50%**:一列数据中,前 50% 的数据的平均值; 8. **75%**:一列数据中,前 75% 的数据的平均值;   - **一列数据: “categorical”、“categorical” + “number”:** 1. **count**:一列数据的元素个数; 2. **unique**:一列数据中元素的种类; 3. **top**:一列数据中出现频率最高的元素; 4. **freq**:一列数据中出现频率最高的元素的个数;   - **一列数据:object(如时间序列)** 1. **first**:开始时间; 2. **last**:结束时间;   ####  2)实例及参数使用:Series 数据类型 - number - ![Pandas.md-fig-0.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-0.png)   - categorical - ![Pandas.md-fig-1.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-1.png)   - object(统称为 “string” 类) - ![Pandas.md-fig-2.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-2.png) ####   ####   ####  3)实例及参数使用:DataFrame 数据类型 - (一)默认只处理 number - ![Pandas.md-fig-3.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-3.png)   - **(二)**分析整个 DataFrame 数据:include = 'all' - ![Pandas.md-fig-4.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-4.png)   - (三)指定统计分析 DataFrame 中的某一列 - ![Pandas.md-fig-5.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-5.png)   - (四)只分析所有的 “number” 列 - 也可以是:**df.describe(include=['number'])** - ![Pandas.md-fig-6.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-6.png)   - (五)只分析所有 “category” 列 - ![Pandas.md-fig-7.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-7.png)   - (六)只统计所有 “object” 列 - ![Pandas.md-fig-8.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-8.png)   - (七)分析除了 “number” 列的所有列 - ![Pandas.md-fig-9.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-9.png)   - (八)分析除了 “object” 列的所有列 - ![Pandas.md-fig-10.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Pandas.md-fig-10.png)   ####  4)与 loc、sort 的配合使用 - **df.describe(include=['number']).loc[['min', 'max', 'mean', 'std']].T.sort_values('max')** - 只对数据的“min”、“max”、“mean”、“std”进行分析,并将分析的结果转置后,以“max”的大小对每行进行排序;(默认从小到大)