心电图心跳信号分类 数据分析

标签: 数据竞赛 Datawhale 发布于:2021-03-18 10:18:48 编辑于:2021-03-19 01:37:01 浏览量:1248

概述

Task 2 文档

本次任务的主要内容是分析数据的特征。

常用的分析项

  1. 首尾数据。
  2. 数据形状,数据类型。
  3. 数据的统计量。
  4. 缺失值的查看。
  5. 数据的分布。

具体实现

  1. 查看首尾数据:data.head().append(data.tail())

  2. 查看数据描述:data.describe()

  3. 查看数据信息:data.info()

  4. 查看缺失数据:data.isnull().sum()

  5. 查看数据中某列的元素值的计数:

    1. data['label'].value_counts()
    2. 可视化:
    plt.hist(train_data['label'], orientation = 'vertical',histtype = 'bar', color ='red')
    plt.show()
    
  6. 判断数据是什么分布

import scipy.stats as st
y = train_data['label']
plt.figure(1); plt.title('Default')
sns.distplot(y, rug=True, bins=20)
plt.figure(2); plt.title('Normal')
sns.distplot(y, kde=False, fit=st.norm)
plt.figure(3); plt.title('Log Normal')
sns.distplot(y, kde=False, fit=st.lognorm)
plt.figure(4); plt.title('Johnson SU')
sns.distplot(y, kde=False, fit=st.johnsonsu)
  1. 查看数据的偏度与峰度:data.skew(), data.kurt()
  2. 使用 pandas_profiling 进行分析:
import pandas_profiling
pfr = pandas_profiling.ProfileReport(train_data)
pfr.to_file("./report.html")

未经允许,禁止转载,本文源站链接:https://iamazing.cn/