心电图心跳信号分类 数据分析

Tag: 数据竞赛 Datawhale Posted on 2021-03-18 10:18:48 Edited on 2021-03-19 01:37:01 Views: 100

概述

Task 2 文档

本次任务的主要内容是分析数据的特征。

常用的分析项

  1. 首尾数据。
  2. 数据形状,数据类型。
  3. 数据的统计量。
  4. 缺失值的查看。
  5. 数据的分布。

具体实现

  1. 查看首尾数据:data.head().append(data.tail())

  2. 查看数据描述:data.describe()

  3. 查看数据信息:data.info()

  4. 查看缺失数据:data.isnull().sum()

  5. 查看数据中某列的元素值的计数:

    1. data['label'].value_counts()
    2. 可视化:
      plt.hist(train_data['label'], orientation = 'vertical',histtype = 'bar', color ='red')
      plt.show()
      
  6. 判断数据是什么分布

    import scipy.stats as st
    y = train_data['label']
    plt.figure(1); plt.title('Default')
    sns.distplot(y, rug=True, bins=20)
    plt.figure(2); plt.title('Normal')
    sns.distplot(y, kde=False, fit=st.norm)
    plt.figure(3); plt.title('Log Normal')
    sns.distplot(y, kde=False, fit=st.lognorm)
    plt.figure(4); plt.title('Johnson SU')
    sns.distplot(y, kde=False, fit=st.johnsonsu)
    
  7. 查看数据的偏度与峰度:data.skew(), data.kurt()

  8. 使用 pandas_profiling 进行分析:

    import pandas_profiling
    pfr = pandas_profiling.ProfileReport(train_data)
    pfr.to_file("./report.html")
    

未经允许,禁止转载,本文源站链接:https://iamazing.cn/