心电图心跳信号分类 数据分析
概述
本次任务的主要内容是分析数据的特征。
常用的分析项
- 首尾数据。
- 数据形状,数据类型。
- 数据的统计量。
- 缺失值的查看。
- 数据的分布。
具体实现
查看首尾数据:
data.head().append(data.tail())
查看数据描述:
data.describe()
查看数据信息:
data.info()
查看缺失数据:
data.isnull().sum()
查看数据中某列的元素值的计数:
data['label'].value_counts()
- 可视化:
plt.hist(train_data['label'], orientation = 'vertical',histtype = 'bar', color ='red') plt.show()
判断数据是什么分布
import scipy.stats as st
y = train_data['label']
plt.figure(1); plt.title('Default')
sns.distplot(y, rug=True, bins=20)
plt.figure(2); plt.title('Normal')
sns.distplot(y, kde=False, fit=st.norm)
plt.figure(3); plt.title('Log Normal')
sns.distplot(y, kde=False, fit=st.lognorm)
plt.figure(4); plt.title('Johnson SU')
sns.distplot(y, kde=False, fit=st.johnsonsu)
- 查看数据的偏度与峰度:
data.skew(), data.kurt()
- 使用 pandas_profiling 进行分析:
import pandas_profiling
pfr = pandas_profiling.ProfileReport(train_data)
pfr.to_file("./report.html")
Links: heartbeat-classification-2