非平衡数据处理方法在癫痫发作检测中的应用 |
野梅娜,李艳艳,杨陈军,张瑞 |
西北大学医学大数据研究中心 |
|
摘要:
非平衡数据集是指数据集中的某类样本数量远大于其他样本的数量。对于此类数
据,类分布的不平衡会直接导致很多分类算法的失效。文中基于K-means聚类,Silhouette
指标和M.近邻下采样提出一种新的数据平衡方法(K.S.M)。该方法首先用K-means算
法对多数类样本进行多次聚类并选取最优聚类个数,然后采用M.近邻下采样对聚类后的
数据进行采样,将采样后的点最终构成平衡数据,并对得到的平衡数据进行癫痫性发作的
自动检测。实验结果表明,文中所提方法可以很好地处理非平衡数据,减少数据信息损
失,同时可以提高非平衡数据分类的有效性。
|
关键词:
非平衡数据集;Silhouette指标;K-means算法;M.近邻下采样;癫痫性发作;癫 痫脑电信号
|
发表年限: 2016年 |
发表期号: 第6期 |
|
|
|