基于逻辑斯蒂回归的肿瘤类型预测案例
- 案例整理者:
- 曾子欣(18级)
- 最后修订:
- 2020-12-15
任务类型:二分类问题
算法:逻辑斯蒂回归
数据源:乳腺癌数据集(122K)
 背景:将机器学习方法应用于肿瘤预测(cancer prognosis)问题具有重要意义,有利于在病程早期确定癌症类型,以制定更为合理的治疗方案。本文所选案例[1]使用威斯康辛乳腺癌(诊断)数据集,采用逻辑斯蒂回归模型,在超参数网格搜索、投票法集成等策略的基础上,最终得到了正确率为97.1%、精确率为92.0%、召回率为100%、F1-score为0.958的分类器,较好地完成肿瘤类型预测任务。  数据集:本案例使用的数据集是由UCI机器学习研究中心的三位学者Wolberg, Street和Mangasarian于1995年建立的威斯康辛乳腺癌(诊断)数据集,该数据集包含多个版本,本案例的数据集下载自Kaggle网站 。数据集为csv格式,共包含569个样本,每个样本有32个字段。其中id字段是每个样本的标识符;diagnosis为肿瘤的诊断结果,B表示Benign(良性)、M表示Malignant(恶性);余下30个字段分别是图片中肿瘤细胞核的半径(radius)、质地(图片灰度的变异性,texture)、周长(perimeter)、面积(area)、光滑性光滑性(局部的半径的变异程度,smoothness)、紧凑性(定义为周长的平方与面积之比-1,compactness)、凹陷程度(concavity)、凹点(concave points)、对称性(symmetry)、分形维数(采用海岸线的分形估计方法,fractal dimension)这十个变量的均值、标准差和最大值。数据集中含有357个良性肿瘤样本和212个恶性肿瘤样本。