基于逻辑斯蒂回归的肿瘤类型预测案例

案例整理者：: 曾子欣(18级)
最后修订：: 2020-12-15

任务类型：二分类问题

算法：逻辑斯蒂回归

数据源：乳腺癌数据集(122K)

下载地址1（bc.csv ）下载地址2（北大网盘）

背景：将机器学习方法应用于肿瘤预测（cancer prognosis）问题具有重要意义，有利于在病程早期确定癌症类型，以制定更为合理的治疗方案。本文所选案例[1]使用威斯康辛乳腺癌（诊断）数据集，采用逻辑斯蒂回归模型，在超参数网格搜索、投票法集成等策略的基础上，最终得到了正确率为97.1%、精确率为92.0%、召回率为100%、F1-score为0.958的分类器，较好地完成肿瘤类型预测任务。
数据集：本案例使用的数据集是由UCI机器学习研究中心的三位学者Wolberg, Street和Mangasarian于1995年建立的威斯康辛乳腺癌（诊断）数据集，该数据集包含多个版本，本案例的数据集下载自Kaggle网站。数据集为csv格式，共包含569个样本，每个样本有32个字段。其中id字段是每个样本的标识符；diagnosis为肿瘤的诊断结果，B表示Benign（良性）、M表示Malignant（恶性）；余下30个字段分别是图片中肿瘤细胞核的半径（radius）、质地（图片灰度的变异性，texture）、周长（perimeter）、面积（area）、光滑性光滑性（局部的半径的变异程度，smoothness）、紧凑性（定义为周长的平方与面积之比-1，compactness）、凹陷程度（concavity）、凹点（concave points）、对称性（symmetry）、分形维数（采用海岸线的分形估计方法，fractal dimension）这十个变量的均值、标准差和最大值。数据集中含有357个良性肿瘤样本和212个恶性肿瘤样本。

案例分析文档:breast.docx(1.1M)

案例分析展示:breastcancer.pptx(1.6M)

案例分析源代码:breastcancer_demo.py(16K)

返回首页>>