乳腺癌数据集记录了乳腺癌肿瘤的临床测量数据。每个肿瘤都被标记为“良性”(Benign)或“恶性”(Malignant),其任务是基于人体组织的测量数据来学习预测肿瘤是否为恶性。该数据集字典目录包括data(数据),target(目标特征),target_names(目标特征名称),DESCR(数据的更多详细信息),和feature_names(输入特征名称)。乳腺癌数据集共包含569个数据点,每个数据点有30个特征,但是实际上它只关注了10个关键特征: 1、radius,半径,即病灶中心点离边界的平均距离; 2、texture,纹理,灰度值的标准偏差; 3、perimeter,周长,即病灶的大小; 4、area,面积,反映病灶大小的一个指标; 5、smoothness,平滑度,即半径的变化幅度; 6、compactness,密实度,周长的平方除以面积的商后再减1; 7、concavity,凹度,凹陷部分轮廓的严重程度; 8、concave points,凹点,凹陷轮廓的数量; 9、symmetry,对称性; 10、fractal dimension,分形维度。 可以看出,有些指标属于复合指标,即由其他指标经过运算得到的;有些指标是衍生的,例如对每个特征构造其标准差或最大值。
#导入乳腺癌数据
from sklearn.datasets import load_breast_cancer
cancer=load_breast_cancer()
#查看数据集字典目录
print(cancer.keys())
#查看输入特征标签
print(cancer.feature_names)
#查看数据集的数据点数量及特征数量
print(cancer.data.shape)
#查看数据集的第一个元素
print(cancer.data[1])
#查看目标特征的取值
print(cancer.target_names)