导入boston数据集

  • 发布日期:2019-10-22
  • 难度:简单
  • 类别:分类与预测、数据集
  • 标签:Python、scikit-learn、boston数据集

1. 问题描述

波士顿数据集共包含506条数据,每条数据有13个特征,其标签对应的具体含义分别为: 1、CRIM,城镇人均犯罪率; 2、ZN,城镇超过25000平方英尺的住宅区域的占地比例 3、INDUS,城镇非零售用地占地比例; 4、CHAS,是否靠近河边,0为远离,1为靠近; 5、NOX,一氧化氮浓度; 6、RM,每套房产的平均房间个数; 7、AGE,在1940年之前就盖好且业主自住房子的比例; 8、DIS,与波士顿市中心的距离; 9、RAD,周边高速公路的便利性指数; 10、TAX,每10000美元的财产税率; 11、PTRATIO,小学老师的比例; 12、B,城镇黑人的比例; 13、LSTAT,地位较低的人口的比例。

2. 程序实现

In [1]:
from sklearn.datasets import load_boston
#导入数据集
boston=load_boston()
X=boston.data
y=boston.target
#查看该数据集的元组数和特征数
print(X.shape)
(506, 13)
In [2]:
#查看数据集目录字典
print(boston.keys())
dict_keys(['data', 'target', 'feature_names', 'DESCR'])
In [3]:
#查看数据集的第一个元素
print(X[0])
[  6.32000000e-03   1.80000000e+01   2.31000000e+00   0.00000000e+00
   5.38000000e-01   6.57500000e+00   6.52000000e+01   4.09000000e+00
   1.00000000e+00   2.96000000e+02   1.53000000e+01   3.96900000e+02
   4.98000000e+00]
In [4]:
#查看输入特征的标签
print(boston.feature_names)
['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO'
 'B' 'LSTAT']
In [5]:
#查看目标特征的第一个取值
print(boston.target[0])
24.0