《大数据分析与挖掘》实训平台

scikit-learn中的一个数据集make_blobs参数说明¶

发布日期：2019-10-25
难度：简单
类别：聚类分析、数据集说明
标签：Python、sklearn.datasets、make_blobs

1. 问题描述¶

基于Python第三方库sklearn，选择make_blobs数据集的参数说明。

2. 程序实现¶

In [1]:

from sklearn.datasets.samples_generator import make_blobs
X, y = make_blobs(n_samples=2000, n_features=2, centers=[[-2,-2],[0,0], [1,1], [3,3]], cluster_std=[0.4, 0.2, 0.2, 0.2],random_state =9)

首先导入数据集，其次调用该数据集的一个样本：X为样本特征，Y为样本簇类别，共2000个样本，每个样本2个特征，共产生4个簇，簇中心分别在[-2,-2], [0,0],[1,1], [3,3]，簇方差分别为[0.4, 0.2, 0.2,0.2]。

X为样本特征,Y为样本簇类别。
n_samples为样本个数。
n_features为整型数，默认值为2，代表每个样本的特征数。
center为簇中心，分别在[-2,-2],[0,0],[1,1],[3,3]。
centers为整型数或数组，默认值为3，代表样本所聚成的类别数。
cluster_std为浮点数或浮点序列，默认值为1，代表各个类别的标准差。

平台简介学界动态资源检索

标准规范漂浮实践领域专家

联系地址：北京市海淀区颐和园路5号

电子邮箱：float@pku.edu.cn

版权所有：© 北京大学信息管理系