scikit-learn中的一个数据集make_blobs参数说明

  • 发布日期:2019-10-25
  • 难度:简单
  • 类别:聚类分析、数据集说明
  • 标签:Python、sklearn.datasets、make_blobs

1. 问题描述

基于Python第三方库sklearn,选择make_blobs数据集的参数说明。

2. 程序实现

In [5]:
#导入数据集语句
from sklearn.datasets import make_blobs
#调用该方法的一个具体实例
X, y = make_blobs (n_samples=100, n_features=2, centers=3, cluster_std=1.0,  center_box=(-10.0,10.0),  shuffle=True,  random_state=None)
  • n_samples为整型数,默认值为100,代表各个类团样本点的总和。
  • n_features为整型数,默认值为2,代表每个样本的特征数。
  • centers为整型数或数组,默认值为3,代表样本所聚成的类别数。
  • cluster_std为浮点数或浮点序列,默认值为1,代表各个类别的标准差。
  • Center_box为浮点数列(最小值,最大值),默认值为(-10.0,10.0),代表当中心随机生成时,每个聚类中心的边界框。
  • Shuffle为布尔变量,默认值为True,代表是否对样本数据进行清洗。
  • random_state可为整型数、随机状态实例或否,默认值为否。如为整形,代表随机数生成的随机种子,若为状态实例,代表随机数生成器,若为否,代表随机数生成器是np.random使用的RandomState实例。
  • 返回值X, y的含义:X代表所生成的样本数据集,y代表样本数据集的标签。
In [ ]: