scikit-learn中的一个数据集make_blobs参数说明

  • 发布日期:2019-10-25
  • 难度:简单
  • 类别:聚类分析、数据集说明
  • 标签:Python、sklearn.datasets、make_blobs

1. 问题描述

基于Python第三方库sklearn,选择make_blobs数据集的参数说明。

2. 程序实现

In [1]:
from sklearn.datasets.samples_generator import make_blobs
X, y = make_blobs(n_samples=2000, n_features=2, centers=[[-2,-2],[0,0], [1,1], [3,3]], cluster_std=[0.4, 0.2, 0.2, 0.2],random_state =9)

首先导入数据集,其次调用该数据集的一个样本:X为样本特征,Y为样本簇类别, 共2000个样本,每个样本2个特征,共产生4个簇,簇中心分别在[-2,-2], [0,0],[1,1], [3,3],簇方差分别为[0.4, 0.2, 0.2,0.2]。

  • X为样本特征,Y为样本簇类别。
  • n_samples为样本个数。
  • n_features为整型数,默认值为2,代表每个样本的特征数。
  • center为簇中心,分别在[-2,-2],[0,0],[1,1],[3,3]。
  • centers为整型数或数组,默认值为3,代表样本所聚成的类别数。
  • cluster_std为浮点数或浮点序列,默认值为1,代表各个类别的标准差。