基于Python第三方库scikit-learn和jieba,将中文文本表示为向量空间模型(Vector Space Model)。
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
docs = ['web数据挖掘技术分析web数据',
'web数据挖掘有点复杂',
'挖掘技术哪家强']
tfidf_model = TfidfVectorizer(smooth_idf=False, norm=None,
tokenizer=lambda doc : jieba.cut(doc)).fit(docs)
print('(1)词项集合(输出内容为“词项:id”集合)')
print(tfidf_model.vocabulary_)
print('(2)词项idf(输出结果依次为各个词项id对应的idf)')
print(tfidf_model.idf_)
sparse_result = tfidf_model.transform(docs)
print('(3)数据结果为文档集合tf-idf稀疏矩阵表示')
print(sparse_result)