基于孤立森林的传说宝可梦识别
- 案例整理者:
- 陈科锜
- 最后修订:
- 2020-12-15
任务类型:孤立点检测
算法:孤立森林
数据源:精灵宝可梦数据集(160K)
下载地址1(Pokemon.csv ) 下载地址2(北大网盘)
 背景:精灵宝可梦》作为全球营收第一的大热游戏影视IP,受到各个年龄层玩家观众的广泛喜爱,其中虚构的多种多样的宝可梦正是这一作品能够不断吸引人的关键。在宝可梦中,传说宝可梦由于其特殊而强大的能力而被游戏内外的人们关注,本案例将传说宝可梦视为宝可梦中的异常值,采用孤立森林算法对其进行识别。孤立森林算法通过选取特征随机划分数据集,生成随机二叉树和孤立森林构建模型,通过计算样本到每棵树的根节点的距离检测异常数据点,能够快速高效地处理海量的数据集,并且具有很高的准确率。  数据集:本文使用的数据集为阿里云天池实验室的精灵宝可梦数据集[ https://tianchi.aliyun.com/dataset/dataDetail?dataId=83064],涵盖了从第一世代到第七世代共801只宝可梦的信息,数据特征上包括了基础的能力值、属性、身高体重、特性等,具体数据字段分析文档中有详细描述。