自杀风险分类预测
- 案例整理者:
- 钱运杰(18级)
- 最后修订:
- 2021-3-3
任务类型:预测问题
算法:决策树、Logistic回归、随机森林与多层感知器(MLP)模型
数据源:自杀数据集(2665K) WDI自杀数据集(2643K)
下载地址1(master.csv )(suicide_data_extra_features.csv ) 下载地址2(北大网盘)
 简介:本案例实现了对于社会自杀风险高/低的分类预测。数据集构建基于Kaggle的自杀数据与世界银行数据库的国家发展数据,前一数据集依照国家、年份对数据进行划分,记录有100多个国家1985年至2016年的自杀相关数据,另外,选取了国家发展数据来自世界银行(World Bank)的WDI数据库(World Development Indicators),选择了与自杀可能相关的字段。同时,还进行KNN缺失值填充等数据预处理过程,应用决策树、Logistic回归、随机森林与多层感知器(MLP)模型进行训练,并以枚举与网格搜索方法进行参数优化;最后采用K-fold交叉验证与ROC曲线进行模型评估。最终发现,决策树、随机森林与多层感知器模型对于自杀风险的预测效果较好。