世界各国/地区预期寿命影响因素分析与相关的回归分析
- 案例整理者:
- 薛睿
- 最后修订:
- 2021-3-3
任务类型: 预测问题
算法:线性回归模型
数据源:寿命数据集(326K)
下载地址1(Life Expectancy Data.csv ) 下载地址2(北大网盘)
 简介:预期寿命是衡量一个生物群体中单一生命可活时间平均值的统计量。一般而言,我们所讨论的预期寿命指的是出⽣时预期寿命,即个体出⽣后⼀⽣可活时间的平均值。在世界范围内,不同国家/地区的⼈类预期寿命存在较⼤的差异:总体上,发达国家/地区的预期寿命⼤于发展中国家/地区。然而,造成这种差异的可能影响因素有很多,医疗卫⽣因素、经济因素、社会因素都可能对预期寿命造成影响,各个具体因素的影响⽅向与影响强度仍有待于进而探明。本案例尝试根据世界各国/地区的数据,运用相关性分析的法探究预期寿命的具体影响因素及其影响程度,运用回归分析的方法构建预测模型,并利用指标对模型进⾏评价。本案例的研究结果对于提高预期寿命可能有一定的指导意义。  数据集:本数据集来自于世界卫生组织(WHO)旗下的全球卫生观察站(GHO)的数据库,该数据集包括193个国家/地区2000-2015年的预期寿命以及各种可能的影响因素,影响因素总体上可以分为免疫因素、死亡率因素、经济因素和社会因素四大类。最终数据集是在剔除了一些难以获得有关数据的小国后得到的,由22列和2938行组成。列数据包括国名、年份、发展状态、预期寿命、成人死亡率、婴儿死亡率、酒精、百分比支出、乙型肝炎、麻疹、BMI、五岁以下死亡率、小儿麻痹症、总支出、白喉、HIV/AIDS、GDP、人口、1~19岁瘦小率、5~9岁瘦小率、资源的收入构成、教育 ,其中国名与发展状态的数据类型为字符串,其他数据的数据类型为整数/浮点数。