使用本地知识来优化长寿预期分析
地理与长寿预期之间的联系可以追溯到十七世纪,约翰·格兰特在1662年出版的《自然与政治观察——基于死亡登记簿的观察》中首次提出,农村和城市居民的死亡率存在不同水平。
格兰特提到的“死亡登记簿”是指自十六世纪中叶以来在英格兰出版的每周教区出生和死亡记录列表,而如今的研究人员则拥有一套更为全面的工具。
由赫瑞瓦特大学安德鲁·凯恩斯教授领导的团队开发的英国寿命指数(LIFE指数)使用了现代数据科学技术——随机森林算法,并结合机器学习,以分析社区层面的寿命预期。
尽管使用了不同的技术,但最终的结果与格兰特的发现非常相似:城市和农村的死亡率水平存在明显差异。
LIFE指数首次发布于2021年,并于2024年进行了更新,以反映议会边界变化的影响。凯恩斯表示,尽管该项目最初是为养老金和保险提供商设计的,但现在它具有更广泛的应用价值。
“七八年前,我们的起点是研究整个人口死亡率的变化幅度,特别是针对养老金应用,” 他说道。
分析基于12个不同的变量,例如65岁以上无学历的比例、犯罪率、平均卧室数量以及城市与乡村分类。在这12个变量中,有两个被发现具有更大的重要性。
“收入贫困和就业贫困可能涵盖了你所见变化的80%到90%。”他表示。
另一个重要变量是城市和农村人口的划分,凯恩斯表示,这个因素负责了寿命预期差异中的剩余10%,具体取决于分析了多少个变量。
“其他变量,例如房产中的卧室数量,可以作为城市/农村的替代指标。因此,如果你使用的变量少于12个,那么城市/农村因素很重要,但如果使用了12个变量,这种重要性就会减少,”他说道。
根据凯恩斯的说法,应用机器学习是数据分析中的关键部分,因为它能够揭示非线性趋势。例如,医学试验通常使用的是Cox回归分析,这种方法是纯线性的。
“与传统方法相比,随机森林算法能够捕捉数据中的非线性特征。总体而言,它在所有社区中提供了更好的拟合效果,而线性方法在数据的某些部分拟合良好,但在其他区域则表现不佳,”凯恩斯说。
“如果使用更传统的线性模型,它无法捕捉到这一点。而通过使用机器学习方法,当你在失业率或其他因素的尺度上进行分析时,你会发现某个特定的预测变量在数据集的某一部分可能非常重要,但在另一部分却不那么重要。”
“来自加拿大的数据表明,在移民水平较高的地方,当人们迁移到你的国家时,他们通常身体健康,并且来这里是为了工作。而这种良好的健康状态似乎能够持续下去,”他补充道。
凯恩斯强调,仍需进一步研究以了解这一趋势的原因。一个可能的解释是,失业贫困对寿命预期的重要性,而这一变量在移民群体中通常较低。
出生在英国以外的人在退休后的收入较低,凯恩斯表示,这一数据点可能对政策制定者有所帮助。
“一个可能的推论是,许多移民可能进入了低薪工作。虽然他们在工作期间不太可能失业,但在退休时,他们可能会出现在收入支持变量中。”
“这可能与英国的普通人不同,因为在英国,失业与退休后需要收入支持之间的关联更为明显,” 凯恩斯说。
LIFE指数面临的一个限制是,ONS的数据仅涵盖了英格兰和威尔士,而苏格兰和北爱尔兰在贫困分析方面有略微不同的方法。凯恩斯表示,他的团队正在研究如何将这两个国家的额外数据纳入分析,但他认为这不会改变结果。
他还表示,尽管该项目最初略有调整,扩展了更多工具以提供给政策制定者,但研究对行业专家仍然具有重要价值。
“这个指数对政策制定者很有用,因为他们在花费有限资源以改善健康结果时,我们的LIFE应用程序提供了一个很好的工具,能够精确地指出最需要关注的区域。”
“在养老金或人寿保险的背景下,它的用途略有不同,因为这些组织拥有自己的数据和资源,并且能够详细了解养老金领取者或保单持有人的特征。不过,我们认为LIFE指数可以与这些数据结合使用,以提升评估和定价的准确性,” 他说道。
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。