这是一篇根据知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在JMIR公共卫生与监测上,并适当引用。必须包括完整的书目信息,到https://publichealth.www.mybigtv.com上原始出版物的链接,以及版权和许可信息。
肥胖是一种全球流行病,每年至少造成280万人死亡。这种复杂的疾病与严重的社会经济负担、工作生产力下降、失业和其他健康社会决定因素(SDOH)差异有关。
本研究的目的是利用地理空间机器学习方法,调查SDOH对美国田纳西州谢尔比县成年人肥胖患病率的影响。
肥胖患病率数据来自美国疾病控制与预防中心公开的500个城市数据库,SDOH指标来自美国人口普查和美国农业部。我们检查了肥胖流行模式的地理分布,使用Getis-Ord Gi*统计数据并校准了多个模型来研究SDOH与成人肥胖之间的关系。采用无监督机器学习进行分组分析,调查肥胖患病率分布及相关SDOH指标。
结果显示,谢尔比县有很高比例的社区经历了高成人肥胖率。在人口普查区,家庭收入中位数以及黑人、租房者、生活在贫困线以下、55岁或以上、未婚和无保险的个人比例与成人肥胖患病率有显著关联。分组分析揭示了弱势社区肥胖患病率的差异。
需要更多的研究来检验地理位置、SDOH和慢性病之间的联系。这项研究的结果表明,弱势社区的肥胖患病率明显较高,可以利用其他地理空间信息提供有价值的见解,为健康决策和干预提供信息,以减轻肥胖患病率上升的风险因素。
肥胖是一种全球性流行病,在过去40年中,男性的患病率从3%上升到11%,女性的患病率从6%上升到15% [
尽管遗传和行为因素增加了易感性,但研究表明,健康的社会决定因素(SDOH)风险因素对健康结果产生不利影响,并且是肥胖和其他非传染性疾病发生率增加的主要因素[
目前缺乏利用地理空间情报来检查与肥胖相关的SDOH指标的研究。在这项研究中,我们检查了美国谢尔比县肥胖的地理差异和流行模式,使用Getis-Ord Gi*统计数据并校准了多个模型来研究SDOH与成人肥胖之间的关系。我们还采用无监督机器学习进行分组分析,调查肥胖患病率分布及相关SDOH指标。除了促进对谢尔比县肥胖和其他非传染性疾病的监测外,我们的研究结果还可以为创新的健康战略提供信息,以解决SDOH差异和其他对健康结果的不利影响。
在这项研究中,来自知名的、公开的多维来源的数据在人口普查区一级被合并。我们使用了CDC 500个城市的数据(2019年)[
田纳西州谢尔比县人口普查区肥胖及相关危险因素统计摘要
变量 | 操作化 | 源 | 值,平均值(SD) |
肥胖 | 2018年18岁以上成年人肥胖粗患病率基于模型的估计 | 疾病预防控制中心一个 | 35.77 (7.84) |
超市通道少 | 人口普查区内没有车辆且距离超市半英里以上的住房单位数量 | 美国农业部b | 102.54 (108.37) |
黑人 | 居住在人口普查区的黑人或非裔美国人的百分比 | 美国人口普查 | 58.02 (17.31) |
贫困 | 人口普查区中生活在联邦贫困线以下人口的百分比 | 美国农业部 | 24.89 (17.35) |
失业 | 居住在人口普查区的失业人口的百分比 | 美国人口普查 | 4.32 (3.04) |
高中毕业证书 | 人口普查区年龄≥25岁没有高中文凭的人口百分比 | 美国人口普查 | 9.33 (6.59) |
租房者 | 租房的人口比例 | 美国人口普查 | 18.87 (11.85) |
平均住户人数 | 人口普查区的平均家庭规模 | 美国人口普查 | 2.57 (0.52) |
家庭收入中位数 | 人口普查区家庭收入中位数(美元) | 美国人口普查 | 53746 (29335) |
女户主 | 人口普查区户主为女性的家庭百分比 | 美国人口普查 | 7.75 (4.23) |
没有保险 | 基于模型的2018年18岁以上未参保成年人粗患病率估算 | 疾病预防控制中心 | 18.84 (7.16) |
缺乏体育活动 | 2018年18岁以上成年人缺乏身体活动的粗略患病率基于模型的估计 | 疾病预防控制中心 | 32.88 (10.52) |
年龄55岁及以上 | 人口普查区内年龄≥55岁人口的百分比 | 美国人口普查 | 21.89 (7.81) |
单 | 人口普查区中单身人口的百分比 | 美国人口普查 | 13.70 (8.62) |
一个CDC:美国疾病控制与预防中心。
bUSDA:美国农业部。
探讨谢尔比县成人肥胖流行的地理空间聚类及热点。我们使用一阶皇后邻接的Getis-Ord Gi*统计量进行分析,并使用错误发现率校正参数来考虑多重测试和空间依赖性。
为了准备用于预测建模的数据集,我们缩放了特征,使列的平均值为0,SD为1 [
被考虑的预测变量是13个人口普查区的危险因素变量,结果变量是人口普查区的成人肥胖患病率(
在本研究中,我们应用了多种建模技术。普通最小二乘(OLS)回归建模是这些技术之一,由下式表示:
方程1为矩阵表示的回归模型,其中Y为因变量上n个观测值的n×1向量;X是一个n×q设计矩阵,包含对q个解释变量的n个观测值(X矩阵的第一列将由一个n个的截距向量组成);β是回归系数的q×1向量;ε表示随机误差项(独立同分布)的n×1向量。为了评估和比较模型的性能,我们使用了adjusted
在式2中,Y是因变量上n个观测值的n×1向量;ρ是一个标量空间滞后参数;WY是n×n权重矩阵W的空间滞后因变量;X是对q个解释变量的n个观测值的n×q设计矩阵;β是回归系数的q×1向量;ε表示误差项的n×1向量。
空间误差模型包含一个空间自回归误差项,由式3表示:
在式3中,Y是因变量上n个观测值的n×1向量;X是对q个解释变量的n个观测值的n×q设计矩阵;β是回归系数的q×1向量;λ是标量空间误差参数;W表示n×n空间权重矩阵;U表示误差项的n×1向量;Wu表示空间滞后误差项;表示误差项的n×1向量。OLS回归和空间自回归模型将进行评估和比较,以描述最佳性能。
为了理解区域内的因变量和显著相关的SDOH,我们使用了分层聚类无监督机器学习算法[
我们探索了谢尔比县缺乏体育活动、肥胖的地理分布,以及与肥胖显著相关的前四个特征。
ArcGIS Pro软件(版本为2.9.0;Esri)用于生成空间分布以研究模式(即空间聚类)。R Studio(版本4.0.3;RStudio, PBC)和GeoDa软件(版本1.16.0.12;Luc Anselin)进行统计分析。
(A)代表谢尔比县成人肥胖患病率的地理空间分布;(B)代表谢尔比县成人肥胖患病率的显著热点和冷点。
在进行了“回归建模”部分的分析建模技术后,在VIF评估中剔除了缺乏体育活动的人口比例(VIF=46.7),在AIC过程中剔除了女性户主的人口比例和25岁及以上未受过高中教育的人口比例(在进一步的实验分析中也发现它们不显著)。此外,平均家庭规模和很少进入超市的家庭与肥胖没有显著关联。然而,有8个变量来自
最终的OLS回归模型结果见
普通最小二乘回归结果。
变量 | 系数 |
常数 | -0.000 |
家庭收入中位数 | -0.046一个 |
贫困 | 0.184b |
租房者 | -0.134b |
年龄55岁及以上 | 0.043一个 |
单 | 0.091c |
没有保险 | 0.445b |
失业 | 0.042一个 |
黑人 | 0.438b |
一个
b
c
而鲁棒拉格朗日乘数(误差)的检验值为10.72 (
由于我们的变量是在相同的尺度上测量的,我们能够比较每个预测变量对肥胖患病率的影响强度。我们发现,在预测谢尔比县肥胖患病率时,未投保人口的百分比、黑人人口的百分比、低于贫困水平的人口的百分比和租房者的百分比是最重要的变量。
空间误差模型结果。
变量 | 系数 |
常数 | -0.001 |
λ | 0.488一个 |
家庭收入中位数 | -0.056一个 |
租房者 | -0.106一个 |
贫困 | 0.146一个 |
年龄在55岁以上 | 0.051b |
单 | 0.066c |
没有保险 | 0.466一个 |
失业 | 0.027 |
黑人 | 0.423一个 |
一个
b
c
在对两个模型进行校准后,我们发现SEM优于OLS模型。
模型的性能。
模型 | 调整 |
赤池信息准则 |
普通最小二乘 | 0.963 | -88.34 |
空间误差模型 | 0.968 | -108.09 |
我们的分组分析将谢尔比地区的研究区域分为5个不同的组,基于与肥胖显著相关的前四个特征(
分组分析结果。
第一组横跨该地区的第四大区域(47个人口普查区),并被量化为肥胖率、黑人人口百分比、收入低于贫困水平的人口百分比和未投保人口百分比低于平均水平;然而,这一群体在租房者中所占的比例约为平均水平。
第2组是该地区最大的区域,由62个人口普查区组成。该地区在肥胖流行率、租房者比例、黑人人口比例、收入低于贫困水平的人口比例以及未投保人口比例等方面都远高于平均水平。
第三组包括52个人口普查区。该地区的肥胖率、租房者比例和无保险人口比例都高于平均水平,黑人人口比例也远高于平均水平;然而,这一群体在收入低于贫困线的人口中所占的比例和租房者所占的比例都低于平均水平。
第4组由52个人口普查区组成,在肥胖流行率、黑人人口百分比、收入低于贫困水平的人口百分比、租房者百分比和无保险人口百分比等方面被量化为远低于平均水平。
第5组横跨该地区最小的区域(6个人口普查区),其特点是肥胖患病率和无保险人口百分比平均;然而,这个群体在黑人人口中所占的比例、收入低于贫困水平的人口比例和租房者的比例都远远高于平均水平。
尽管由于多重共线性,在“模型选择”过程中剔除了缺乏体育活动的因素,但我们检验了Spearman等级相关系数(
此外,
在谢尔比县人口普查区,用斯皮尔曼排序系数来评估缺乏体育活动与肥胖之间的关系,以及与肥胖相关的前四大特征。
变量 | 斯皮尔曼等级系数 |
肥胖 | 0.96一个 |
没有保险的人口 | 0.95一个 |
黑人 | 0.76一个 |
租房者 | 0.43一个 |
贫困 | 0.86一个 |
一个
评估缺乏体育活动和与肥胖相关的四大特征。
肥胖是一种严重的健康状况,与几种合并症(如心脏病、癌症和糖尿病)有关,这些合并症是美国主要的死亡原因。社区、家庭、学校和工作场所环境等SDOH因素会影响身体活动和获得负担得起的健康食品。一些社区受到的影响更大,与其他人群相比,成人肥胖率不成比例就是证据[
不同于多项研究[
最后,这项研究的结果将被纳入我们的城市公共卫生观察站基于知识的监测平台的分析层[
先前的研究发现社会地理决定因素与健康结果之间存在关联[
赤池信息准则
疾病控制和预防中心
非传染性疾病
普通最小二乘
健康的社会决定因素
空间误差模型
方差膨胀系数
没有宣布。