JMIR形成性研究- Reddit用户的就寝时间估计:时间戳和调查的综合分析

原始论文

¹美国北卡罗来纳州达勒姆市杜克大学医学院精神病学与行为科学系

²耶鲁大学分子生物化学与生物物理系，美国康涅狄格州纽黑文

^3.计算生物学与生物信息学，耶鲁大学，美国康涅狄格州纽黑文

⁴美国康涅狄格州纽黑文，耶鲁大学精神科

⁵达勒姆退伍军人事务医疗保健系统，美国北卡罗来纳州达勒姆

⁶美国康涅狄格州纽黑文，耶鲁大学医学信息学中心

⁷退伍军人事务康涅狄格州医疗保健系统，西黑文，康涅狄格州，美国

⁸杜克大学心理与神经科学系，达勒姆，北卡罗来纳州，美国

⁹耶鲁大学吴仔研究所，美国康涅狄格州纽黑文

¹⁰耶鲁大学计算机科学系，美国康涅狄格州纽黑文

¹¹耶鲁大学统计与数据科学系，美国康涅狄格州纽黑文

通讯作者:

William U Meyerson，医学博士

精神病学与行为科学系“，

杜克大学医学院

罗克斯伯勒街3643号

北卡罗来纳州达勒姆27704

美国

电话:1 919 695 3567

电子邮件:william.ulysses@gmail.com

背景:晚睡的人在情绪和物质方面有困难的风险增加。为了调查晚睡和其他睡眠模式的原因和后果，研究人员正在探索社交媒体作为数据来源。开创性研究直接从社交媒体数据推断睡眠模式。虽然具有创新性，但这些努力在不同程度上是不可扩展的，依赖于上下文，局限于特定的睡眠参数，或依赖于未经测试的假设，并且没有一项被审查的研究适用于流行的Reddit平台或面向研究社区的发布软件。

摘要目的:这项研究建立在先前工作的基础上。我们从Reddit用户的帖子的时间戳中估计他们的就寝时间，根据调查数据测试推断的有效性，并将我们的模型作为R包发布(R Foundation)。

方法:我们收集了159名足够活跃的Reddit用户，他们都有已知的时区和已知的、正常的就寝时间，以及他们210万篇帖子的时间戳。该模型的形式是通过可视化用户发帖时间与报告就寝时间的总分布来选择的。所选择的模型表示用户在一天中不同时间发布Reddit帖子的频率，在就寝前有一个平坦的部分，在就寝前开始有一个二次耗尽，参数与数据相匹配。这个模型根据每个Reddit用户发布的时间戳来估计他们的就寝时间。模型性能通过k-fold交叉验证进行评估。然后，我们应用该模型来估计51372个足够活跃的、具有已知时区的非机器人Reddit用户的就寝时间，这些用户来自他们1.4亿个帖子的时间戳。

结果:在我们的模型中，预期和观察到的Reddit发布频率之间的Pearson相关系数在汇总数据上为0.997。平均而言，睡前45分钟，发微博量开始下降，睡前4.75小时达到最低点，比白天低87%，睡前10.25小时恢复到基线水平。个人用户推断的就寝时间和报告的就寝时间之间的Pearson相关性为0.61 (P<措施)。159例中有90例(56.6%)，我们的估计是在报告的就寝时间1小时内;128例(80.5%)发生在2小时内。保留集与k-fold交叉验证的训练集的准确性相当，反对过度拟合。该模型比随机森林方法更准确。

结论:我们发现了Reddit用户报告的就寝时间和白天高发帖率转变为夜间低发帖率的时间之间的简单、可重复的关系。我们在一个模型中捕捉到了这种关系，该模型根据用户发布的时间戳来估计他们的就寝时间。限制包括仅适用于频繁发布内容的用户、对时区数据的要求以及泛化性的限制。尽管如此，这对于大规模地被动推断社交媒体用户的睡眠参数还是向前迈出了一步。我们的模型和预先计算的5万名Reddit用户的就寝时间是免费的。

JMIR Form Res 2023;7:e38112

doi: 10.2196/38112

关键字

社交媒体；睡眠；参数的模型； Reddit；观测模型；研究工具；睡眠模式；使用数据；模型；睡觉前

充足的睡眠对健康和幸福至关重要，我们睡觉的时间也很重要。1-4］．由于社会和环境的压力要求早起，晚睡的人要么睡眠不足，要么缺勤，以及晚起带来的其他社会后果。5］．睡觉时间比父母晚的青少年有更多无人监督的时间与同龄人交往，从事冒险活动。无论原因是什么，多项研究表明，晚睡的人患情绪障碍和药物使用障碍的风险更高。6，7］．因此，就寝时间与其他与睡眠相关的参数一样，正在成为一个重要的健康指标。

为了对晚睡和其他睡眠特征的原因和后果提出假设，一些研究人员将社交媒体作为数据来源。如果研究人员能够获得社交媒体用户的睡眠模式信息，那么他们就可以测试这些睡眠模式与这些用户在社交媒体活动中记录的无限网络和离线行为之间的联系。一般来说，研究人员不知道社交媒体用户的睡眠模式，除非他们招募他们进行研究;不幸的是，这意味着无论社交媒体数据在规模和被动监测方面有什么优势，都在睡眠研究中失去了。这些数据的一个特殊用途是理解社交媒体使用对睡眠模式的影响，这是一个非常有趣的话题[8-14］．最近的一项系统综述得出结论，睡眠和社交媒体文献由于依赖调查而受到限制，为了推动该领域的发展，需要新的研究设计[15］．

一些开创性的研究试图直接从社交媒体数据推断睡眠模式。这些尝试使用了3种策略:手动编码、语言挖掘和时间戳分析。一项定性研究使用手动编码，在COVID-19大流行期间，在192条怀孕母亲的推文中确定睡眠困难的主题[16］．一项语言学研究从与失眠相关的关键词(如“睡不着”)推断推特用户是否存在失眠，并表明使用这些关键词的用户在夜间发布的推文更多[17］．另一项使用语言挖掘的研究根据公开的失眠自我报告来识别失眠的推特用户，然后训练一个模型来使用这些用户的语言特征来识别失眠[18］．另一项研究通过有效地说“早上好”的推文和之前有效地说“晚安”的推文之间的时间戳差异计算出了他们所谓的“伪睡眠时间”[19］．

虽然这些早期从社交媒体数据推断睡眠模式的尝试是创新的，但它们受到一些限制，影响了它们的可信度或范围。该领域需要的是一套方法，(1)涵盖感兴趣的睡眠参数范围，(2)证明其推断的有效性，(3)在上下文中具有健壮性，(4)可扩展，(5)涵盖感兴趣的社交媒体平台范围，(6)附带软件以允许传播和改进。Talbot等中需要的手动编码[16不可扩展。检测与失眠相关的语言特征，如McIver等[17]和Sakib等[18有它的用途，但与我们推断睡眠参数以进行更广泛的睡眠研究的目标不同。此外，语言特征依赖于语境，因此尚不清楚它们如何在不同语境中复制。20.］．[的时间戳研究]19并没有实证检验他们计算出的“伪睡眠时间”是否能有效代表我们所关心的一个量(比如睡眠时长)。所有的概要研究都适用于推特数据，这只是一个平台。这些论文都没有附带其他研究人员可以使用的相关软件。

本研究建立在这些开创性研究的基础上，以解决它们的一些局限性。我们根据Reddit用户帖子的时间戳估计了他们的就寝时间，根据调查数据测试了这些推论的有效性，并将我们的模型作为R包发布。我们的工作增加了一个感兴趣的睡眠参数(估计就寝时间)，以覆盖那些可用的方法套件的一些成员。我们用调查数据证明了我们推论的有效性。我们相信，将我们的方法建立在时间戳(客观的、机器可读的用户清醒时的部分时间列表)的基础上，使方法在本质上比语言特征更可能在上下文中具有健壮性。我们通过估计5万名用户的就寝时间来证明我们方法的可伸缩性。因为我们的模型是为社交平台Reddit设计的，而其他概要模型是为Twitter设计的，所以我们的工具增加了该方法套件所服务的平台的数量。与本文一起发布的R包允许其他研究人员复制、应用和扩展我们的工作。

方法概述

本节给出了模型和管道的总体概述;实现细节将在后续章节中描述。

我们获得了159名符合条件的Reddit用户的时间戳，他们公开或私下报告了他们的平均就寝时间和居住时区。这些时间戳和报告的就寝时间被用来训练一个简单的参数模型，该模型根据用户发布的时间戳估计就寝时间。粗略地说，该模型可以描述为寻找用户在夜间的平均发帖率通常开始下降的时段。

一般来说，我们不能仅仅从用户在某个晚上停止在Reddit上发帖的时间来推断用户的就寝时间，因为用户可能只是醒着，但其他时间都在忙。相反，我们寻找的是用户在晚上不太可能发帖的时间段的总体趋势。当我们对一个用户的每晚进行平均时，我们寻找的是发帖率的下降，而不是因为用户每晚就寝时间的变化而停止发帖。

由于该模型参数较少，主要检验模型与训练数据的拟合优度。作为防止过拟合的额外保证，我们采用k-fold交叉验证，其中所有159个符合条件的标记用户都包含在训练集和测试集的一次运行或另一次运行中。最后的模型在训练中使用所有标记的数据。然后将该模型应用于应用程序集，即剩余的5万名用户，这些用户有时区数据，但没有就寝时间数据。

数据采集与初始处理

生成私有数据

为了进行模型训练和测试，我们需要关于Reddit用户的平均就寝时间和居住时区的信息。Reddit发布了一则广告，要求成年志愿者完成一项Qualtrics调查(Qualtrics International Inc)，内容包括他们的Reddit用户名、典型的就寝时间、就寝时间范围、国家和居住地。在调查中，参与者被要求从一个分辨率为30分钟的下拉菜单中选择他们典型的就寝时间。

提取公众自我报告的就寝时间和时区

在征集调查参与者时，我们遇到了样本量不足的问题。因此，从Reddit用户的公开帖子中获得了额外的自我报告的就寝时间和时区。

对Reddit公共论坛的初步调查显示，用户不时发布公开信息，询问Reddit社区成员的睡觉习惯，例如(假设)在一个与园艺相关的论坛上发布一个帖子，询问“Reddit的园丁朋友们，你什么时候睡觉?”，其他Reddit用户在评论中公开回复，比如“我通常晚上8点睡觉。”为了系统地提取这些非正式的先前存在的公众民意调查，我们于2021年8月使用python的Reddit API包装器PRAW (python 3.7版，python Software Foundation)，获得了一组代表Reddit上候选的现有睡眠习惯公众调查的搜索结果，搜索查询“你什么时候”+“睡觉”，“你什么时候”+“睡觉”，“你什么时候”+“睡觉”，“你什么时候睡觉”，“你什么时候睡觉”，“你什么时候睡觉”，“你什么时候睡觉”，“你什么时候睡觉”，和“你什么时候睡觉”。在1570个候选的公开调查帖子中，Reddit用户非正式地询问彼此什么时候睡觉。YKS筛选了这些公众调查的相关性，确定了353项相关调查。接下来，我们使用PRAW的另一个查询来获得这些公众调查的公众回应;这些调查共获得5357份回应。YS、AF和WM根据的编码规则将每个自由文本响应编码为HH:MM AM/PM格式多媒体附件1该研究产生了2445个回答，可以解释为一个单一的就寝时间数字。对于319名在不止一次调查中自我报告就寝时间的用户，我们使用CircStats R包(R版本3.5)计算了循环平均就寝时间，得到了2126名我们公开自我报告就寝时间的独特用户。对于下游分析，公开报告的就寝时间被四舍五入到最接近的15分钟间隔。

由于Reddit报告的时间戳是通用协调时间(UTC)，而用户可能是在当地时间宣布他们的就寝时间，因此下一步是识别那些公开透露自己位置的用户，并由此推断出他们所在的时区。用于定位Reddit用户的smgeo Python包在其训练数据中包括超过5万名公开自我报告其位置的Reddit用户，我们通过完成数据使用协议获得了这些用户及其位置的访问权限[21］．从这些位置，我们使用lutz R包推断时区。在这些用户中，128人公开报告了如上所述的就寝时间数据。

下载时间戳

从2005年8月到2021年6月，所有用户在Reddit上的帖子都是根据Reddit的服务条款从PushShift数据库中下载的[22］．时间戳是用jq命令行工具提取的。

机器人过滤

机器人在社交媒体流量中占了很大一部分，必须注意减少它们对研究结果的影响[23］．我们认为，公开或私下报告自己就寝时间的用户及时适当的回应足以证明这些用户不是机器人。对于应用程序数据集，我们根据所选的可疑容量速度(一分钟内的最大帖子≥9)、容量(十年内的总帖子≥2)的参数将用户标记为可疑机器人¹⁴)，以及发布活动的时间(≥2%的帖子每天发生在同一分钟)，或者如果用户名包含子字符串“bot”、“admin”、“mod”或“auto”。

纳入和排除标准

对于模型训练，如果满足以下3项纳入标准且不满足排除标准，则纳入被动研究对象。纳入标准如下:(1)用户公开自我报告的就寝时间可被我们的搜索策略和编码规则发现和解释;(2)用户的位置由来自[的训练数据进行编码21]以精确地识别用户所在的时区;(3)截至2022年6月，该用户至少贡献了250个终身未删除的Reddit帖子。排除标准如下:用户报告的就寝时间高于或低于训练集中所有其他成员报告的平均就寝时间2个SDs以上。

对于模型训练，如果满足以下所有纳入标准且不满足排除标准，则纳入招募的研究参与者。纳入标准如下:(1)用户同意参与调查，并填写了调查要求的字段(用户名、单个数字典型就寝时间和地点);(2)用户年龄在18岁或以上，符合机构审查委员会(IRB)的要求;(3)截至2022年6月，该用户至少贡献了250个终身未删除的Reddit帖子。排除标准如下:用户报告的就寝时间高于或低于训练集中所有其他成员报告的平均就寝时间2个SDs以上。

模型测试包括所有符合上述训练标准的参与者。

在训练后模型应用中，满足以下两项纳入标准且不满足排除标准的被动式研究对象被纳入。包含如下:(1)用户的位置由Harrigian的训练数据编码[21]以精确地识别用户所在的时区;(2)用户在2021年6月之前贡献了至少250个终身未删除的Reddit帖子(比较小的训练集和测试集早1年;由于应用程序集的大小，在项目开始后更新包含的时间戳既不实际也没有必要)。排除标准如下:用户被标记为机器人(参见机器人过滤部分;这一排除标准不适用于训练或测试数据，因为这些用户的及时适当的反应被视为人类活动的证据)。

模型开发

对于训练数据中的每个Reddit用户，我们编制了一个昼夜节律指纹表，总结了该用户在一天中的某个时间与另一个时间在Reddit上发帖的频率(图1A).用户的昼夜指纹是一个长度为96的向量，每个元素对应于用户在24小时内每个15分钟内发布的各个日期的百分比。通常情况下，这些指纹显示夜间发帖频率下降。我们假设这种减少的夜间发布表示用户通常的睡眠时间。为了验证这一假设，我们将用户报告的就寝时间与他们的昼夜指纹特征联系起来。单个指纹容易受到噪声的影响，我们通过组合不同用户的指纹来解决这个问题。然而，直接平均或添加不同用户的指纹会导致信号稀释，因为不同用户有不同的就寝时间。通过将用户的昼夜节律指纹重铸在一个坐标系统中，将用户各自的就寝时间归零(图1B)，我们能够在不稀释信号的情况下组合用户的指纹。然后将统一模型拟合到与就寝时间相关的组合指纹曲线(图1C).统一模型在目测时选择为分段二次型，抛物线拟合Reddit发帖活动的夜间平静，两侧以一条平水平线为界，其高度使总发帖频率之和为1。通过综合考虑所有可能的切点，选择均方误差最小的切点，优化了从平线到抛物线再回到平线的切点。

更正式地说，是分数r用户在24小时内给定的15分钟内发布的Reddit帖子总数的模型为:

在哪里x是用户平均就寝时间后的小时数，一个，b,c为二次参数拟合，年代而且E是否拟合了模型抛物线截面的开始时间和结束时间的参数，d模型的常数部分，为了使总和为1而计算为

在模型拟合中，执行一系列的拟合运行，包括对所有有效组合的网格搜索年代而且E以15分钟为增量。在每次运行中，也就是说，对于每个测试的组合年代而且E，利用R统计软件内置的多项式拟合函数为模型二次部分的二次参数寻找最优值。然后d是用方程2计算的，然后所有这些参数都输入到方程1，以产生一组96个模型r值，对应于用户在24小时内的96个15分钟增量中发布Reddit的预期频率。接下来，建模的r值与训练数据中Reddit发布频率的经验分布进行比较，以获得该运行的最佳拟合模型的均方误差。最后一个模型是整个的模型年代而且E总均方误差最小的组合。

图1。模型示意图。(A)每个Reddit用户的昼夜指纹是通过计算一个用户在一天中的每个时间出现的Reddit帖子的百分比来计算的。(B)根据用户报告的就寝时间，每个用户的昼夜节律指纹被重铸。(C)一个统一的理想化的昼夜节律模型适合于许多用户的就寝时间相对指纹。(D)通过将统一的理想模型的就寝时间点重铸为不同的时钟时间，构建了一系列就寝时间特定的理想模型。在模型应用程序(箭头连接D和A)中，用户的就寝时间被估计为最适合用户实际昼夜节律指纹的特定就寝时间理想化模型编码的就寝时间。

估计睡觉时间

虽然统一模型的优点是可以很容易地整合来自用户的任何就寝时间的信息，但相同的属性意味着它不编码任何特定的就寝时间，也不能直接用于估计另一个用户的就寝时间。因此，从统一的模型中，我们生成了一组模型的并行版本，其中就寝时间被重新标记为任何本地时间，例如9点，9点15分，等等(24小时中每15分钟间隔1个)，所有其他点都相应移位(图1D)。然后，在测试集中，我们将每个用户在Reddit上发帖的生物钟分布制成表格，并确定一个给定用户的分布是否最类似于(通过斯皮尔曼相关)晚上9点-就寝时间曲线，早上3点-就寝时间曲线，等等，以估计用户的就寝时间。

k-Fold交叉验证

接下来，我们试图使用k-fold交叉验证来测试我们选择的模型是否受过拟合的影响。为了确保训练集和保留集有足够的样本量，我们设k=3。159个符合条件的用户被随机分配到3个大小相同的分区中的一个。在3次交叉验证运行中，分别将1个分区指定为保留分区，另外2个分区指定为训练分区。然后在分配到交叉验证运行的2个训练分区的159个合格用户的子集上训练上面描述的模型，并在各自的保留分区上进行测试。为了确保结果在分配训练和保留集时不依赖于随机因素，我们使用10个不同的随机种子将符合条件的用户分配到分区，进行了10次完整的3倍交叉验证迭代。

与替代模型的比较

为了将我们的模型与替代方案进行基准测试，我们将模型的性能与机器学习随机森林方法进行了比较。我们使用R的ranger软件包版本0.14.1训练一个随机森林模型，从训练数据中的用户在24小时内的96个15分钟间隔内的Reddit发帖率的垃圾箱中估计就寝时间。森林有10,000棵树和默认的元参数。

道德的考虑

本研究由杜克大学卫生系统IRB(协议号Pro00106817和Pro00106782)和杜克大学校园IRB Pro2022-0339确定豁免IRB审查。对于私人调查，参与者以电子方式表示同意;他们被告知，我们不会与第三方分享他们的用户名。对于公共数据，Reddit数据使用协议规定，向Reddit公开发布信息即表示同意公开和自由地共享这些信息。本研究生成的新数据(私人调查)以匿名和去识别的方式作为数据文件与相关的R包包含。本研究中使用的一些在下游应用中有用的公共数据(例如，公共数据的用户名)只能通过与合格的研究人员签订数据使用协议才能从本研究的作者那里获得，该协议同意不寻求识别假匿名用户名背后的人，也不与他人共享数据。受试者没有得到任何补偿。

样本特征

最后的训练和测试集包括159名Reddit用户，他们自己报告的就寝时间、时区，以及他们集体发布的2178,245个Reddit帖子的时间戳。在159名用户中，42人是私下招募的，117人是被动参与的。在这些用户中，82人(51.6%)位于美国，21人(13.2%)位于加拿大，17人(10.7%)位于英国，23人(14.5%)位于欧洲其他地区，16人(10.1%)分布在世界其他地区。据报道，这组人的平均就寝时间是晚上11:47分。

最终的应用程序集包括51372个Reddit用户，他们的时区，以及他们的140,135,349个帖子的时间戳。

Reddit发布了自我报告就寝时间后的衰退

我们的总体目标是开发一个模型，从Reddit用户发布的时间戳推断他们的就寝时间。我们方法的核心假设是就寝时间和时间戳是有意义的相关。我们的第一个任务是验证这个假设。具体来说，如果就寝时间和时间戳有意义相关，我们预测用户会从就寝时间前后开始在Reddit上发布更少的内容。为了验证这一预测，我们分析了训练集中159名用户的帖子时间戳的昼夜分布，并根据他们自我报告的就寝时间进行了分层。

我们发现，用户在晚上在Reddit上发帖的频率要低得多，这与他们自己报告的就寝时间密切相关(图2)．通过对晚上9点到凌晨3点就寝时间的用户进行视觉检查，就寝时间最早的用户(晚上10点，±1小时，红色)夜间睡眠时间最左移，就寝时间最晚的用户(凌晨2点，±1小时，绿色)夜间睡眠时间最右移，就寝时间中间的用户(上午12点，±1小时，蓝色)夜间睡眠时间居中。这些数据表明，Reddit用户安静的夜间时间在一定程度上反映了他们特定的睡眠时间，而不仅仅是Reddit用户睡眠周期的需求端结果。数据还显示，无论自动发布的内容如何通过我们的过滤器，都不足以淹没那些只在清醒时发布内容的用户的昼夜节律。

当我们以统一的方式结合所有标记参与者的数据时，Reddit上的帖子在自我报告就寝时间后下降的趋势更加明显。所观察到的昼夜节律剖面的综合汇总图3。通过根据用户报告的就寝时间后的小时数索引时间箱，我们能够将不同就寝时间的用户在Reddit上的发帖频率结合起来。综合综合观察到的昼夜节律档案强调了用户在就寝后在Reddit上发布较少内容的主要趋势，几小时后才恢复。

在第一部分中，我们已经证明了我们的核心假设成立:就寝时间和Reddit时间戳确实是相互关联的。这为以后的章节提供了基础。此外，这里的分析还可以作为质量控制检查，以确保我们在技术层面上正确地执行了数据集成。

图2。Reddit的昼夜发布节奏。x轴列出了一天中的时间，y轴给出了一天中该时间提交的所有帖子的百分比，按就寝时间分层。就寝时间:红色:晚上9点-10:45;蓝色:晚上11点-凌晨12:45;格林:凌晨1点到2点45分。

图3。汇总与就寝时间相关的昼夜节律。所有就寝时间的用户都被聚合到同一条曲线上。x轴不是按照时钟的小时数，而是按照相对于就寝时间的小时数列出一天的时间。

一个理想的昼夜节律张贴模型

在证明了就寝时间和时间戳是相关的之后，我们接下来试图建立一个模型，将它们定量地联系起来。为了寻找灵感，我们再次转向图3，并从定性上注意到发帖频率分布总体形状中的某些特征:白天的发帖频率近似恒定，在用户就寝时间或就寝时间附近开始的发帖频率近似抛物线。

我们想看看具有这些属性的模型对观测数据的拟合有多好。图4显示了我们的模型对汇总数据的绘制。预期发帖频率和平均观察发帖频率之间的Pearson相关系数为0.996。在最佳拟合模型中，方程1和方程2 (Methods)中的参数值为:年代等于0.75 E等于10一个，b,c4.12×10⁴, 3.81×10³、1.06×10²，以及d是1.42×10²。在最好的测试模型中，Reddit上的帖子在用户就寝前45分钟开始明显下降，在就寝后4.75小时达到最低点，比白天的发帖率低87%，在就寝后10.25小时回到基线。我们发现，Reddit时间戳和就寝时间之间存在一种非常简单而有力的定量关系。

图4。建模并观察Reddit上相对于就寝时间的发帖频率。黑色是观察到的用户在就寝后按小时的聚合发布频率，如图3所示。红色部分是拟合的模型，夜间呈抛物线状，白天呈平面状。

估计个人就寝时间

在演示了我们的模型对聚合数据的适合性之后，我们接下来试图测试我们的模型是否可以用于预测单个用户的就寝时间。为了预测就寝时间，我们将理想模型与单个用户的时间戳分布相匹配，并估计就寝时间为模型抛物线部分开始前45分钟。

我们量化了我们模型的准确性(图5)．在极坐标下，推测的就寝时间和报告的就寝时间之间的Pearson相关系数为0.61 (P<措施)。159例中有90例(56.6%)发生在报告就寝时间1小时内。在128例(80.5%)病例中，我们的估计是在报告就寝时间的2小时内。残差以零为中心，近似对称(多媒体附件2)．我们观察到的估计就寝时间与报告就寝时间之间的相关性与先前报道的自报告与多导睡眠描记仪得出的睡眠时间相关睡眠参数值之间的0.47相关性相当[24］．

图5。每个Reddit用户的估计和报告就寝时间。每个点代表训练和测试数据中包含的159个Reddit用户中的一个，他或她报告的就寝时间(x轴)，以及他或她根据用户帖子的时间戳推断的估计就寝时间(y轴)。趋势线显示为东南方向。

使用k-Fold交叉验证进行过拟合测试

为了测试我们的模型对过拟合的鲁棒性，我们采用了k-fold交叉验证(方法)。有效地，该过程允许所有159个标记用户作为一个或另一个坚持集的一部分作为验证数据。10次3倍交叉验证涉及30次模型保留数据的验证测试。所有30项测试均产生了统计上显著的(P< 0.05)预测就寝时间与报告就寝时间呈Pearson正相关。训练分区之间估计和报告的就寝时间的中位数相关性为0.61 (IQR为0.59-0.68)。保留分区之间的中位相关性为0.62 (IQR 0.57-0.66)。保留分区的准确度与训练分区的准确度相当，这表明模型没有明显的过拟合问题。

与替代模型的比较

随机森林是一种强大的通用机器学习技术，只需要最小的微调，这使它们成为我们简单参数模型的一个有吸引力的比较。我们在训练数据上训练了一个随机森林，并计算了最佳情况精度，即随机森林对训练数据的预测与报告的训练数据的就寝时间之间的相关性。随机森林的预测与训练数据报告的就寝时间相关，Pearson ρ为0.47 (P<措施)。这比我们选择的参数模型得到的0.61相关性更不准确。尽管我们的模型很简单，但我们的模型比流行的随机森林机器学习技术有更好的性能，这表明我们的模型非常适合我们的用例。

适用于已知时区的用户

在验证了我们的模型后，我们接下来试图将其应用于更广泛的用户集，以描述数千名Reddit用户的就寝时间。我们使用我们的模型来估计51372名用户的就寝时间。21我们至少下载了他们的250个时间戳。我们估计了这个集合的就寝时间。中描述了估计就寝时间的柱状图图6。平均就寝时间为12:12 AM (SD 2.41小时)。美国用户的平均就寝时间是凌晨12:02分。这比全国代表性NHANES研究中观察到的就寝时间晚了22分钟[25］．也许，这种差异反映了Reddit的年轻、精通技术的用户群。26］．

在额外的分析中，我们调查了这5万名用户的估计就寝时间是如何按星期、月份和年份变化的(多媒体附件2)．

图6。估计有5万Reddit用户睡觉。这是一个直方图，从5万多名Reddit用户的帖子时间戳推断他们的就寝时间。

主要研究结果

人们对研究社交媒体用户的睡眠模式越来越感兴趣。这一领域的大多数先前工作都是通过招募受试者进行自我报告或电子跟踪睡眠模式，并自我报告社交媒体的使用情况。一些有进取心的研究人员试图从社交媒体用户的帖子的时间戳中推断出他们的就寝时间，这消除了受试者招募的需要，避免了某些方面的选择和回忆偏差，并很好地用于对就寝时间与用户帖子内容的综合分析。文献中的语言学方法已用于识别报告失眠的个体，但未用于识别就寝时间;之前通过社交媒体数据专门估计就寝时间的工作并没有使用外部数据来验证他们的假设。

在这项工作中，我们开发并测试了一个模型，用于从Reddit用户的帖子的时间戳推断他们的就寝时间。我们在测试数据中的准确性与多导睡眠描记法得出的睡眠时间与自我报告的睡眠时间的相关性相当[25］．

限制

我们的方法的一个局限性是，它只能生成频繁在Reddit上发布帖子的用户的估计(例如250个或更多的终身帖子)，这些用户可能不能代表那些主要阅读Reddit而不频繁发帖的Reddit用户。同样，Reddit本身也不能代表所有社交媒体用户或广大人群，例如，它比Facebook或普通人群更年轻、更男性、更精通技术。此外，我们还没有在其他社交媒体平台上验证所提出的方法，这些平台上笔记本电脑和手机用户的比例可能不同，这可能会影响他们睡前最后一次发帖的时间。27］．

未来的发展方向

对于改进、扩展和应用这个模型，有许多未来的方向。一个更复杂的模型可以在抛物线损耗中使用自适应宽度。该框架可以很容易地扩展到其他睡眠参数，如唤醒时间或睡眠持续时间，或其他具有适合目的的训练数据的社交媒体平台。研究人员可以应用我们的模型来研究Reddit上的就寝时间和用户在Reddit上分享的生活特征之间的关系。

结论

我们的工作使研究人员能够以严格、有效的方式研究就寝时间与用户在社交媒体上分享的生活的任何方面之间的关系，而无需招募队列。

致谢

这项工作得到了杜克大学卫生系统精神病学和行为健康部门的内科科学家跟踪的支持。这项工作部分由康涅狄格州精神卫生和成瘾服务部资助，但本出版物不表达精神卫生和成瘾服务部或康涅狄格州的观点。本文仅代表作者个人观点。

数据可用性

Reddit数据由Baumgartner等人公开提供[22］．我们的R包已在Meyerson公开提供[28］．我们还计划向完成数据使用协议的合格研究人员提供我们预先计算的超过5万名Reddit用户的就寝时间。

利益冲突

PC是数字精神健康公司Tetricus Labs的联合创始人和股东，其工作与本文内容无关，也没有资助这项工作。

‎

多媒体附件1

为Reddit用户的自由文本报告时间编码的规则。

DOCX文件，150 KB

‎

多媒体附件2

补充方法和结果。

DOCX文件，61 KB

Chattu VK, Manzar MD, Kumary S, Burman D, Spence DW, Pandi-Perumal SR.睡眠不足的全球性问题及其严重的公共健康影响。医疗保健2018年12月20日;7(1):1 [免费全文] [CrossRef］
王晓明，王晓明。轮班工作和睡眠不足对健康的影响。英国医学杂志2016;355:i5210 [免费全文] [CrossRef］
青少年和年轻人睡眠不足:原因和后果的更新。儿科2014;134 (3):e921-e932。(CrossRef］
Chaput JP, Dutil C, Featherstone R, Ross R, Giangregorio L, Saunders TJ，等。成年人的睡眠时间、睡眠一致性与健康:一项系统综述。应用Physiol Nutr Metab 2020;45(10，补充2):S232-S247。(CrossRef］
Zerbini G, van der Vinne V, Otto LKM, Kantermann T, Krijnen WP, Roenneberg T.晚时型学生学习成绩较低:潜在因素和机制。科学通报2017;7(1):4385 [免费全文] [CrossRef］
日性偏好与抑郁症状:一项荟萃分析。科学通报2021;11(1):12003 [免费全文] [CrossRef］
张志刚，张志刚，张志刚，张志刚，等。大学生夜间睡眠类型、酒精使用障碍严重程度与情绪调节Chronobiol Int 2020;37(12):1725-1735 [免费全文] [CrossRef］
斯科特H，伍兹HC。了解社交媒体使用、睡眠和心理健康之间的联系:近期进展和当前挑战。高级睡眠医学代表2019;5(3):141-149 [免费全文] [CrossRef］
Scott H, Biello SM, Woods HC。社交媒体使用和青少年睡眠模式:来自英国千年队列研究的横断面发现。BMJ公开赛2019;9(9):e031161 [免费全文] [CrossRef］
Levenson JC, Shensa A, Sidani JE, Colditz JB, Primack BA。美国年轻人睡前使用社交媒体和睡眠障碍:一项全国代表性研究。睡眠2017;40(9):zsx113 [免费全文] [CrossRef］
希尔DL。社交媒体:预见性指导。儿科Rev 2020;41(3):112-119。(CrossRef］
Shimoga SV, Erlyana E, rebelo V.青少年使用社交媒体与身体活动和睡眠充足的关系:横断面调查。中国医学网络学报2019;21(6):e14290 [免费全文] [CrossRef］
Hamilton JL, Lee W.社交媒体、睡前技术使用规则和青少年日间嗜睡之间的关系:来自全国代表性样本的横断面发现。JMIR医疗卫生2021;8(9):e26273 [免费全文] [CrossRef］
Varghese NE, Santoro E, Lugo A，马德里- valero JJ, Ghislandi S, Torbica A，等。技术和社交媒体使用在意大利青少年睡眠困难中的作用:横断面研究。中国医学杂志，2017;23(1):e20319 [免费全文] [CrossRef］
Kaur P, Dhir A, Alkhalifa A, Tandon A.社交媒体平台与睡眠问题:系统的文献综述，综合和未来研究的框架。互联网决议2021;31(4):1121-1152 [免费全文] [CrossRef］
塔尔博特J, Charron V, Konkle AT。感觉空虚:推特数据分析显示，在COVID-19大流行期间，孕妇缺乏隔离支持和睡眠困难。国际环境与公共卫生杂志2021;18(2):393。(CrossRef］
McIver DJ, Hawkins JB, Chunara R, Chatterjee AK, Bhandari A, Fitzgerald TP，等。用推特描述睡眠问题。中国医学网络杂志2015;17(6):e140。(CrossRef］
Sakib AS, Mukta MSH, Huda FR, Islam AKMN, Islam T, Ali ME。从社交媒体帖子识别失眠:对用户推文的心理语言学分析。中国医学杂志，2016;23(12):e27613。(CrossRef］
Yoshida M, Kojima T, Matsumoto K, Kita K.分析睡眠时间和社交网络服务文本的关系?:使用当天最后一条推文预测推文时间跨度。中国电子学报;2011;20 (1):1-9 [免费全文］
Mieskes M, Fort K, Névéol A, Grouin C, Cohen KB。NLP社区对可复制性的看法。2019年发表于:自然语言处理的最新进展;2019年9月2日;保加利亚瓦尔纳https://hal.archives-ouvertes.fr/hal-02282794(CrossRef］
没有地理标签的地理编码:一种基于文本的reddit方法。比利时布鲁塞尔:计算语言学协会;2018年发表于:2018 EMNLP研讨会论文集W-NUT:第四届噪声用户生成文本互联网研讨会;2018年11月;布鲁塞尔，比利时p. 17-27网址:https://aclanthology.org/W18-6103(CrossRef］
Baumgartner J, Zannettou S, Keegan B, Squire M, Blackburn J.推送位移reddit数据集。Proc Int AAAI Conf Web Soc Media 2020;14:830-839 [免费全文] [CrossRef］
Orabi M, Mouheb D, Al Aghbari Z, Kamel I.社交媒体机器人检测:系统综述。Inf过程管理2020;57(4):102250 [免费全文] [CrossRef］
Lauderdale DS, Knutson KL，闫丽娟，刘凯，Rathouz PJ。睡眠时长:自我报告反映客观测量的程度如何?CARDIA睡眠研究。流行病学2008;19(6):838 - 845。(CrossRef］
Urbanek JK, Spira AP, Di J, Leroux A, Crainiceanu C, Zipunnikov V.美国青少年和成人就寝时间和睡眠类型的流行病学:NHANES 2003-2006。生物钟杂志2018;35(3):416-434 [免费全文] [CrossRef］
快速，免费，有针对性:reddit作为在线招募参与者的来源。计算机科学进展2017;35(4):537-549 [免费全文] [CrossRef］
维拉蒂AC，约翰逊AL，伊拉库万V，雅各布MA，格雷厄姆AL，拉斯JM。2016年美国年轻人使用社交媒体和获取数字技术的情况。中国医学杂志，2017;19(6):e196 [免费全文] [CrossRef］
Meyerson W. BEDDiTGithub repository, 2022年。URL:https://github.com/WillMeyerson/BEDDiT[2022-12-09]访问

‎

IRB:机构检讨委员会

UTC:通用协调时间

A Mavragani编辑;提交19.03.22;同行评审:M Nakao, Q Chen, G Jerome;对作者09.11.22的评论;收到的订正版本为22.11.22;接受06.12.22;发表17.01.23

©William U Meyerson, Sarah K Fineberg, Ye Kyung Song, Adam Faber, Garrett Ash, Fernanda C Andrade, Philip Corlett, Mark B Gerstein, Rick H Hoyle。最初发表在JMIR形成研究(https://formative.www.mybigtv.com)， 17.01.2023。

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR Formative Research上的原创作品。必须包括完整的书目信息，https://formative.www.mybigtv.com上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

Reddit用户的就寝时间估计:时间戳和调查的综合分析

Reddit用户的就寝时间估计:时间戳和调查的综合分析

原始论文

通讯作者:

摘要

关键字

简介

方法

方法概述

数据采集与初始处理

生成私有数据

提取公众自我报告的就寝时间和时区

下载时间戳

机器人过滤

纳入和排除标准

模型开发

估计睡觉时间

k-Fold交叉验证

与替代模型的比较

道德的考虑

结果

样本特征

Reddit发布了自我报告就寝时间后的衰退

一个理想的昼夜节律张贴模型

估计个人就寝时间

使用k-Fold交叉验证进行过拟合测试

与替代模型的比较

适用于已知时区的用户

讨论

主要研究结果

限制

未来的发展方向

结论

致谢

数据可用性

利益冲突

参考文献

缩写