医学互联网研究杂志-建立Twitter用户种族或民族的方法:范围审查gydF4y2Ba

审查gydF4y2Ba

苏高德gydF4y2Ba^1gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
罗宾·史蒂文斯gydF4y2Ba^2gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
凯伦·奥康纳gydF4y2Ba^3.gydF4y2Ba,硕士gydF4y2Ba ；gydF4y2Ba
理查德•詹姆斯gydF4y2Ba^4gydF4y2Ba, MSLISgydF4y2Ba ；gydF4y2Ba
著Gonzalez-HernandezgydF4y2Ba^3.gydF4y2Ba博士gydF4y2Ba

^1gydF4y2Ba英国约克大学健康科学系gydF4y2Ba

^2gydF4y2Ba南加州大学传播与新闻学院，美国加州洛杉矶gydF4y2Ba

^3.gydF4y2Ba美国宾夕法尼亚州费城宾夕法尼亚大学佩雷尔曼医学院生物统计、流行病学和信息学系gydF4y2Ba

^4gydF4y2Ba美国宾夕法尼亚州费城宾夕法尼亚大学护理联络学院和临床外展协调员gydF4y2Ba

通讯作者:gydF4y2Ba

苏·戈尔德博士gydF4y2Ba

健康科学系gydF4y2Ba

约克大学gydF4y2Ba

HeslingtongydF4y2Ba

约克，yo105ddgydF4y2Ba

联合王国gydF4y2Ba

电话:44 01904321904gydF4y2Ba

电子邮件:gydF4y2Basu.golder@york.ac.ukgydF4y2Ba

背景:gydF4y2Ba越来越多的健康研究使用社交媒体数据。那些对社交媒体研究持批评态度的人经常说，它可能不代表人口;然而，社交媒体数据在数字流行病学中的适用性更为微妙。确定社交媒体用户的人口统计数据可以帮助建立代表性。gydF4y2Ba

摘要目的:gydF4y2Ba本研究旨在确定从社交媒体中提取种族或民族的不同方法或方法组合，并报告使用这些方法的挑战。gydF4y2Ba

方法:gydF4y2Ba我们提出了一个范围审查，以确定用于从Twitter数据集中提取Twitter用户的种族或民族的方法。我们检索了自建刊之日至2021年5月15日的17个电子数据库，并进行了参考查询和手工检索，以确定相关研究。每个记录的筛选是由至少两名研究人员独立进行的，任何不同意见都要讨论。研究需要使用手动或计算方法或两者的结合来提取Twitter用户的种族或民族。gydF4y2Ba

结果:gydF4y2Ba在筛选的1249条记录中，我们确定了67条(5.36%)符合我们的纳入标准。大多数研究(51/67,76%)关注的是美国用户和英语推文(52/67,78%)。使用了一系列数据，包括Twitter配置文件元数据，如姓名、图片、来自bios的信息(包括自我声明)或tweet的位置或内容。使用了一系列方法，包括人工推理、与人口普查数据的联系、商业软件、语言或方言识别、机器学习或自然语言处理。然而，并非所有的研究都对这些方法进行了评估。那些评估这些方法的人发现准确率从45%到93%不等，在识别有色人种类别方面的准确率明显较低。种族或民族的推断提出了重要的伦理问题，所使用的数据和方法可能会加剧这一问题。不同方法的相对准确性在很大程度上也是未知的。gydF4y2Ba

结论:gydF4y2Ba对于提取或推断Twitter用户的种族或民族，目前还没有标准的公认方法或指导方针。社交媒体研究人员必须仔细解读种族或民族，不要过度承诺可以实现的目标，因为即使是人工筛选也是一种主观的、不完美的方法。未来的研究应该建立方法的准确性，为社交媒体研究人员提供基于证据的最佳实践指南，并以公平和社会正义为指导。gydF4y2Ba

[J] .中国医学信息学报，2016;24(4):357 - 357gydF4y2Ba

doi: 10.2196/35788gydF4y2Ba

关键字gydF4y2Ba

推特gydF4y2Ba；gydF4y2Ba 社交媒体gydF4y2Ba；gydF4y2Ba 比赛gydF4y2Ba；gydF4y2Ba 种族gydF4y2Ba

利用Twitter数据进行研究gydF4y2Ba

Twitter数据越来越多地被用作卫生研究中的监测和数据收集工具。当数以百万计的用户在Twitter上发帖时，它就会转化为大量可公开访问的、及时的数据，这些数据涉及特定人群的各种态度、行为和偏好。虽然这些数据最初并非打算作为个人信息的存储库，但Twitter数据已在信息流行病学中得到改进，以调查人口水平的健康趋势[gydF4y2Ba1gydF4y2Ba-gydF4y2Ba15gydF4y2Ba]。研究人员经常将Twitter数据与其他来源结合使用，以测试基于网络的话语与离线健康行为、公众舆论和疾病发病率之间的关系。gydF4y2Ba

Twitter数据的吸引力是显而易见的。Twitter是最大的面向公众的社交媒体平台之一，拥有不同种族的用户群[gydF4y2Ba16gydF4y2Ba，gydF4y2Ba17gydF4y2Ba在超过6800万美国Twitter用户中，黑人用户占26% [gydF4y2Ba18gydF4y2Ba]。这种多样化的用户基础使研究人员能够接触到他们使用传统方法可能难以接触到的人[gydF4y2Ba19gydF4y2Ba]。然而，从Twitter数据中获得的有希望的见解往往受到缺失的东西的限制，特别是每个Twitter用户的基本社会人口统计信息。在进行亚人口分析的卫生研究中，往往需要用户的人口统计特征，以探索差异和确定不平等现象。如果没有证据表明导致种族和族裔健康差异的远端和近端因素，就不可能解决和纠正这些驱动因素。来自社交媒体数据的见解可用于为服务提供提供信息，并通过了解不同人群的公众观点来制定有针对性的卫生信息。gydF4y2Ba

从Twitter上提取人口统计信息gydF4y2Ba

然而，要利用社交媒体和数字健康研究来解决差距问题，我们不仅需要知道推特上说了什么，还需要知道谁在说什么。gydF4y2Ba20.gydF4y2Ba]。尽管其他人已经讨论了提取或估计特征，如地点、年龄、性别、语言、职业和阶级，但尚未对用于提取种族或民族的方法进行全面的审查[gydF4y2Ba20.gydF4y2Ba]。提取Twitter用户的种族和民族对于识别种族和民族多样化人群的趋势、经历和态度尤为重要[gydF4y2Ba21gydF4y2Ba]。因为种族是一种社会建构，而不是一种遗传分类[gydF4y2Ba22gydF4y2Ba，gydF4y2Ba23gydF4y2Ba]，在卫生研究中定义种族和民族的做法一直是一个持续不断的挑战。传统研究的优势在于确定研究对象的身份，并允许他们系统地确定自己的种族和民族身份。在数字健康研究中[gydF4y2Ba22gydF4y2Ba，gydF4y2Ba23gydF4y2Ba]，通过从用户的Twitter个人资料、元数据或推文中提取数据来确定用户的种族或民族是一个不可避免的具有挑战性、复杂性的过程，而且并非没有伦理问题。gydF4y2Ba

此外，尽管Twitter被用于国际研究，但考虑到社会使用不同的标准化分类来描述自己的人口，对确定种族或民族的方法进行国际比较研究是困难的，实际上是不可能的[gydF4y2Ba24gydF4y2Ba]。在美国，一种常见的方法是基于美国人口普查局的做法，允许参与者认同多达5-6个大的种族群体(黑人、白人、亚洲人、太平洋岛民、土著人等)，同时单独选择一个种族(西班牙裔)[gydF4y2Ba25gydF4y2Ba]。然而，种族和民族变量继续在研究设计或得出结论时被滥用。例如，种族或民族往往被错误地视为健康状况不佳的预测因素，而不是作为特定种族或民族对该人在卫生系统中的经历的影响的代表[gydF4y2Ba26gydF4y2Ba]。简单地说，健康差距是由种族主义造成的，而不是种族[gydF4y2Ba27gydF4y2Ba-gydF4y2Ba29gydF4y2Ba]。虽然种族或民族归属是理解多样化人口的一个重要因素，但数字研究必须谨慎和深思熟虑地收集和分配种族或民族。gydF4y2Ba

目标gydF4y2Ba

由于缺乏Twitter用户的基本社会人口统计数据，研究人员不得不采用各种方法来更好地了解每条推文背后的人的特征。提取种族或民族的方法的广度目前尚不清楚。我们的总体目标是总结和评估基于Twitter数据的研究中使用的计算和人工方法的范围，以确定Twitter用户的种族或民族。gydF4y2Ba

概述gydF4y2Ba

我们对提取方法进行了全面的范围审查，并就这些方法提出了建议和注意事项[gydF4y2Ba30.gydF4y2Ba]。我们之所以选择Twitter，是因为它是目前医疗保健研究中最常用的社交媒体平台，它具有一些独特的内在特征，这些特征驱动了我们对其进行挖掘的方法。因此，我们认为方法、数据类型和使用的社交媒体平台是相关的，比较不同社交媒体的方法会增加太多的变量，而不是真正的同类比较。我们设计了一个详细的方案，用于我们的范围审查的方法，但我们无法在PROSPERO上注册范围审查。我们根据PRISMA(系统评价和荟萃分析首选报告项目)范围审查声明[gydF4y2Ba30.gydF4y2Ba]。gydF4y2Ba

入选标准gydF4y2Ba

概述gydF4y2Ba

我们根据人群、干预措施、比较物、结果和研究设计格式制定了严格的纳入标准。虽然这不是对有效性的回顾，但我们认为人口、干预、比较物、结果和研究设计问题分解[gydF4y2Ba31gydF4y2Ba仍然是最适合我们提问形式的答案[gydF4y2Ba31gydF4y2Ba]。以下部分描述了纳入标准。gydF4y2Ba

人口gydF4y2Ba

我们只包括Twitter用户的数据集。如果研究直接从用户的推文、个人资料细节(如用户的照片或头像、姓名、位置和传记)或关注者中收集信息提取或推断种族或民族，则有资格纳入研究。我们排除了从Twitter以外的社交媒体平台提取种族或民族的研究，从未指定的社交媒体平台，或使用包括Twitter在内的多个社交媒体平台的研究，但与Twitter相关的数据没有单独呈现。gydF4y2Ba

干预gydF4y2Ba

研究包括提取或推断Twitter用户的种族或民族数据的方法。包括使用机器学习(ML)、自然语言处理(NLP)、人在循环(human-in-the-loop)或其他计算辅助方法来预测用户种族或民族的文章，以及手动或非计算方法，包括照片识别或链接到人口普查数据。我们排除了无法确定使用方法的研究，或仅提取其他人口统计学特征(如年龄、性别或地理位置)数据的研究。gydF4y2Ba

比较器gydF4y2Ba

不需要对所使用的方法进行比较。一种方法可以与另一种方法(如金标准)进行比较，或者不进行比较。gydF4y2Ba

结果gydF4y2Ba

提取或推断Twitter用户的种族或民族是该研究的主要或次要结果。由于这是一项范围综述，我们的目的是展示文献的全貌，因此在我们纳入的研究中不需要对所使用方法的性能进行特定的测量。gydF4y2Ba

研究设计gydF4y2Ba

任何类型的研究设计都被认为是相关的。讨论文件、评论和信件被排除在外。gydF4y2Ba

限制gydF4y2Ba

纳入标准没有日期、语言或出版类型的限制。然而，在任何非英语语言中都没有发现潜在的相关研究，默认的时间是从2006年开始的，也就是Twitter诞生的那一年。gydF4y2Ba

搜索策略gydF4y2Ba

数据库搜索策略是通过结合三个方面派生出来的:方面1由与Twitter相关的自由文本术语(gydF4y2Ba推特gydF4y2Ba或gydF4y2Ba推特*gydF4y2Ba或gydF4y2Ba微博gydF4y2Ba或gydF4y2Ba转发*gydF4y2Ba或gydF4y2Ba推友*gydF4y2Ba);面2包括种族或民族的术语;facet 3由预测方法的术语组成，如ML, NLP和人工智能相关术语(表S1)gydF4y2Ba多媒体附录1gydF4y2Ba［gydF4y2Ba3.gydF4y2Ba，gydF4y2Ba10gydF4y2Ba，gydF4y2Ba12gydF4y2Ba，gydF4y2Ba18gydF4y2Ba，gydF4y2Ba20.gydF4y2Ba，gydF4y2Ba21gydF4y2Ba，gydF4y2Ba32gydF4y2Ba-gydF4y2Ba96gydF4y2Ba])。所有与民族学相关的主题词都针对不同的数据库分类法和语法进行了调整，并使用标准方法在MEDLINE和其他数据库索引中预测主题词。使用Hinds和Joinson从研究中提取的特定文本分析工具和软件名称的综合列表扩展了预测术语方面的方法[gydF4y2Ba97gydF4y2Ba]，其中包括用于预测社交媒体中人口统计标记的自动化机器学习过程的综合列表。从一项相关研究[gydF4y2Ba98gydF4y2Ba]。gydF4y2Ba

资源搜索gydF4y2Ba

选择了广泛的书目和灰色文献数据库来搜索有关计算机科学、健康和社会科学的主题。资料库(gydF4y2Ba表1gydF4y2Ba)最后一次搜索是在2021年5月15日，没有使用日期或其他过滤器。gydF4y2Ba

对所有纳入的研究和检索确定的任何相关系统评价进行了参考检查。我们浏览了医学互联网研究杂志，因为这是该领域的重要期刊，并手工搜索了2个相关会议，国际网络日志和社交媒体会议和计算语言学协会会议记录。gydF4y2Ba

引文被导出到一个共享的Endnote库，重复的被删除。然后将重复数据删除后的记录输入Rayyan，以方便作者进行独立的盲法筛选。使用纳入标准，来自研究小组的至少两名筛选者(SG、RS、KO或RJ)独立筛选每条记录，讨论纳入争议并达成一致决定。gydF4y2Ba

在两次搜索(2020年3月11日和2021年5月24日)中，仅筛选了ACL的前50条记录和Google Scholar搜索的前100条记录，因为这些记录是按相关性顺序显示的，并且认为在此数字之后没有发现相关的研究[gydF4y2Ba12gydF4y2Ba，gydF4y2Ba21gydF4y2Ba，gydF4y2Ba32gydF4y2Ba-gydF4y2Ba95gydF4y2Ba，gydF4y2Ba99gydF4y2Ba]。gydF4y2Ba

表1。使用检索到的记录数搜索数据库。gydF4y2Ba

数据库gydF4y2Ba	总结果，ngydF4y2Ba
ACL选集gydF4y2Ba	从2个搜索中筛选前50条记录gydF4y2Ba
ACM数字图书馆gydF4y2Ba	150gydF4y2Ba
CINAHLgydF4y2Ba	200gydF4y2Ba
会议记录引文索引-科学gydF4y2Ba	84gydF4y2Ba
会议记录引文索引-社会科学gydF4y2Ba	7gydF4y2Ba
新兴资源引文索引gydF4y2Ba	41gydF4y2Ba
谷歌学者gydF4y2Ba	从2个搜索中筛选前100条记录gydF4y2Ba
IEEE XploregydF4y2Ba	186gydF4y2Ba
图书馆情报学文摘gydF4y2Ba	120gydF4y2Ba
里gydF4y2Ba	79gydF4y2Ba
OpenGreygydF4y2Ba	0gydF4y2Ba
ProQuest论文和这些-英国和爱尔兰gydF4y2Ba	195gydF4y2Ba
PsycINFOgydF4y2Ba	72gydF4y2Ba
PubMedgydF4y2Ba	84gydF4y2Ba
科学引文索引gydF4y2Ba	56gydF4y2Ba
社会科学引文索引gydF4y2Ba	111gydF4y2Ba
ZetocgydF4y2Ba	50gydF4y2Ba

数据提取gydF4y2Ba

对于每一项纳入的研究，我们在excel电子表格中提取了以下数据:gydF4y2Ba

出版年份，研究国家和语言，提取的种族或民族类别(例如种族-黑人，白人或亚洲人或种族-西班牙裔或欧洲人)和论文类型(期刊，会议或论文)。我们还提取了有关提取方法(如使用的分类模型或软件)、提取中使用的特征和预测因子(推文、个人资料和图片)、Twitter用户数量、使用的推文或图像数量、用于评估所用方法的性能度量(验证)以及任何评估结果(如准确性)的详细信息。所有的性能测量指标均按照纳入研究中所述进行报告。所有提取的数据均由2位审稿人进行检查。gydF4y2Ba

质量评估gydF4y2Ba

对于这种类型的研究，没有正式批准的质量评估工具。由于这是一次范围审查，我们没有进行任何正式的评估。然而，我们评估了所进行的任何验证以及方法是否可重复性。gydF4y2Ba

数据分析gydF4y2Ba

我们总结了包括验证在内的论文的陈述性能。然而，我们无法比较使用所述性能的方法，因为性能度量和验证方法差异很大。此外，没有公认的黄金标准数据集进行比较。gydF4y2Ba

概述gydF4y2Ba

共有1735份记录录入Endnote文库(Clarivate)，删除重复记录，留下1249份(72%)记录进行筛选(gydF4y2Ba图1gydF4y2Ba）.仅根据标题和摘要筛选就排除了1080条记录。共有169篇文献被独立筛选者(RS、GG、RJ、SG和KO)认为具有潜在相关性。这些文章的全文被独立筛选，67项研究[gydF4y2Ba12gydF4y2Ba，gydF4y2Ba21gydF4y2Ba，gydF4y2Ba32gydF4y2Ba-gydF4y2Ba95gydF4y2Ba，gydF4y2Ba99gydF4y2Ba]符合我们的纳入标准，102篇文献被排除[gydF4y2Ba77gydF4y2Ba，gydF4y2Ba97gydF4y2Ba，gydF4y2BaOne hundred.gydF4y2Ba-gydF4y2Ba198gydF4y2Ba]。排除的主要原因是，虽然摘要表明收集了人口统计数据，但它不包括种族或民族(最常见的是收集了其他人口统计属性，如性别、年龄或地点)。排除的其他原因是，研究人员通过Twitter上的调查或问卷收集人口统计数据(但不是从Twitter上发布的数据)，或者研究人员使用了Twitter以外的社交媒体平台。gydF4y2Ba

纳入研究的特点gydF4y2Ba

大多数研究(51/67,76%)表明或暗示它们完全或主要基于美国，并且仅限于英语简历或推文。共有6项研究是跨国的[gydF4y2Ba38gydF4y2Ba，gydF4y2Ba41gydF4y2Ba，gydF4y2Ba56gydF4y2Ba，gydF4y2Ba66gydF4y2Ba，gydF4y2Ba83gydF4y2Ba，gydF4y2Ba86gydF4y2Ba];我是英国人(也是英语)[gydF4y2Ba59gydF4y2Ba]，另一个基地设在卡塔尔[gydF4y2Ba55gydF4y2Ba]， 12%(8/67)的研究从多种语言的推文中提取数据[gydF4y2Ba32gydF4y2Ba，gydF4y2Ba38gydF4y2Ba，gydF4y2Ba52gydF4y2Ba，gydF4y2Ba55gydF4y2Ba，gydF4y2Ba56gydF4y2Ba，gydF4y2Ba66gydF4y2Ba，gydF4y2Ba83gydF4y2Ba，gydF4y2Ba86gydF4y2Ba[表2gydF4y2Ba多媒体附录1gydF4y2Ba）.gydF4y2Ba

最常见的检查种族是白人(58/67,87%)，其次是黑人或非裔美国人(56/67,84%)，亚洲人(45/67,67%)，最常见的检查种族是西班牙/拉丁裔(43/67,64%)。gydF4y2Ba

一些研究(12/67,18%)将种族作为二元分类，如非裔美国人或非裔美国人或白人，而另一些研究则创建了3类(15/67,22%)或4类(33/67,49%)或多类分类器。共有6项研究确定了>4个类;然而，这些通常包括种族或国籍分类以及种族[gydF4y2Ba38gydF4y2Ba，gydF4y2Ba48gydF4y2Ba，gydF4y2Ba54gydF4y2Ba，gydF4y2Ba66gydF4y2Ba，gydF4y2Ba83gydF4y2Ba，gydF4y2Ba95gydF4y2Ba]。王与池[gydF4y2Ba77gydF4y2Ba是一篇会议论文，没有报告所提取的种族类型。gydF4y2Ba

用于提取种族或民族的Twitter数据对象各不相同，最常见的是使用个人资料照片或Twitter用户的姓名。其他人也在用户的时间轴中使用tweet，从Twitter的bios中获取信息，或者使用Twitter用户的位置。大多数研究(39/67,58%)使用Twitter数据中的多个数据对象。此外，研究中的数据集规模在392至1.68亿之间，而使用手动方法的数据集规模较小，从392 [gydF4y2Ba50gydF4y2Ba]到4900 [gydF4y2Ba65gydF4y2Ba]。gydF4y2Ba

不幸的是，尽管67%(45/67)的研究测量了表现(这是不一致的测量)gydF4y2Ba表2gydF4y2Ba）.用于报告结果的指标在使用ML或NLP的研究中特别不同，包括gydF4y2BaFgydF4y2Ba_1gydF4y2Ba分数(包括精确率和召回率)、准确度、曲线下面积或平均精确率。gydF4y2Ba表2gydF4y2Ba列出每个研究中顶级模型的方法、特征和报告性能。gydF4y2Ba

表2。使用机器学习或自然语言处理的研究中的顶级系统性能(结果指标反映在原始出版物中)。gydF4y2Ba

研究gydF4y2Ba	分类器gydF4y2Ba	毫升gydF4y2Ba^{一个gydF4y2Ba}模型gydF4y2Ba	特性gydF4y2Ba	结果报告gydF4y2Ba
				精度gydF4y2Ba	FgydF4y2Ba_1gydF4y2Ba分数gydF4y2Ba	曲线下面积gydF4y2Ba
Pennacchiotti and Popescu, 2011 [gydF4y2Ba68gydF4y2Ba］gydF4y2Ba	二进制gydF4y2Ba	GBDTgydF4y2Ba^bgydF4y2Ba	图像、文本、主题和情感gydF4y2Ba	N/AgydF4y2Ba^cgydF4y2Ba	0.66gydF4y2Ba	N/AgydF4y2Ba
Pennacchiotti and Popescu, 2011 [gydF4y2Ba67gydF4y2Ba］gydF4y2Ba	二进制gydF4y2Ba	GBDTgydF4y2Ba	图像、文本、主题、情感和网络gydF4y2Ba	N/AgydF4y2Ba	0.70gydF4y2Ba	N/AgydF4y2Ba
Bergsma等人，2013 [gydF4y2Ba38gydF4y2Ba］gydF4y2Ba	二进制gydF4y2Ba	支持向量机gydF4y2Ba^dgydF4y2Ba	名称和名称集群gydF4y2Ba	0.85gydF4y2Ba	N/AgydF4y2Ba	N/AgydF4y2Ba
Ardehaly and Culotta, 2017 [gydF4y2Ba35gydF4y2Ba］gydF4y2Ba	二进制gydF4y2Ba	DLLPgydF4y2Ba^egydF4y2Ba	文本和图像gydF4y2Ba	N/AgydF4y2Ba	0.95(图片);0.92(文本)gydF4y2Ba	N/AgydF4y2Ba
Volkova and Backrach, 2018 [gydF4y2Ba76gydF4y2Ba］gydF4y2Ba	二进制gydF4y2Ba	LRgydF4y2Ba^fgydF4y2Ba	文字、情感和情感gydF4y2Ba	N/AgydF4y2Ba	N/AgydF4y2Ba	0.97gydF4y2Ba
Wood-Doughtry等人，2018 [gydF4y2Ba79gydF4y2Ba］gydF4y2Ba	二进制gydF4y2Ba	美国有线电视新闻网gydF4y2Ba^ggydF4y2Ba	名字gydF4y2Ba	0.73gydF4y2Ba	0.72gydF4y2Ba	N/AgydF4y2Ba
Saravanan, 2017 [gydF4y2Ba72gydF4y2Ba］gydF4y2Ba	三元gydF4y2Ba	美国有线电视新闻网gydF4y2Ba	文本gydF4y2Ba	NRgydF4y2Ba^hgydF4y2Ba	NRgydF4y2Ba	NRgydF4y2Ba
Ardehaly and Culotta, 2017 [gydF4y2Ba33gydF4y2Ba］gydF4y2Ba	三元gydF4y2Ba	DLLPgydF4y2Ba	文本和图像gydF4y2Ba	N/AgydF4y2Ba	0.84(图片);0.83(文本)gydF4y2Ba	N/AgydF4y2Ba
Gunarathne et al, 2019 [gydF4y2Ba94gydF4y2Ba］gydF4y2Ba	三元gydF4y2Ba	美国有线电视新闻网gydF4y2Ba	文本gydF4y2Ba	N/AgydF4y2Ba	0.88gydF4y2Ba	N/AgydF4y2Ba
Wood-Doughtry等人，2018 [gydF4y2Ba79gydF4y2Ba］gydF4y2Ba	三元gydF4y2Ba	美国有线电视新闻网gydF4y2Ba	名字gydF4y2Ba	0.62gydF4y2Ba	0.43gydF4y2Ba	N/AgydF4y2Ba
cullotta等人，2016 [gydF4y2Ba47gydF4y2Ba］gydF4y2Ba	第四纪gydF4y2Ba	回归gydF4y2Ba	网络与文本gydF4y2Ba	N/AgydF4y2Ba	0.86gydF4y2Ba	N/AgydF4y2Ba
Chen等，2015 [gydF4y2Ba46gydF4y2Ba］gydF4y2Ba	第四纪gydF4y2Ba	支持向量机gydF4y2Ba	N-grams、主题、自我声明和图像gydF4y2Ba	0.79gydF4y2Ba	0.79gydF4y2Ba	0.72gydF4y2Ba
Markson, 2017 [gydF4y2Ba61gydF4y2Ba］gydF4y2Ba	第四纪gydF4y2Ba	美国有线电视新闻网gydF4y2Ba	同义词扩展和主题gydF4y2Ba	0.76gydF4y2Ba	N/AgydF4y2Ba	N/AgydF4y2Ba
Wang等，2016 [gydF4y2Ba189gydF4y2Ba］gydF4y2Ba	第四纪gydF4y2Ba	美国有线电视新闻网gydF4y2Ba	图片gydF4y2Ba	0.84gydF4y2Ba	N/AgydF4y2Ba	N/AgydF4y2Ba
徐等，2016 [gydF4y2Ba82gydF4y2Ba］gydF4y2Ba	第四纪gydF4y2Ba	支持向量机gydF4y2Ba	同义词扩展和主题gydF4y2Ba	0.76gydF4y2Ba	N/AgydF4y2Ba	N/AgydF4y2Ba
Ardehaly and Culotta, 2015 [gydF4y2Ba34gydF4y2Ba］gydF4y2Ba	第四纪gydF4y2Ba	多项逻辑回归gydF4y2Ba	人口普查，姓名，网络和推特语言gydF4y2Ba	0.83gydF4y2Ba	N/AgydF4y2Ba	N/AgydF4y2Ba
Ardehaly, 2014 [gydF4y2Ba64gydF4y2Ba］gydF4y2Ba	第四纪gydF4y2Ba	LRgydF4y2Ba	人口普查和图片推文gydF4y2Ba	0.82gydF4y2Ba	0.81gydF4y2Ba	N/AgydF4y2Ba
巴贝拉，2016年[gydF4y2Ba37gydF4y2Ba］gydF4y2Ba	第四纪gydF4y2Ba	带EN的LRgydF4y2Ba^我gydF4y2Ba	推特、表情符号和网络gydF4y2Ba	0.81gydF4y2Ba	N/AgydF4y2Ba	N/AgydF4y2Ba
Wood-Doughty 2020 [gydF4y2Ba81gydF4y2Ba］gydF4y2Ba	第四纪gydF4y2Ba	美国有线电视新闻网gydF4y2Ba	名称、配置文件元数据和文本gydF4y2Ba	0.83gydF4y2Ba	0.46gydF4y2Ba	N/AgydF4y2Ba
Preotiuc-Pietro and Ungar, 2018 [gydF4y2Ba96gydF4y2Ba］gydF4y2Ba	第四纪gydF4y2Ba	带EN的LRgydF4y2Ba	文本、主题、情感、词性标记、名称、感知的种族标签和集合gydF4y2Ba	N/AgydF4y2Ba	N/AgydF4y2Ba	0.88(非裔美国人)，0.78(拉丁裔)，0.83(亚洲人)，0.83(白人)gydF4y2Ba
Mueller等，2021 [gydF4y2Ba91gydF4y2Ba］gydF4y2Ba	第四纪gydF4y2Ba	美国有线电视新闻网gydF4y2Ba	随后是文字和账目gydF4y2Ba	N/AgydF4y2Ba	0.25(亚洲人)，0.63(非裔美国人或黑人)，0.28(西班牙裔)，0.90(白人)gydF4y2Ba	N/AgydF4y2Ba
Bergsma等人，2013 [gydF4y2Ba38gydF4y2Ba］gydF4y2Ba	多项式(> 4)gydF4y2Ba	支持向量机gydF4y2Ba	名称和名称集群gydF4y2Ba	0.81gydF4y2Ba	N/AgydF4y2Ba	N/AgydF4y2Ba
Nguyen et al .， 2018 [gydF4y2Ba66gydF4y2Ba］gydF4y2Ba	多项式(> 4)gydF4y2Ba	神经网络gydF4y2Ba	图片gydF4y2Ba	0.53gydF4y2Ba	N/AgydF4y2Ba	N/AgydF4y2Ba

^{一个gydF4y2Ba}ML:机器学习。gydF4y2Ba

^bgydF4y2Ba梯度增强决策树。gydF4y2Ba

^cgydF4y2Ba-不适用。gydF4y2Ba

^dgydF4y2BaSVM:支持向量机。gydF4y2Ba

^egydF4y2BaDLLP:从标签比例进行深度学习。gydF4y2Ba

^fgydF4y2BaLR:逻辑回归。gydF4y2Ba

^ggydF4y2BaCNN:卷积神经网络。gydF4y2Ba

^hgydF4y2Ba尼科布:没有报道。gydF4y2Ba

^我gydF4y2Ba弹性网。gydF4y2Ba

手动检查gydF4y2Ba

共有12项研究使用手工技术将Twitter用户划分为种族或民族类别[gydF4y2Ba21gydF4y2Ba，gydF4y2Ba36gydF4y2Ba，gydF4y2Ba40gydF4y2Ba，gydF4y2Ba49gydF4y2Ba-gydF4y2Ba51gydF4y2Ba，gydF4y2Ba57gydF4y2Ba，gydF4y2Ba65gydF4y2Ba，gydF4y2Ba87gydF4y2Ba-gydF4y2Ba90gydF4y2Ba]。这些研究通常结合了对最近推文的定性解释，用户简历中确认种族或民族身份的信息，或用户时间轴或个人资料中的照片或图像。gydF4y2Ba

在大多数情况下，推文首先是通过基于研究主题的兴趣条款的文本匹配来识别的，比如有一个出生缺陷的婴儿[gydF4y2Ba50gydF4y2Ba]，评论一个有争议的话题[gydF4y2Ba57gydF4y2Ba，gydF4y2Ba89gydF4y2Ba]，或使用可能与帮派或毒品有关的语言[gydF4y2Ba40gydF4y2Ba]。然后，研究人员确定了推文的作者，在大多数情况下，通过基于个人资料和时间轴内容的手工编码来分配种族或民族。一些研究主要基于推特或用户简介中使用的种族自我识别陈述进行编码，例如人们声称自己是黑人gydF4y2Ba美国黑人gydF4y2Ba［gydF4y2Ba49gydF4y2Ba，gydF4y2Ba50gydF4y2Ba，gydF4y2Ba88gydF4y2Ba，gydF4y2Ba90gydF4y2Ba]或标签[gydF4y2Ba36gydF4y2Ba(比如#BlackScientist)。其他编码完全基于研究小组通过检查个人资料照片对种族身份的归因[gydF4y2Ba21gydF4y2Ba，gydF4y2Ba57gydF4y2Ba]或avatar [gydF4y2Ba87gydF4y2Ba]。一些作者主要使用自我声明进行编码，并使用次要指标，如个人资料图片、语言、用户名或其他内容[gydF4y2Ba40gydF4y2Ba，gydF4y2Ba51gydF4y2Ba，gydF4y2Ba65gydF4y2Ba，gydF4y2Ba88gydF4y2Ba，gydF4y2Ba89gydF4y2Ba]。在大多数情况下，似乎可以合理地推断，编码是由研究作者或他们的研究团队成员执行的，除了那些使用众包市场的人，亚马逊机械土耳其人[gydF4y2Ba21gydF4y2Ba，gydF4y2Ba90gydF4y2Ba]。gydF4y2Ba

有时会测量编码员之间的一致性，但通常不包括有效性和准确性测量。研究[gydF4y2Ba65gydF4y2Ba然而，与人口普查统计数据相比，编码种族的可靠性为78%，其中黑人和白人用户的编码准确率为90%，西班牙裔或亚洲用户的编码准确率为45%至60%。黑人用户的高准确性是基于黑人用户自我识别的更高可能性。gydF4y2Ba

Census-Driven预测gydF4y2Ba

另一种预测种族或民族的方法是使用来自全国人口普查和类似人口普查的数据的人口统计信息，并将其转移到社交媒体队列中。美国的研究主要使用基于人口普查的种族和民族分类:亚洲和太平洋岛民、黑人或非裔美国人、拉丁美洲人或西班牙人、美洲原住民和白人。英国的一项研究包括英国人和爱尔兰人、西欧人、东欧人、希腊人或土耳其人、东南亚人、其他亚洲人、非洲人和加勒比人、犹太人、中国人和其他少数民族[gydF4y2Ba83gydF4y2Ba]。gydF4y2Ba

我们确定了14项研究[gydF4y2Ba39gydF4y2Ba，gydF4y2Ba48gydF4y2Ba，gydF4y2Ba52gydF4y2Ba，gydF4y2Ba54gydF4y2Ba，gydF4y2Ba60gydF4y2Ba，gydF4y2Ba63gydF4y2Ba，gydF4y2Ba70gydF4y2Ba，gydF4y2Ba71gydF4y2Ba，gydF4y2Ba74gydF4y2Ba，gydF4y2Ba77gydF4y2Ba，gydF4y2Ba83gydF4y2Ba-gydF4y2Ba85gydF4y2Ba，gydF4y2Ba95gydF4y2Ba使用人口普查的地理数据，人口普查的姓氏分类，或两者的结合。共有6项研究纳入了地理普查数据[gydF4y2Ba39gydF4y2Ba，gydF4y2Ba52gydF4y2Ba，gydF4y2Ba63gydF4y2Ba，gydF4y2Ba74gydF4y2Ba，gydF4y2Ba83gydF4y2Ba，gydF4y2Ba84gydF4y2Ba]。例如，Blodgett等[gydF4y2Ba39gydF4y2Ba]创建了一个简单的概率模型，通过将带有地理标记的推文与人口普查块信息相匹配来推断用户的种族。他们将用户所有tweet的人口统计值取平均值，并假设这是用户人口统计数据的粗略代表。斯图尔特(gydF4y2Ba74gydF4y2Ba收集带有地理位置信息(经度和纬度)的推文。用户的邮政编码来源于此地理位置信息，并与人口普查局定义的邮政编码制表区域中找到的人口统计信息相匹配。这些信息被用来发现种族和非裔美国人方言英语语法之间的关系[gydF4y2Ba74gydF4y2Ba]。gydF4y2Ba

其他研究使用人口普查衍生的名称分类系统来根据用户名确定种族或民族。我们确定了12项通过姓氏预测用户种族的研究[gydF4y2Ba48gydF4y2Ba，gydF4y2Ba54gydF4y2Ba，gydF4y2Ba60gydF4y2Ba，gydF4y2Ba63gydF4y2Ba，gydF4y2Ba70gydF4y2Ba，gydF4y2Ba71gydF4y2Ba，gydF4y2Ba77gydF4y2Ba，gydF4y2Ba83gydF4y2Ba-gydF4y2Ba85gydF4y2Ba，gydF4y2Ba95gydF4y2Ba，gydF4y2Ba189gydF4y2Ba]。姓氏被用来分配种族或民族，使用的方法要么是基于美国人口普查的姓名分类系统，要么是不太常见的作者内部生成的分类系统。在这12项研究中，有7项(58%)完全依赖于用户的姓氏[gydF4y2Ba48gydF4y2Ba，gydF4y2Ba54gydF4y2Ba，gydF4y2Ba60gydF4y2Ba，gydF4y2Ba63gydF4y2Ba，gydF4y2Ba70gydF4y2Ba，gydF4y2Ba71gydF4y2Ba，gydF4y2Ba85gydF4y2Ba]。在那些报告验证系统的研究中，没有单独报道基于名称的系统的验证方法，但12项研究中有4项(33%)报告准确率在71.8%至81.25%之间[gydF4y2Ba63gydF4y2Ba，gydF4y2Ba70gydF4y2Ba，gydF4y2Ba71gydF4y2Ba，gydF4y2Ba83gydF4y2Ba]。值得注意的是，一项研究报告了预测白人和黑人用户的准确率差异很大(预测白人用户的准确率为94%，预测非洲裔美国人或黑人用户的准确率为33%)[gydF4y2Ba83gydF4y2Ba]。剩下的两项研究用来自美国社区调查或同等调查的人口统计数据增强了基于名字的预测。例如，统计和文本挖掘方法已被用于从Twitter个人资料中提取姓氏，将这些信息与基于地理位置的推文的人口普查块信息相结合，以评估用户种族或民族的概率[gydF4y2Ba60gydF4y2Ba]。然而，这些研究没有报告有效性或准确性。gydF4y2Ba

特设ML或NLPgydF4y2Ba

共24篇论文[gydF4y2Ba33gydF4y2Ba-gydF4y2Ba35gydF4y2Ba，gydF4y2Ba37gydF4y2Ba，gydF4y2Ba38gydF4y2Ba，gydF4y2Ba46gydF4y2Ba，gydF4y2Ba47gydF4y2Ba，gydF4y2Ba61gydF4y2Ba，gydF4y2Ba64gydF4y2Ba，gydF4y2Ba66gydF4y2Ba-gydF4y2Ba68gydF4y2Ba，gydF4y2Ba72gydF4y2Ba，gydF4y2Ba76gydF4y2Ba，gydF4y2Ba78gydF4y2Ba-gydF4y2Ba82gydF4y2Ba，gydF4y2Ba91gydF4y2Ba-gydF4y2Ba94gydF4y2Ba，gydF4y2Ba99gydF4y2Ba使用ML或NLP根据种族或民族对用户进行自动分类。使用ML和NLP方法处理Twitter用户提供的数据，例如个人资料图像、推文和居住地。这些研究几乎无一例外地由更大的队列组成，在使用的具体方法上有相当大的差异。gydF4y2Ba

有监督的机器学习模型(其中使用了一些注释数据)gydF4y2Ba火车gydF4y2Ba24项研究中有12项(50%)采用了该系统。使用的模型包括支持向量机[gydF4y2Ba38gydF4y2Ba，gydF4y2Ba46gydF4y2Ba，gydF4y2Ba61gydF4y2Ba]，梯度增强决策树[gydF4y2Ba67gydF4y2Ba，gydF4y2Ba68gydF4y2Ba]和回归模型[gydF4y2Ba33gydF4y2Ba，gydF4y2Ba34gydF4y2Ba，gydF4y2Ba37gydF4y2Ba，gydF4y2Ba76gydF4y2Ba，gydF4y2Ba96gydF4y2Ba]。gydF4y2Ba

在24项研究中，有10项(42%)使用了半监督(除了带注释的数据外，还使用了大量未注释的数据来训练系统)或使用神经网络或回归的完全无监督模型进行分类[gydF4y2Ba33gydF4y2Ba，gydF4y2Ba35gydF4y2Ba，gydF4y2Ba66gydF4y2Ba，gydF4y2Ba72gydF4y2Ba，gydF4y2Ba78gydF4y2Ba，gydF4y2Ba79gydF4y2Ba，gydF4y2Ba81gydF4y2Ba，gydF4y2Ba92gydF4y2Ba-gydF4y2Ba94gydF4y2Ba]。gydF4y2Ba

共有2项研究使用了先前发表的种族或民族分类器的集合，通过4个现有模型处理数据，并使用多数规则方法根据每个分类器的输出对用户进行分类[gydF4y2Ba80gydF4y2Ba，gydF4y2Ba91gydF4y2Ba]。gydF4y2Ba

机器学习模型使用特征或数据输入来预测期望的输出。从用户个人资料描述中的文本信息衍生的特征，如姓名或位置，已在一些研究中使用[gydF4y2Ba34gydF4y2Ba，gydF4y2Ba35gydF4y2Ba，gydF4y2Ba38gydF4y2Ba，gydF4y2Ba60gydF4y2Ba，gydF4y2Ba67gydF4y2Ba，gydF4y2Ba68gydF4y2Ba，gydF4y2Ba79gydF4y2Ba，gydF4y2Ba81gydF4y2Ba，gydF4y2Ba92gydF4y2Ba，gydF4y2Ba93gydF4y2Ba]。其他研究包括与图像相关的特征，包括但不限于侧面图像[gydF4y2Ba46gydF4y2Ba，gydF4y2Ba67gydF4y2Ba，gydF4y2Ba68gydF4y2Ba，gydF4y2Ba189gydF4y2Ba]，以及这些图像中的面部特征[gydF4y2Ba66gydF4y2Ba]。一些研究使用语言特征对用户的种族或民族进行分类[gydF4y2Ba37gydF4y2Ba，gydF4y2Ba38gydF4y2Ba，gydF4y2Ba46gydF4y2Ba，gydF4y2Ba47gydF4y2Ba，gydF4y2Ba61gydF4y2Ba，gydF4y2Ba67gydF4y2Ba，gydF4y2Ba68gydF4y2Ba，gydF4y2Ba72gydF4y2Ba，gydF4y2Ba76gydF4y2Ba，gydF4y2Ba78gydF4y2Ba，gydF4y2Ba81gydF4y2Ba，gydF4y2Ba92gydF4y2Ba-gydF4y2Ba94gydF4y2Ba，gydF4y2Ba96gydF4y2Ba]。模型中使用的具体语言特征包括n-gram [gydF4y2Ba38gydF4y2Ba，gydF4y2Ba46gydF4y2Ba，gydF4y2Ba72gydF4y2Ba，gydF4y2Ba91gydF4y2Ba-gydF4y2Ba94gydF4y2Ba]、主题建模[gydF4y2Ba46gydF4y2Ba，gydF4y2Ba61gydF4y2Ba，gydF4y2Ba78gydF4y2Ba]，情绪和情感[gydF4y2Ba76gydF4y2Ba]和自我报告[gydF4y2Ba67gydF4y2Ba，gydF4y2Ba68gydF4y2Ba，gydF4y2Ba81gydF4y2Ba]。在一些研究中，假设这些网络中的成员具有相似的特征，用户的关注者或朋友网络的信息被作为一种特征纳入其中[gydF4y2Ba34gydF4y2Ba，gydF4y2Ba37gydF4y2Ba，gydF4y2Ba46gydF4y2Ba，gydF4y2Ba47gydF4y2Ba，gydF4y2Ba91gydF4y2Ba]。gydF4y2Ba

标记数据集用于训练和测试监督和半监督ML模型，并验证无监督学习方法的输出。有些研究使用了先前创建的包含人口统计信息的数据集，例如MORPH纵向面部图像数据库[gydF4y2Ba189gydF4y2Ba]，一个面部照片数据库[gydF4y2Ba38gydF4y2Ba]，或从以前的研究中手工注释的数据[gydF4y2Ba79gydF4y2Ba，gydF4y2Ba81gydF4y2Ba]。其他人则从调查中创建了真实数据集[gydF4y2Ba96gydF4y2Ba]或通过半自动的方式，如将Twitter用户与选民登记相匹配[gydF4y2Ba37gydF4y2Ba]，使用从用户资料或推文中提取的自我识别[gydF4y2Ba67gydF4y2Ba，gydF4y2Ba68gydF4y2Ba，gydF4y2Ba81gydF4y2Ba]，或使用已知种族的名人[gydF4y2Ba66gydF4y2Ba]。基于个人资料元数据对Twitter用户进行手工标注[gydF4y2Ba34gydF4y2Ba，gydF4y2Ba35gydF4y2Ba，gydF4y2Ba46gydF4y2Ba，gydF4y2Ba76gydF4y2Ba]，时间轴上的自我声明[gydF4y2Ba61gydF4y2Ba，gydF4y2Ba82gydF4y2Ba]，或用户图像[gydF4y2Ba35gydF4y2Ba，gydF4y2Ba94gydF4y2Ba]。gydF4y2Ba表2gydF4y2Ba总结了表现最好的机器学习方法，使用的特征，以及使用自动分类方法的每个研究的报告结果。在表中，分类器是种族或民族分类组的数量，ML模型是报告的表现最好的算法，特征是预测中使用的变量。gydF4y2Ba

从种族和民族角度来看，Twitter的数据本质上是不平衡的。在机器学习中，尝试减轻不平衡的影响是很重要的，因为模型很难从几个例子中学习，并且会倾向于分类到多数类而忽略少数类。很少有研究(12/67,18%)直接解决了这种不平衡。有些人选择了二元任务，只关注他们感兴趣的群体而不是所有其他人[gydF4y2Ba67gydF4y2Ba，gydF4y2Ba68gydF4y2Ba，gydF4y2Ba94gydF4y2Ba]或只适用于多数阶级[gydF4y2Ba38gydF4y2Ba，gydF4y2Ba76gydF4y2Ba]。其他人在报告结果时选择修改的性能指标来解释不平衡[gydF4y2Ba33gydF4y2Ba，gydF4y2Ba61gydF4y2Ba，gydF4y2Ba82gydF4y2Ba]。一组基于图像进行分类，从少数类别的额外数据源补充他们的训练集[gydF4y2Ba33gydF4y2Ba，gydF4y2Ba35gydF4y2Ba]。只有两项研究用平衡数据集训练的比较器模型进行了实验。Wood-Doughty等人的一项研究[gydF4y2Ba81gydF4y2Ba]，大多数班级在他们的训练集中样本不足，[gydF4y2Ba96gydF4y2Ba少数族裔被过度抽样了。在这两种情况下，模型的整体性能的准确性从0.83下降到0.41(在他们表现最好的不平衡模型上)和0.84下降到0.68。［gydF4y2Ba96gydF4y2Ba，由于模型的性能提升，大多数职业的优越性能被消除了。gydF4y2Ba

现成的软件gydF4y2Ba

共有17项研究[gydF4y2Ba12gydF4y2Ba，gydF4y2Ba32gydF4y2Ba，gydF4y2Ba41gydF4y2Ba-gydF4y2Ba45gydF4y2Ba，gydF4y2Ba53gydF4y2Ba，gydF4y2Ba55gydF4y2Ba，gydF4y2Ba56gydF4y2Ba，gydF4y2Ba58gydF4y2Ba，gydF4y2Ba59gydF4y2Ba，gydF4y2Ba62gydF4y2Ba，gydF4y2Ba69gydF4y2Ba，gydF4y2Ba73gydF4y2Ba，gydF4y2Ba75gydF4y2Ba，gydF4y2Ba86gydF4y2Ba]使用现成的软件包来推导种族或民族。此外，有10项研究[gydF4y2Ba32gydF4y2Ba，gydF4y2Ba44gydF4y2Ba，gydF4y2Ba45gydF4y2Ba，gydF4y2Ba53gydF4y2Ba，gydF4y2Ba55gydF4y2Ba，gydF4y2Ba56gydF4y2Ba，gydF4y2Ba58gydF4y2Ba，gydF4y2Ba62gydF4y2Ba，gydF4y2Ba69gydF4y2Ba，gydF4y2Ba75gydF4y2Ba使用face++ [gydF4y2Ba199gydF4y2Ba]， 5项研究[gydF4y2Ba12gydF4y2Ba，gydF4y2Ba41gydF4y2Ba-gydF4y2Ba43gydF4y2Ba，gydF4y2Ba73gydF4y2Ba使用的人口统计学专业[gydF4y2Ba200gydF4y2Ba]， 2项研究使用了Onomap [gydF4y2Ba201gydF4y2Ba确定种族的软件[gydF4y2Ba59gydF4y2Ba，gydF4y2Ba86gydF4y2Ba]。face++是一个经过验证的ML人脸检测服务，可以分析推断种族属性的置信水平。具体来说，它使用深度学习来识别头像是否包含一张脸，然后识别脸的种族(仅限于亚洲人、黑人和白人)，而不推断种族(例如，西班牙裔)[gydF4y2Ba199gydF4y2Ba]。demographic Pro基于使用NLP、实体识别、图像分析和网络理论的Twitter行为或使用来估计人口统计学特征[gydF4y2Ba200gydF4y2Ba]。Onomap是一个分类名称的软件工具[gydF4y2Ba201gydF4y2Ba]。共有3项使用face++的研究使用了相同的基线数据集[gydF4y2Ba45gydF4y2Ba，gydF4y2Ba62gydF4y2Ba，gydF4y2Ba75gydF4y2Ba]，其中一个使用了同一数据集的部分子集[gydF4y2Ba69gydF4y2Ba]。gydF4y2Ba

总共有2项研究使用face++ [gydF4y2Ba32gydF4y2Ba，gydF4y2Ba58gydF4y2Ba没有衡量它的表现。另一项研究[gydF4y2Ba44gydF4y2Ba表示face++能够以99%或更高的准确率识别9%的用户的种族。此外，有2项研究[gydF4y2Ba53gydF4y2Ba，gydF4y2Ba55gydF4y2Ba使用face++和其他方法。其中一项研究将face++与人口统计数据结合使用，使用了包含美国人口普查数据的数据库中的人名或全名。这项研究只是测量了可以提取种族数据的Twitter用户的百分比(46%的大学生和92%的榜样)，但没有测量face++的性能[gydF4y2Ba53gydF4y2Ba]。另一项研究[gydF4y2Ba55gydF4y2Ba]在face++的基础上建立了一个分类器模型，与陈述国籍的用户相比，准确率达到了83.8%。gydF4y2Ba

共有4项研究[gydF4y2Ba45gydF4y2Ba，gydF4y2Ba62gydF4y2Ba，gydF4y2Ba69gydF4y2Ba，gydF4y2Ba75gydF4y2Ba](使用全部或部分相同数据集)使用face++报告的种族平均置信水平分别为85.97 (SD 0.024%)， 85.99 (SD 0.03%)， 86.12 (SD 0.032%)， CI为95%。当其中一项研究[gydF4y2Ba45gydF4y2Ba]进行了自己的准确性评估，他们发现与100张手动注释的图片相比，种族的准确性得分为79%。Huang等[gydF4y2Ba56gydF4y2Ba]还进行了准确性评估，发现face++与250张手动注释的图片相比，在种族方面的平均准确率得分为88.4%。gydF4y2Ba

共有5项研究[gydF4y2Ba12gydF4y2Ba，gydF4y2Ba41gydF4y2Ba-gydF4y2Ba43gydF4y2Ba，gydF4y2Ba73gydF4y2Ba使用了《demographic Pro》，尽管他们报告了《demographic Pro》的总体成功情况，但他们并未直接报告其成功的任何指标。使用Onomap的两项研究没有对该软件进行验证[gydF4y2Ba59gydF4y2Ba，gydF4y2Ba86gydF4y2Ba]。gydF4y2Ba

根据我们的研究结果，我们编制了最佳实践建议，这些建议总结于gydF4y2Ba图2gydF4y2Ba并在讨论部分进行进一步研究。gydF4y2Ba

主要研究结果gydF4y2Ba

由于目前没有公布的指导方针，甚至没有最佳实践指导，因此研究人员使用各种方法来估计Twitter用户的种族或民族也就不足为奇了。我们确定了使用的四种方法:手动筛选，基于人口普查的预测，特设ML或NLP，以及现成的软件。所有这些方法都显示出其独特的优势，以及固有的偏见和局限性。gydF4y2Ba

由于分类模型不仅在方法上不同，而且在种族或民族本身的分类定义上也不同，因此比较得出种族或民族的方法的有效性是困难的[gydF4y2Ba112gydF4y2Ba，gydF4y2Ba202gydF4y2Ba，gydF4y2Ba203gydF4y2Ba]。还明显缺乏对所使用方法的评估或验证。那些测量所使用方法性能的人发现准确率从45%到93%不等，在识别有色人种类别方面的准确率明显较低。gydF4y2Ba

这篇评论对商业软件包的性能没有什么帮助。先前对面部识别应用程序编程接口的实证比较发现，face++的准确率达到93% [gydF4y2Ba204gydF4y2Ba]对肤色较浅的男性效果相对较好[gydF4y2Ba205gydF4y2Ba]。纳入我们综述的研究表明准确率较低。然而，所纳入的任何一项使用demoticpro [gydF4y2Ba200gydF4y2Ba]。即使在评估绩效时，如果存在问题，所使用的方法也可能存在偏差gydF4y2Ba黄金标准gydF4y2Ba用于训练模型。gydF4y2Ba

除了使用的四种主要方法外，这些研究在用于确定或定义种族或民族的特征方面也有所不同。此外，用于确定或定义种族或族裔的特征的可靠性值得怀疑。具体来说，使用Twitter用户的个人资料照片、姓名和位置，使用属于种族群体的未经验证的语言特征(如俚语、非裔美国人的白话英语、西班牙式英语或多元文化的伦敦英语)，以及使用容易产生持久偏见的训练数据(如警察的登记照片或嫌疑犯照片)，都是特别值得关注的。gydF4y2Ba

与所用方法有关的问题gydF4y2Ba

包括或完全依赖个人资料照片来确定种族或民族的方法可能会引入偏见。首先，并不是所有的用户都有一张照片作为他们的头像，也不容易确定所使用的照片是否是用户的照片。一项关于使用face++可行性的研究发现，只有30.8%的Twitter用户在他们的个人资料中有可检测到的单张脸。对自动检测到的人脸进行人工审查，确定80%可能是用户(即不是名人)[gydF4y2Ba206gydF4y2Ba]。人为注释可能会引入额外的偏见，研究发现，根据照片将人划分为种族或民族群体存在系统性偏见[gydF4y2Ba207gydF4y2Ba，gydF4y2Ba208gydF4y2Ba]。此外，人类倾向于比其他种族更容易感知自己的种族[gydF4y2Ba209gydF4y2Ba，gydF4y2Ba210gydF4y2Ba]。因此，注释团队中的种族或民族对他们的种族或民族标签的准确性有影响，可能会使样本标签向注释者的种族或民族倾斜[gydF4y2Ba211gydF4y2Ba，gydF4y2Ba212gydF4y2Ba]。考虑到ML和NLP方法是在这些数据集上训练的，人类的偏见转移到自动化方法上，导致监督不良的ML和训练，这已被证明会导致算法的歧视[gydF4y2Ba213gydF4y2Ba-gydF4y2Ba215gydF4y2Ba]。这些担忧似乎并没有被研究设计者所质疑。毫无例外，他们将人划分为种族或民族，假设对面部特征或习惯用语的主观解读是种族或民族编码以及自动化方法培训和评估的黄金标准。gydF4y2Ba

其他方法，如使用地理或姓名作为种族指标，也可能不可靠。有人可能会说，一个地理区域的人口统计资料比个人的种族或民族更能代表人口环境中的种族或民族。利用邮政编码或地理位置来解读个别社会决定因素的问题已有详细记录[gydF4y2Ba216gydF4y2Ba]。从一个太大的地区使用人口普查数据可能会扭曲结果。在审查的研究中，一些使用了精细的人口普查数据，而另一些则从更大的区域推断，如城市或县级数据。例如，Saravanan [gydF4y2Ba72gydF4y2Ba根据某城市的某一种族人口较多，推断出该城市用户的人口统计数据;但是，没有对所选择的城市或Twitter用户的地理位置执行细粒度分析。因此，他们假设洛杉矶县的用户是墨西哥血统的有效性[gydF4y2Ba72gydF4y2Ba是值得怀疑的。因为这些数据随后被用于创建gydF4y2Ba种族或民族gydF4y2Ba该小组用来训练他们的模型的术语字典，有问题的假设进一步污染了下游应用程序和结果。这些模型也没有考虑Twitter用户的人口统计数据与总体人口统计数据之间的差异。gydF4y2Ba

此外，使用名字的人口普查数据也存在问题，因为在婚姻中使用名字和难以辨认的名字。gydF4y2Ba

使用Twitter用户自我报告的种族或民族的做法会提供一个高可信度的标签，但会限制可用数据的数量，并引入误差幅度，这取决于提取此类自我报告所使用的方法。例如，在1400万用户的样本中，>0.1%匹配用于检测自我报告的种族或民族身份的精确正则表达式[gydF4y2Ba128gydF4y2Ba]。另一项研究使用了用户简历中与种族或民族相关的关键词;然而，进行了有限的验证以确保提及实际上与用户的种族或民族有关[gydF4y2Ba67gydF4y2Ba，gydF4y2Ba68gydF4y2Ba]。缺乏从概要信息中收集的信息导致模型训练中的抽样偏差[gydF4y2Ba152gydF4y2Ba]。gydF4y2Ba

一些在人工标注数据上训练的模型在标注者之间的一致性不高;例如Chen等人[gydF4y2Ba46gydF4y2Ba众包注释协议的测量值为0.45。这可以解释为弱一致性，可靠数据的百分比为15%至35% [gydF4y2Ba217gydF4y2Ba]。在这种弱标记数据上训练模型会产生不确定的结果。gydF4y2Ba

不可能假设黑盒专有工具和算法的准确性。唯一在经验上可靠的种族或民族衡量标准是自我报告，但这有相当大的局限性。因此，错误的方法继续支撑着数字健康研究，研究人员可能会越来越依赖它们。的gydF4y2Ba黄金标准gydF4y2Ba了解Twitter用户的人口统计特征所需的数据很难确定。gydF4y2Ba

我们强调的最佳实践方法包括直接询问Twitter用户。例如，可以通过向传统调查的受访者询问他们的人口统计数据和他们的Twitter账号来实现这一点，以便将这些数据联系起来[gydF4y2Ba96gydF4y2Ba]。这是在2015年NatCen社会研究英国社会态度调查中进行的，该调查还有一个额外的好处，即可以研究获得人口数据的进一步方法的准确性[gydF4y2Ba20.gydF4y2Ba]。联系Twitter用户也可能提供黄金标准，但不切实际，因为Twitter目前的使用条款可能将这种联系视为一种垃圾邮件[gydF4y2Ba72gydF4y2Ba，gydF4y2Ba204gydF4y2Ba，gydF4y2Ba205gydF4y2Ba，gydF4y2Ba216gydF4y2Ba]。从社交媒体中提取种族或民族的局限性在于，必须过度简化种族身份的复杂性。这些类别通常仅限于黑人、白人、西班牙裔或亚洲人。请注意,gydF4y2Ba拉美裔gydF4y2Ba被认为是gydF4y2Ba种族gydF4y2Ba但大多数ML研究都将其作为一种gydF4y2Ba比赛gydF4y2Ba类别，比亚洲人更多(因为这个类别的人数较少)。多重种族身份存在，特别是从国际角度来看，它忽略了多种族或主要和次要身份。此外，推断身份可能与自我身份不同，从而引发进一步的问题。gydF4y2Ba

考虑到数据的敏感性，作为一个gydF4y2Ba最佳实践gydF4y2Ba以便从Twitter数据中得出种族或民族的研究结果可重复验证和未来使用。本综述中大多数研究的可重复性将是困难的或不可能的，因为只有5项研究与可用的代码或数据相关联[gydF4y2Ba38gydF4y2Ba，gydF4y2Ba47gydF4y2Ba，gydF4y2Ba79gydF4y2Ba，gydF4y2Ba81gydF4y2Ba，gydF4y2Ba108gydF4y2Ba]。此外，关于训练数据编码的信息有限。这些研究都没有详细说明它们的注释模式或提供可用的注释指南。详细指引作为gydF4y2Ba最佳实践gydF4y2Ba在原始数据可能无法共享或随着时间的推移存在数据丢失的情况下，可能允许重新创建或扩展数据集。从Twitter收集的数据尤其如此，使用条款要求共享数据集仅由tweet id组成，而不是tweet，并且如果原始tweet被用户删除或设置为私有，则需要尽最大努力从数据集中删除id。对敏感信息的特殊用例进行了额外的限制，如果检测到或从用户推断出此类敏感信息，则禁止存储此类信息。推特明确声明，有关种族或民族出身的信息不能被公开gydF4y2Ba衍生的或推断的gydF4y2Ba，并允许学术研究仅使用聚合级数据进行分析[gydF4y2Ba218gydF4y2Ba]。有人可能会说，这项政策更可能是针对商业活动的。gydF4y2Ba

优势与局限gydF4y2Ba

我们没有通过研究设计限制数据库搜索和其他方法;然而，我们无法确定之前关于该主题的任何评论。据我们所知，这是第一次对从社交媒体中提取种族或民族的方法进行回顾。我们确定了来自一系列学科和来源的研究，并对所使用的方法进行了分类和总结。然而，我们无法获得私营公司为此目的创建软件所使用的方法的信息。营销和定向广告在社交媒体上很常见，它们可能会将种族作为获取目标用户的算法的一部分。gydF4y2Ba

我们没有将纳入的论文局限于那些以种族或民族的提取为主要焦点的论文。虽然这可以被认为是一种优势，但这也意味着对所使用方法的报告往往很差。由于不知道原始研究中的决策是如何做出的，包括种族或民族的人口统计学定义是如何使用的，或者如何确定准确性，对丢失数据的准确再现受到了阻碍。这限制了对纳入研究的评估。很少有研究验证了这些方法或进行了错误分析，以评估种族被误用的频率，而那些做了的研究也很少使用最合适的金标准。这使得直接比较不同方法的结果变得困难。gydF4y2Ba

未来的发展方向gydF4y2Ba

未来的研究应该调查他们估计种族或民族的方法方法，提供谨慎的解释，承认这些方法的重大局限性及其对结果解释的影响。这可能包括将结果报告为一个范围，该范围传达了分类模型固有的不确定性。社交媒体数据最好与其他信息结合使用。此外，我们必须始终牢记，种族是衡量一个特定种族或民族在社会中产生的更大影响的替代指标。因此，与种族和民族相关的可变性可能更多地揭示了种族主义和社会分层的影响，而不是个人用户属性。为了在道德上和严格地进行这项研究，我们推荐了一些有助于减少偏倚和增加可重复性的做法。gydF4y2Ba

我们建议承认研究者的偏见会影响研究实施的概念化。结合这种反身性，就像定性研究中常见的那样，可以识别削弱研究的潜在盲点。解决同质化研究团队的一种方法是纳入种族或民族或被调查社区的专家。这些偏差也可以通过在研究过程中包括研究人群的成员作为专家和顾问来减少[gydF4y2Ba219gydF4y2Ba]。尽管社交媒体上的大数据可以在不与提供数据的人联系的情况下收集，但这并不能消除研究人员在研究过程中纳入代表性观点的道德需求。在卫生和社会科学领域，病人参与的研究和以病人为中心的结果研究、社区参与的研究和公民科学(公众参与科学研究)的例子充分证明了让非科学家伙伴参与共同创造研究的有意努力的工具价值和道德义务[gydF4y2Ba219gydF4y2Ba]。数据科学的质量可以通过认真听从命令来提高，gydF4y2Ba没有我们就没有我们gydF4y2Ba［gydF4y2Ba219gydF4y2Ba]。记录和建立研究团队的各种能力属性应该成为一种标准。在研究过程中强调多样化团队的重要性将有助于社会和种族正义，而不是提高研究的可靠性。gydF4y2Ba

就检索到的数据而言，确定种族最可靠(尽管不完美)的方法是当用户自我确定其种族归属时。进一步研究克服可用性和样本量的限制可能是必要的。实际上，采用自动方法和人工提取的混合模型可能更可取。例如，可以开发自动化方法来识别用户概要文件或时间轴中潜在的自我声明，然后可以手动解释这些声明。gydF4y2Ba

最后，我们要求我们的同事对验证进行更多的报告。如果没有误差分析，计算技术将无法检测到偏差。需要进一步的研究来确定任何偏差是系统的还是随机的，也就是说，不准确性是倾向于一个方向还是另一个方向。gydF4y2Ba

结论gydF4y2Ba

我们确定了影响方法可靠性和结果偏倚的主要问题。在整个过程中也存在伦理问题，特别是关于种族或民族的推断，而不是自我认同的提取。然而，社交媒体研究的潜在用途需要深思熟虑地考虑估计种族和民族等人口特征的最佳方法[gydF4y2Ba112gydF4y2Ba]。考虑到对Twitter数据的访问越来越多，这一点尤为重要。gydF4y2Ba202gydF4y2Ba，gydF4y2Ba203gydF4y2Ba]。gydF4y2Ba

因此，我们提出了几种方法来改进从社交媒体中提取种族或民族，包括代表性的研究团队和人工和计算方法的混合，以及未来对减少偏见的方法的研究。gydF4y2Ba

致谢gydF4y2Ba

这项工作得到了美国国立卫生研究院(NIH)国家医学图书馆的资助，资助项目为NIH- nlm 1R01(主要研究者:GG，共同申请者KO和SG)，美国国立卫生研究院国家药物滥用研究所资助项目R21 DA049572-02给RS。美国国立卫生研究院国家医学图书馆资助本研究，但未参与研究的设计和实施;收集、管理、分析和解释数据;审稿:手稿的准备、审查或批准;或决定投稿发表。gydF4y2Ba

数据可用性gydF4y2Ba

纳入的研究可在网上获得，提取的数据见表S2gydF4y2Ba多媒体附录1gydF4y2Ba。本文的预印本也可用:Golder S, Stevens R, O 'Connor K, James R, Gonzalez-Hernandez G. 2021。谁在发推特?从Twitter数据集建立种族和民族的方法的范围审查。SocArXiv。2月14日。doi: 10.31235 / osf.io / wru5q。gydF4y2Ba

作者的贡献gydF4y2Ba

SG、RS、KO、RJ和GG对研究的贡献相同。RS和GG提出了主题和主要思想。SG和RJ负责文献检索。SG、RS、KO、RJ和GG负责研究选择和数据提取。SG起草了手稿。SG, RS, KO, RJ, GG对稿件进行了评论和修改。SG提供了这份手稿的最终版本。所有作者都对手稿的定稿做出了贡献。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

‎gydF4y2Ba

多媒体附录1gydF4y2Ba

纳入研究的检索策略和特征。gydF4y2Ba

DOCX文件，59kbgydF4y2Ba

戈尔德S，诺曼G，洛克YK。社交媒体不良事件数据的流行、频率和比较价值的系统综述。中华临床医学杂志，2015;38(4):878-888。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
李建军，李建军，李建军，等。利用社交媒体数据进行药物警戒:综述。[J]中国生物医学工程学报，2015;33 (4):522 - 522 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Bhattacharya M, Snyder S, Malin M, Truffa MM, Marinic S, Engelmann R，等。在常规药物警戒中使用社交媒体数据:一项确定安全信号和患者观点的试点研究。中国医药，2017;31(3):167-174。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Convertino I, Ferraro S, Blandizzi C, Tuccori M.倾听社交媒体对药物警戒目的的有用性:一项系统综述。专家意见药品安全2018年11月17日(11):1081-1093。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Golder S, Smith K, O’connor K, Gross R, Hennessy S, Gonzalez-Hernandez G.他汀类药物不良反应报告的社会媒体、监管数据、药物信息数据库和系统评价的比较。药物安全2021 Feb 01;44(2):167-179 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
社交媒体作为监测HIV抗逆转录病毒治疗依从性的工具。中华临床医学杂志，2018;17(增刊3):407-410 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
刘建军，刘建军，刘建军，刘建军，刘建军，刘建军。社会媒体在相对有效性评估中的应用:以肿瘤学为例的探索性回顾。中华医学杂志，2018;4(1):11 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Golder S, O’connor K, Hennessy S, Gross R, Gonzalez-Hernandez G. Twitter上发布的他汀类药物的信念和态度评估:一项定性研究。JAMA net Open 2020 Jun 01;3(6):e208953 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Golder S, Bach M, O’connor K, Gross R, Hennessy S, Gonzalez Hernandez G.公众对抗糖尿病药物的看法:Twitter帖子的探索性分析。JMIR Diabetes 2021; 1 (1):e24681 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
hswy, Naslund JA, Brownstein JS, Hawkins JB。监测精神分裂症Twitter用户关于自杀的在线讨论:探索性研究。中华医学杂志2018年12月13日;5(4):e11483 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
郝伟，刘建平，李建平，等。患者数据在临床疗效研究中的价值评估。卫生Aff (Millwood) 2014七月;33(7):1220-1228。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Cavazos-Rehg PA, Krauss MJ, Costello SJ, Kaiser N, Cahn ES, fitzsimons - craft EE，等。“我只想变瘦。”:对表达饮食失调症状的推文进行内容分析。PLoS One 2019;14(1):e0207506 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Ahmed W, Bath PA, Sbaffi L, Demartini G. 2009年流感大流行期间对H1N1观点的新见解:对Twitter数据的专题分析。卫生信息图书馆2019年3月;36(1):60-72 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Cook N, Mullins A, Gautam R, Medi S, Prince C, Tyagi N，等。通过社交媒体倾听研究评估干眼症患者的经历。眼科杂志2019;8(3):407-420 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Roccetti M, Salomoni P, Prandi C, Marfia G, Mirri S.从Facebook帖子解读英夫利昔单抗治疗克罗恩病的效果:人与机器的比较。网络模型肛门健康通报生物信息2017年6月26日;6(1):10.1007/s13721-017-0152-y。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Madden ML, Cortesi S, Gasser U, Duggan M, Smith A, Beaton M.青少年，社交媒体和隐私。皮尤互联网与美国生活项目，2013。URL:gydF4y2Bahttp://www.pewinternet.org/2013/05/21/teens-social-media-and-privacy/gydF4y2Ba[2022-04-19]访问gydF4y2Ba
周世伟，Hunt YM, Beckjord EB, Moser RP, Hesse BW。美国社会媒体的使用:对健康传播的影响。医学信息学报，2009;11(4):e48 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
2018年的社交媒体使用情况。皮尤研究中心。URL:gydF4y2Ba在- 2018 / https://www.pewresearch.org/internet/2018/03/01/social-media-usegydF4y2Ba[2022-04-19]访问gydF4y2Ba
李建军，李建军，李建军，李建军。“每天都是一场艰苦的战斗”:交叉性，低收入黑人异性恋男性，以及对艾滋病预防研究和干预的影响。心理男人运动会2013年1月1日;14(1):25-34 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
社会科学的“生活”?从Twitter获取人口统计数据。见:SAGE社会媒体研究方法手册。加利福尼亚州千橡市:SAGE出版社;2016.gydF4y2Ba
刘建军，李建军，李建军，李建军。使用Twitter进行人口统计和社会科学研究:数据收集和处理的工具。社会方法学报，2017;46(3):390-421 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
种族作为生物学是虚构的，种族主义作为一个社会问题是真实的:从人类学和历史的角度看种族的社会建构。中华精神病杂志，2005;60(1):16-26。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Yudell M, Roberts D, DeSalle R, Tishkoff s。NIH必须面对种族在科学中的使用。Science 2020 Sep 10;369(6509):1313-1314。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
达文波特。种族分类的流动性。政治科学年鉴2020年5月11日;23(1):221-240。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
常住人口和净变化。美国人口普查局。URL:gydF4y2Bahttps://www.census.gov/quickfacts/fact/note/US/RHI625219gydF4y2Ba[2022-04-19]访问gydF4y2Ba
《比血更浓的种族统计谎言》。明尼阿波利斯:明尼苏达大学出版社;2001.gydF4y2Ba
王晓明，王晓明，王晓明，等。卫生服务研究中的种族主义研究:一个学科自我批判。卫生服务，2020 Sep 25;55(S2):777-780。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
詹金斯W，舍恩巴赫V，罗利D，福特c。克服种族主义对社区健康的影响:我们学到了什么和没有学到什么。种族主义:公共卫生专业人员的科学和工具。华盛顿特区:美国公共卫生协会;2019.gydF4y2Ba
走向反种族主义的科学与实践:发起一场反对种族主义的全国性运动。民族杂志2018年08月28日(增刊1):231。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
崔科，李丽娟，李建平，李建平，等。PRISMA范围审查扩展(PRISMA- scr):清单和解释。实习医学2018年10月2日;169(7):467-473。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
可信系统评价的更新指南:新版Cochrane干预措施系统评价手册。Cochrane系统评价数据库。URL:gydF4y2Bahttps://www.cochranelibrary.com/cdsr/doi/10.1002/14651858.ED000142/fullgydF4y2Ba[2022-04-21]访问gydF4y2Ba
#灰解剖vs #洋基:人口统计和推特上的标签使用。arXiv 2016 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
用于在线社交数据分类的轻度监督机器学习。它。2017.URL:gydF4y2Bahttps://www.proquest.com/openview/25ccbef5caa83249e9dc363bdb196827/1?pq-origsite=gscholar&cbl=18750gydF4y2Ba[2022-04-21]访问gydF4y2Ba
Ardehaly E, cullotta A.基于标签正则化的Twitter用户潜在属性推断。在2015年计算语言学协会北美分会会议论文集:人类语言技术2015年发表于2015年计算语言学协会北美分会会议:人类语言技术;2015;科罗拉多州丹佛市。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Ardehaly E, cullotta A.基于标签比例深度学习的人口统计分类协同训练。参见:IEEE数据挖掘国际会议论文集，ICDMW。2017年发表于:IEEE国际数据挖掘会议，ICDMW;2017年11月18-21日;意大利索伦托gydF4y2Bahttps://doi.org/10.1109/ICDMW.2017.144gydF4y2Ba［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
奥古斯特D，波尔曼J，米勒s。非裔美国人社区认同研究的数据科学方法:科学、技术、工程和数学。它。URL:gydF4y2Bahttps://www.proquest.com/openview/ee3643a744b7c01262 cb9a917611f812/1.pdf吗?pq-origsite = gscholar&cbl = 18750迪斯= ygydF4y2Ba[2022-04-21]访问gydF4y2Ba
少即是多?人口统计样本权重如何改善基于Twitter数据的民意评估。纽约大学的工作论文。2017.URL:gydF4y2Bahttp://pablobarberacom/static/less-is-morepdfgydF4y2Ba[2022-04-19]访问gydF4y2Ba
Bergsma S, Dredze M, Van Durme B, Wilson T, Yarowsky D.基于通信的Twitter姓名和位置聚类广泛改进的用户分类。在2013年计算语言学协会北美分会:人类语言技术会议上发表于2013年计算语言学协会北美分会:人类语言技术会议;2013年6月,;亚特兰大,乔治亚州。gydF4y2Ba
张建军，张建军。基于微博的非裔美国人与美国主流英语的通用依存句法分析。在:计算语言学协会第56届年会论文集(卷1:长论文)。2018年发表于:计算语言学协会第56届年会(卷1:长论文);2018年7月15日- 20日;澳大利亚墨尔本。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Borradaile G, Burkhardt B, LeClerc a .他的推特被警方监控:通过日志文件对社交媒体监控工具进行审计。提交于:FAT* '20: 2020年公平、问责和透明度会议纪要;2020年1月27日至30日;西班牙巴塞罗那。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Cavazos-Rehg P, Krauss M, Grucza R, Bierut L.描述一个关注大麻的推特账号的关注者和推文。中国医学杂志，2014;16(6):e157 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
李建军，李建军，李建军，李建军，李建军。在推特上谈论大麻。青少年健康杂志;2015;56(2):139-145。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
卡瓦佐斯- rehg PA, Zewdie K, Krauss MJ, solles SJ。“没有像布朗尼那样的快感”:对食用大麻推文的内容分析。[J]中华健康杂志;2018;32(4):880-886。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
联合我们发推特?推特使用中种族差异的定量分析。ResearchWorks档案。URL:gydF4y2Bahttps://digital.lib.washington.edu/researchworks/handle/1773/40971gydF4y2Ba[2022-04-21]访问gydF4y2Ba
Chakraborty A, Messiaso J, Benevenutoo F, Ghosh S, Ganguly N, Gummadi K.谁引领潮流?了解众包推荐中的人口统计学偏差。第11届AAAI网络与社交媒体国际会议(ICWSM)论文集。2017年出席:第11届AAAI网络与社交媒体国际会议(ICWSM);2017年5月15日至18日;蒙特利尔，魁北克，加拿大。gydF4y2Ba
陈欣，王勇，Agichtein E，王峰。推特中人口统计属性推断的比较研究。[j] .网络媒体学报;2011;29 (1):591 - 591 [gydF4y2Ba免费全文gydF4y2Ba］gydF4y2Ba
库洛塔A，拉维NK，卡特勒J.预测Twitter用户人口统计使用远程监督从网站流量数据。[J]人工智能学报，2016(2);55:39 -408。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
推特的形成:自我中心网络的同质性与结构。发表于:2011 IEEE第三届隐私、安全、风险与信任国际会议和2011 IEEE第三届社会计算国际会议;2011年10月9-11日;波士顿,MA。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
《黑豹》电影让黑人变得更黑了吗?在电影《黑豹》上映前后，在推特上研究黑人的种族身份。计算机科学2019;11864:66-78。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Golder S, Chiuve S, Weissenbacher D, Klein A, O'Connor K, Bland M，等。怀孕期间社交媒体上与健康相关的帖子对出生缺陷的药物流行病学评估医药安全2019;42(3):389-400 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
González Y, Cutter S.利用地理标记的社交媒体监测飓风引发的人口流动期间的空间行为。学者普遍。URL:gydF4y2Bahttps://scholarcommons.sc.edu/etd/5367/gydF4y2Ba[2022-04-21]访问gydF4y2Ba
李建军，李建军。基于GIS的城市微博空间分布分析[j] .地理信息学报，2018,29(4):913-929。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
何磊，墨菲L，罗杰。利用社交媒体促进STEM教育:为大学生匹配榜样。In:数据库中的机器学习和知识发现。可汗:施普林格;2016.gydF4y2Ba
hwhen Y, Hawkins JB, Sewalk K, Tuli G, Williams DR, Viswanath K等。美国患者体验中的种族和民族差异:Twitter 4年内容分析[J]医学互联网研究，2020 Aug 21;22(8):e17048 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
黄伟，Weber I, vieg S.推特用户国籍推断与国际链接研究。摘自:第25届美国计算机学会超文本和社交媒体会议论文集。2014年发表于:ht14:第25届ACM超文本和社交媒体会议论文集;2014年9月1-4日;纽约，纽约，美国。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
黄欣，邢丽，邓农，Paul M.基于多语言Twitter语料库的仇恨语音识别中人口统计偏差的基线评估。参加:第12届语言资源与评价会议，欧洲语言资源协会。2020年5月11-16日;法国马赛。gydF4y2Ba
Karlsen AS, Scott KD。理解星巴克的反偏见培训和两名非洲裔美国人被捕:对白人Facebook和Twitter评论的主题分析。话语语境媒体2019年12月32日:100332。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Kteily NS, rockage MD, McClanahan K, Ho AK。政治意识形态塑造了弱势群体与优势群体成员成就的放大。科学通报，2019 (1):1 - 4 [j]。gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Longley PA, Adnan M.地理时间Twitter人口统计。地理学报，2015,30(2):369-389。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
罗峰，曹刚，穆里根，李晓霞。基于Twitter的人口流动时空特征研究——以芝加哥为例。中国地理学报(英文版);2016;33(1):1 - 7。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
通过检测twitter上的用户统计数据，为社交媒体上的健康趋势提供信息。新泽西理工学院。URL:gydF4y2Bahttps://digitalcommons.njit.edu/dissertations/36/gydF4y2Ba[2022-04-21]访问gydF4y2Ba
Messias J, Vikatos P, Benevenuto F. White，男性，以及备受关注的Twitter中的性别和种族不平等。参见:IEEE/WIC/ACM网络智能国际会议(WI'17)。2017年发表于:IEEE/WIC/ACM网络智能国际会议论文集(WI'17);2017年8月23-26日;德国莱比锡。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
李建军，李建军，李建军，罗森奎斯特。推特用户的人口统计特征分析。发表于:第五届AAAI网络日志和社交媒体国际会议;2011;西班牙巴塞罗那。gydF4y2Ba
Mohammady E.利用县人口统计数据推断Twitter用户的属性。参见:ACL社交媒体社会动态与个人属性联合研讨会论文集。2014，发表于:ACL社交媒体社会动态与个人属性联合研讨会;2014年6月27日;在马里兰州的巴尔的摩。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Murthy D, Gross A, Pensavalle A.城市社会媒体人口统计:美国主要城市Twitter使用的探索。计算机通信学报，2015,11(1):33-49。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Nguyen V, Tran M, Luo j。法语真的那么不同吗?使用数据驱动学习从人脸识别欧洲人。参见:2018年第24届模式识别国际会议录(ICPR)。2018年出席:第24届模式识别国际会议(ICPR);2018年8月20日至24日;北京,中国。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
潘纳奇奥蒂M，波佩斯库AM。民主党、共和党和星巴克爱好者:推特上的用户分类。参见:第17届ACM SIGKDD知识发现与数据挖掘国际会议论文集。2011:第17届ACM SIGKDD知识发现与数据挖掘国际会议论文集;2011年8月21日至24日;KDD '11:圣地亚哥，加州，美国［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
潘纳奇奥蒂M，波佩斯库AM。推特用户分类的机器学习方法。2011年7月发表于第五届网络日志与社交媒体国际会议论文集;2011年7月17日至21日;巴塞罗那，加泰罗尼亚，西班牙。gydF4y2Ba
Reis J, Kwak H, An J, Messias J, Benevenuto F.美国twitter圈新闻分享的人口统计学特征。提交于:HT '17:第28届ACM超文本和社交媒体会议论文集;7月,2017;布拉格，捷克共和国。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Sadah SA, Shahbazi M, Wiley MT, Hristidis V.基于网络的健康相关社交媒体用户的人口统计研究。医学互联网研究，2015;17(8):e194 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
沙达，沙赫巴兹M，威利MT, Hristidis V.基于人口统计学的健康相关社交媒体内容分析。[J]医学互联网研究，2016;18(6):e148 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
使用Twitter数据确定移民的种族。提交于:MISNC '17:第四届多学科国际社会网络会议论文集:计算机协会;2017年7月17日- 19日;曼谷,泰国。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
索尔斯SJ，克劳斯MJ，康诺利S, Cavazos-Rehg PA。2014年11月，Twitter上电子烟广告的内容分析。前瞻慢性病2016年9月29日;13:E139 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
现在我们比以往任何时候都强大:推特上的非裔美国人英语语法。发表于:计算语言学协会欧洲分会第十四届会议学生研究研讨会论文集;2014;瑞典哥德堡。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
维卡托斯·P，梅赛斯·J，马诺埃尔·M，贝内努托·F. twitter人口统计群体的语言多样性。提交于:HT '17:第28届ACM超文本和社交媒体会议论文集;2017年7月4日至7日;布拉格，捷克共和国。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
李建军，李建军。基于用户情感基调和用户环境情感对比的人口统计数据分析。在:计算语言学协会第54届年会(卷1:长论文)。2018年发表于:计算语言学协会第54届年会论文集(卷1:长论文);8月,2018;德国柏林。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
王伟，迟国。你们是谁?估计twitter用户的人口统计数据。PAA。URL:gydF4y2Bahttp:///C /用户/用户/下载/ PAA _2017_Twitter_edited % 20 (1) . pdfgydF4y2Ba[2022-04-21]访问gydF4y2Ba
王艳，李艳，罗杰。推特领域对2016年美国总统竞选的解读:特朗普派和克林顿派的比较。参见:第十届国际AAAI网络和社交媒体会议论文集。2016年发表于:第十届国际AAAI网络和社交媒体会议;2016年5月17-20日;德国科隆。gydF4y2Ba
Wood-Doughty Z, Andrews N, Marvin R, Dredze m。第二届社会媒体中人们的意见、个性和情感的计算建模研讨会论文集，计算语言学协会。2018年发表于:第二届社会媒体中人们的意见、个性和情感的计算建模研讨会论文集，计算语言学协会;2018年6月6日;新奥尔良，路易斯安那州。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Wood-Doughty Z, Smith M, Broniatowski D, Dredze M. Twitter用户行为如何在不同人口统计群体中变化?2017第二届自然语言处理与计算社会科学研讨会论文集，美国计算语言学协会;2017年8月3日;加拿大温哥华。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
徐鹏，刘霞，德莱泽m。基于噪声自我报告的推特用户人口统计预测。第九届社会媒体自然语言处理国际研讨会论文集，计算语言学协会。2021年，第九届社会媒体自然语言处理国际研讨会，计算语言学协会;2021;网上。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
徐松，Markson C, Costello KL，邢永青，Demissie K, Llanos AA。利用社会媒体促进公共卫生知识:以通过Twitter提高癌症意识为例。中华医学会杂志，2016;2(1):17 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
叶杰，韩松，胡勇，柯斯昆波，刘明，秦华。基于名称嵌入的民族分类。在:CIKM '17: 2017年ACM信息与知识管理会议论文集;2017年11月;新加坡(1897-1906)［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
尹杰，迟刚，胡克J。推特用户人口地理分布的代表性评价。2018年第12届地理信息检索学术研讨会论文集;2018年11月6日;佤邦,美国。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
自动分析网络上用户生成的内容。它。2021.URL:gydF4y2Bahttps://www.proquest.com/openview/d035cbe40f3a459a9aa347273139233f/1?pq-origsite=gscholar&cbl=18750&diss=ygydF4y2Ba[2022-04-21]访问gydF4y2Ba
Adnan M, Longley PA, Khan SM。伦敦、巴黎和纽约使用Twitter的社会动态。2014年第一个星期一;19(5)。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
科尔曼LS。“我们也是这座城市的一部分”:通过# dcnativday对华盛顿特区原住民代表政治的审视。社交媒体Soc 2021 1月21日;7(1):205630512098444。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
张晓明，张晓明，张晓明，张晓明。基于社交媒体的工作满意度研究。ACM人机交互(HCI) 2021年4月13日;5(CSCW1):1-29。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
洪涛，吴杰，维贾亚D，轩Z, Fetterman J. JUUL:电子烟对心血管健康认知的Twitter分析。2021年1月8日;19日(1月):1-6。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
蒋杰，吴秀珍。不以貌取人:了解社交媒体研究中多模态处理的危害。见:第二届多媒体公平、问责、透明和道德国际研讨会论文集:ACM。2020年发表于:第二届多媒体公平、问责、透明度和道德国际研讨会:ACM;2020年10月12日;美国华盛顿州西雅图。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
缪勒A, Wood-Doughty Z, Amir S, Dredze M, Nobles AL.“我也是”推特标签行动主义运动的人口统计学表征与集体叙事。ACM人机交互，2020;5(CSCW1):1-28。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
刘建军，刘建军，刘建军，等。基于社交媒体的抑郁症性别与种族公平研究。在:计算语言学协会欧洲分会第16届会议论文集。2021提交于:计算语言学协会欧洲分会第16届会议;2021年4月19日至23日;网上。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
王晓明，王晓明。人口统计学对抑郁模型的定性分析。在第七届计算语言学和临床心理学研讨会论文集:改善访问。2021年发表于:第七届计算语言学和临床心理学研讨会:改善访问;2021;网上。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
王晓明，王晓明。社交媒体客户服务中的种族歧视:基于微博平台的实证研究。马诺阿:夏威夷大学;2019.gydF4y2Ba
《名字的秘密生活?》来自社交媒体的名字嵌入。提交于:第25届ACM SIGKDD知识发现和数据挖掘国际会议论文集;2019年8月4日- 8日;安克雷奇,正义与发展党。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Preotiuc-Pietro D, Ungar L.推特文本的用户级种族和民族预测。第27届国际计算语言学会议论文集;2018年第27届国际计算语言学会议;计算语言学协会;2018年8月20日至26日;圣达菲，新墨西哥州，美国gydF4y2Bahttps://wwwaclweborg/anthology/C18-1130gydF4y2Ba
Hinds J, Joinson AN。我们的数字足迹揭示了什么人口统计学属性?系统回顾。科学通报，2018;13(11):e0207112 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
阿布巴卡尔U，巴希尔SA，阿卜杜拉希MB，阿德巴约OS。推文分类中各种机器学习算法的比较研究。计算机科学学报，2019;6(4):12-24。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Ardehaly E, cullotta A, Raghavan V, Aluru S, Karypis G, Miele L.利用标签比例学习从twitter上挖掘政治情绪的人口统计学特征。参见:IEEE数据挖掘国际会议论文集，ICDMW。2017年发表于:IEEE国际数据挖掘会议，ICDMW;2017年11月18-21日;新奥尔良，路易斯安那，美国。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
An J, Ciampaglia GL, Grinberg N, Joseph K, Mantzarlis A, Maus G，等。2017年国际AAAI网络和社交媒体会议研讨会报告。AI杂志2017年12月28日;38(4):93-98。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
了解并减轻记录联动带来的隐私风险。德州大学达拉斯分校，2020年。URL:gydF4y2Bahttps://utd-ir.tdl.org/handle/10735.1/9373gydF4y2Ba[2022-04-21]访问gydF4y2Ba
电子烟用户差异行为的检测:一项关于twitter信息的研究。它。URL:gydF4y2Bahttps://www.proquest.com/openview/dbcad596abc1e82eb6718d504134ec17/1?pq-origsite=gscholar&cbl=18750&diss=ygydF4y2Ba[2022-04-21]访问gydF4y2Ba
李建军，李建军，李建军，等。城市文化亚群的社会时空变化特征。纽约:IEEE;2017.gydF4y2Ba
Beretta V, Maccagnola D, Cribbin T, Messina E.一种推断twitter人口统计属性的交互式方法。参见:第26届ACM超文本与社交媒体会议论文集。2015年发表于:HT '15:第26届ACM超文本与社交媒体会议论文集;2015年9月1-4日;北塞浦路斯Guzelyurt。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
伯格斯玛S, Van Durme B.基于概念类属性的社交媒体用户特征。见:计算语言学协会第51届年会论文集(卷1:长论文)。2013年发表于:计算语言学协会第51届年会论文集(卷1:长论文);2013年8月4日至9日;保加利亚索非亚。gydF4y2Ba
Bi B, Shokouhi M, Kosinski M, Graepel T.搜索用户的人口统计推断:社交数据满足搜索查询。见:国际万维网会议委员会会议录(IW3C2)。2013年发表于:国际万维网会议委员会(IW3C2);2013年5月13-17日;巴西里约热内卢。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
blvins T, Kwiatkowski R, Macbeth J, McKeown K, Patton D, Rambow O.自动处理帮派青年的推文:对损失和攻击的检测。在:COLING 2016，第26届国际计算语言学会议:技术论文;2016年12月11-16日;日本大阪。gydF4y2Ba
刘建军，刘建军。社交媒体英语识别方法的研究进展。2017年第3届嘈杂用户生成文本研讨会论文集:计算语言学协会;9月,2017;哥本哈根，丹麦，第56-61页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Bokányi E, Kondor D, Dobos L, Sebők T, stamesger J, Csabai I，等。种族、宗教和城市:推特词频模式揭示了美国占主导地位的人口维度。Palgrave公报2016年4月26日;2(1):1-9。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
社交媒体上的种族认同:在Facebook、Instagram和Twitter上投射种族认同。明尼苏达州立大学。URL:gydF4y2Bahttps://cornerstone.lib.mnsu.edu/etds/781/gydF4y2Ba[2022-04-21]访问gydF4y2Ba
Burnap P, Colombo G, Amery R, Hodorog A, Scourfield J. Twitter上自杀相关信息的多类机器分类。网络Soc网媒2017年8月;2:32-44 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Cesare N, Grant C, Nguyen Q, Lee H, Nsoesie E.机器学习预测社交媒体用户人口统计数据的效果如何?arXiv 2017:1-24。gydF4y2Ba
Chan MS, Winneg K, Hawkins L, Farhadloo M, Jamieson KH, Albarracín D.遗产和社交媒体分别影响新出现的健康威胁中的风险认知和保护行为:寨卡病毒病例传播的多波分析。社会科学与医学2018;22:50-59 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
陈建军，陈建军，陈建军。丁丙诺啡在急诊科的应用:对#firesidetox推文的主题内容分析。中华检验医学杂志，2016;16(3):262-268。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
张明，李伟。基于twitter趋势知识库的基于web的情报检索与决策集成。参见:第二届ACM社交网络搜索和挖掘研讨会论文集。2009年发表于:SWSM '09:第二届ACM社交网络搜索和挖掘研讨会论文集;2009年11月2日;香港，中国第1-8页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Chi G, Giles L, Kifer D, Van Hook J, Yin J。预测twitter用户人口统计数据作为人口研究大数据的第一步:利用实时、大规模twitter数据开发无监督、可扩展的方法。参见:2017年国际人口会议论文集。2017年提交于:2017年国际人口会议;2017年10月29日- 11月3日;开普敦，南非。gydF4y2Ba
Claude F, Konow R, Ladra S.基于快速压缩的社交媒体文本作者分析策略。提交于:CERI '16:第四届西班牙信息检索会议论文集;2016年6月14-16日;西班牙格拉纳达。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Compton R, Lee C, Lu T, De Silva L, Macy M.从未处理的Twitter数据中发现未来社会动荡:“新兴现象和大数据”。2013 IEEE情报与安全信息学国际会议(IEEE International Conference on Intelligence and Security Informatics);2013年6月4-7日;西雅图，美国华盛顿州。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
利用大规模社交媒体数据和智能手机GPS数据增强家庭旅行调查和旅行行为分析。它。URL:gydF4y2Bahttps://www.proquest.com/openview/30e2c6f084eb32378522fe9929604037/1?pq-origsite=gscholar cbl = 18750迪斯= ygydF4y2Ba[2022-04-21]访问gydF4y2Ba
戴宏，郝杰。挖掘社交媒体数据，发现电子烟的意见两极。烟草控制，2017,26(2):175-180。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
多尔顿AR，保罗·MJ。识别Twitter上的保护性健康行为:对旅行建议和寨卡病毒的观察研究。[J]医学互联网研究，2019,5 (5):e13090 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
DeJohn AD, Schulz EE, Pearson AL, Lachmar EM, Wittenborn AK。识别和理解使用twitter联系抑郁症的社区:横断面研究。中华医学会心理健康分会2018年11月05日;5(4):e61 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
王志强，王志强，王志强，Kıcıman，王志强。网络和社交媒体数据的不完善连续面板调查。科学通报，2016;11(1):e0145406 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
利用社交媒体评估公众对基础设施项目的接受程度。马里兰大学数字资源库。2018。URL:gydF4y2Bahttps://drum.lib.umd.edu/handle/1903/20848gydF4y2Ba[2022-04-21]访问gydF4y2Ba
J.社交媒体写作中的语音因素。见:社交媒体语言研讨会论文集(LASM 2013)。2013年发表于:社交媒体语言分析研讨会论文集;2013年6月13日;亚特兰大，乔治亚州gydF4y2Bahttps://aclanthology.org/W13-1102.pdfgydF4y2Ba
黑人推特对多芬2017年Facebook广告中黑人形象的反应的案例研究。南佛罗里达大学数字通讯。URL:gydF4y2Bahttps://digitalcommons.usf.edu/etd/8446/gydF4y2Ba[2022-04-21]访问gydF4y2Ba
Filho R, Almeida J, Pappa G. Twitter人口样本偏差及其对预测结果的影响:以选举为例。参见:2015年IEEE/ACM社会网络分析与挖掘进展国际会议论文集。2015年发表于:IEEE/ACM社会网络分析与挖掘进展国际会议(ASONAM);2015年8月25日至28日;法国巴黎。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
李丽波。隐式社交网络中的用户人口统计与语言。2012年自然语言处理和计算自然语言学习的经验方法联合会议，发表于:自然语言处理和计算自然语言学习的经验方法联合会议;2012年7月12日至14日;韩国济州岛gydF4y2Bahttps://aclanthology.org/D12-1135/gydF4y2Ba
一个单向和双向街道的世界，探索推特上粉丝与运动员互动的细微差别。印第安纳大学。URL:gydF4y2Bahttps://scholarworks.uark.edu/cgi/viewcontent.cgi?article=3185&context=etdgydF4y2Ba[2022-04-21]访问gydF4y2Ba
george ou T, Abbadi A, Yan X. Privacy cyborg:面向社交媒体用户隐私保护的研究。参见:2017年IEEE第33届国际数据工程会议论文集(ICDE)。2017 IEEE第33届国际数据工程会议(ICDE);2017年4月19日至22日;圣地亚哥，加州，美国。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
张建军，张建军，张建军，等。社会经济地位对推特用户的影响。自然语言处理最新进展国际会议论文集(RANLP)。2019年发表于:自然语言处理最新进展国际会议(RANLP);2019年9月2日至4日;保加利亚瓦尔纳。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
马鲁夫，马鲁夫，马立民，马立民，等。基于twitter的社区情绪测量作为居民人口健康的预测因子。PLoS One 2019;14(7):e0219550 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
利用社交媒体使用、种族、性别、年龄范围和教育水平对跨性别者的态度分析。它。2020.URL:gydF4y2Bahttps://www.proquest.com/openview/1275cca853a493adc44dad6ad 0 f3d1ab / 1 ?pq-origsite = gscholar&cbl = 2026366迪斯= yqgydF4y2Ba[2022-04-21]访问gydF4y2Ba
Giorgi S, Yaden DB, Eichstaedt JC, Ashford RD, Buffone AEK, Schwartz HA，等。美国各地关于饮酒的推文的文化差异。国际环境与公共卫生杂志2020年2月11日;17(4):1125 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
通过选择性的自我披露行为来分析社交媒体用户。新加坡管理大学(新加坡)。URL:gydF4y2Bahttps://ink.library.smu.edu.sg/etd_coll_all/1/: ~:文本中= % 20 % 20社会% 20媒体% 20用户,是% 20名为% 20选择性自我% 2 ddisclosure % 20gydF4y2Ba[2022-04-21]访问gydF4y2Ba
走向安全和保护隐私的在线社交网络服务。加州大学伯克利分校。URL:gydF4y2Bahttps://escholarship.org/uc/item/1b14t6kqgydF4y2Ba[2022-04-21]访问gydF4y2Ba
gdecha P, Ranganath S，冯志，刘华。一种社交媒体来源数据收集工具。参见:第19届ACM SIGKDD知识发现与数据挖掘国际会议论文集。2013发表于:KDD '13:第19届ACM SIGKDD知识发现与数据挖掘国际会议论文集;2013年8月11日至14日;美国伊利诺斯州芝加哥。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
郭刚，朱峰，陈娥，刘强，吴玲，关晨。从足迹到证据:基于社会数据的信用评分挖掘研究。中文信息学报，2016,27(4):1-38。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
刘建军，刘建军，刘建军，等。印度和澳大利亚接触社交媒体酒精营销与青少年饮酒行为之间的关系。中华医学杂志2018;18(1):726 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
@ Haffner M.推特上#黑人的生命很重要和反抗议内容的基于地点的分析。地球科学进展，2018,31(5):1257-1280。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
池田K，服部G，小野C, Asoh H, Higashino T.基于文本和社区挖掘的Twitter用户特征分析。基于知识的系统，2013年10月;51:35-47。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Ireland ME, Chen Q, Schwartz HA, Ungar LH, Albarracin D.行动推文与降低美国县级艾滋病毒流行率有关:在线信息和结构性决定因素。中国艾滋病防治杂志，2016;20(6):1256-1264 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
SMARTS:基于社交媒体的成瘾恢复和干预目标服务器。生物信息学2019 Oct 24;36(6):1970-1972。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
郭志强，郭志强，郭志强，郭志强，等。推特上泛西班牙语的区域词自动检测。2018年伊比利亚-美洲人工智能会议论文集发表于:伊比利亚-美洲人工智能会议;2018年11月13日至14日;特鲁希略(秘鲁)。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
用“黑推特”来描述非裔美国人的英语方言地区。美国演讲2015;90:2015-2040。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
李建军，李建军，李建军，等。一种基于语义的词性标注方法。参见:计算语言学协会北美分会2016年会议论文集:人类语言技术。2016年发表于:计算语言学协会北美分会2016年会议:人类语言技术;2016年6月12日至17日;圣地亚哥，加利福尼亚。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
康宇，曾翔，张震，王宇，费涛。谁更幸福?基于地理众包人脸的全球人类情感时空分析。参见:无所不在的室内导航和基于位置的服务(UPINLBS)。2018年在:普惠定位室内导航和基于位置的服务(UPINLBS);2018年3月22日至23日;武汉,中国。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
肯特JD，卡佩罗HT。2012年盗马贼峡谷火灾期间有效社交媒体内容的空间格局和人口指标。地理信息学报，2013,30(2):78-89。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
基于多层次回归和后分层(MRP)的2016年Twitter选举分析去偏见。伊利诺伊大学，2019。URL:gydF4y2Bahttps://indigo.uic.edu/articles/thesis/Debiasing_2016_Twitter_Election_Analysis_via_Multi-Level_Regression _and_Poststratification_MRP_ / 10904234gydF4y2Ba[2022-04-21]访问gydF4y2Ba
Kostakos P, Pandya A, Kyriakouli O, Oussalah M.基于计算机视觉api的twitter边缘用户人口统计数据推断。参见:2018年欧洲情报与安全信息学会议(EISIC)。2018年欧洲情报和安全信息学会议(EISIC);2018年10月24日至25日;Karlskrona,瑞典。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
运用情感分析来衡量多元文化社会中对少数民族的看法:对南非奥拉尼亚阿非利卡人社区Twitter feed的分析。[J]中南大学学报(自然科学版)2018年11月15日;14(1):11。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
库马尔D, Ukkusuri SV。利用社交媒体加强飓风疏散行为模型的人口统计覆盖。[J] .计算机科学学报，2020;45(5):1104 - 1184。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Lachlan KA, Spence PR, Lin X.通过Twitter表达风险意识和关注:利用媒体作为受众需求指示的效用计算机人类行为2014年6月35日554-559。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Lama Y, Chen T, Dredze M, Jamison A, Quinn SC, Broniatowski DA。人乳头瘤病毒Twitter图像与美国人乳头瘤病毒风险和疾病差异之间的不一致:混合方法分析医学互联网研究，2018年9月14日;20(9):e10244 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
虚拟家园(再):通过社交媒体构建身体与身份。宾汉姆顿:纽约州立大学;2016.gydF4y2Ba
李-元RJ, White TN, Potocki B.黑人推特的催化剂:歧视经历、群体认同和种族代理在美国黑人推特工具性使用中的作用。[j] .通信学报，2017,23;21(8):1097-1115。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
李江,Ritter Hovy大肠弱监督从twitter中提取用户配置文件。在:计算语言学协会第52届年会论文集(卷1:长论文)。2014年发表于:计算语言学协会第52届年会论文集(卷1:长论文);2014年6月22-27日;巴尔的摩，马里兰州第165-174页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Lienemann BA, Unger JB, Cruz TB, Chu K.烟草相关Twitter数据的编码方法:一个系统综述。医学互联网研究，2017年3月31日;19(3):e91 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
林颖。城市社区情感隔离的评估。发表于:SocialCom '14: the International Conference of Social Computing. 2014;2014年8月4-7日;中国北京。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
正如在Twitter上看到的那样:非裔美国人的修辞传统像病毒一样传播开来。密歇根大学，2012。URL:gydF4y2Bahttps://docgo.net/as-seen-on-twitter-african-american-rhetorical-traditions-gone-viralgydF4y2Ba[2022-04-21]访问gydF4y2Ba
人类活动识别:数据驱动的方法。加州大学欧文分校。URL:gydF4y2Bahttps://escholarship.org/uc/item/4w98w1zdgydF4y2Ba[2022-04-21]访问gydF4y2Ba
Lwowski B, Rios A.使用机器学习跟踪社交媒体上与流感相关的内容时存在种族偏见的风险。中华医学杂志，2013;28(4):839-849 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Magdy A, Ghanem T, Musleh M, Mokbel M.本地twitter社区的语言多样性。第27届ACM超文本和社交媒体会议论文集。2016年发表于:第27届ACM超文本和社交媒体会议;2016年7月10日- 13日;加拿大新斯科舍省哈利法克斯。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Maheshwari T, Reganti A, Chakraborty T, Das A.社会网络社区的社会种族成分。2017年ACM计算机支持的协同工作与社会计算会议论文集发表于:CSCW '17伴侣:ACM计算机支持的协同工作与社会计算会议伴侣;2017年2月25日- 3月1日;波特兰，俄勒冈，美国。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
孟宏，Kath S, Li D, Nguyen QC。推特上的国家物质使用模式。科学通报，2017;12(11):e0187691 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
m OK。用地理标记推文预测高分辨率地区的人口统计数据。参见:第三十一届AAAI人工智能会议论文集AAAI出版社。2017发表于:第三十一届AAAI人工智能会议论文集AAAI出版社;2017年2月4日- 9日;加拿大温哥华1460-1466页gydF4y2Ba
阮涛，亚当斯N，黄D, Glymour MM, Allen AM，阮QC。从Twitter数据评估的州级种族态度与不良出生结果之间的关系:观察性研究。中华医学会公共卫生监测2020年7月6日;6(3):e17103 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
莫德斯D, Bodt C, Bjell J, Pentl A, Verleysen M, Montjoye Y.基于社交网络关联的个体预测改进。第12届自组织地图与学习向量量化、聚类和数据可视化国际研讨会论文集。2017年发表于:第十二届自组织地图与学习矢量量化、聚类和数据可视化国际研讨会;2017年6月28-30日;南希，法国，第1-8页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Nelson J, Quinn S, Swedberg B, Chu W, MacEachren A. Twitter上公共政治话语的地理视觉分析方法。地球物理学报，2015,33(1):337-366。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Nguyen QC, Kath S, Meng H, Li D, Smith KR, VanDerslice JA，等。利用地理标记的Twitter数据来检查邻居的幸福、饮食和体育活动。应用地理，2016年8月;73:77-88 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
阮国强，李东，孟华，Kath S, Nsoesie E，李峰，等。从地理标记的Twitter数据中建立一个全国性的社区数据集，用于幸福感、饮食和体育活动的指标。JMIR公共卫生监测2016 Oct 17;2(2):e158 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Novak AN, Johnson K, Pontes M. LatinoTwitter:社交媒体中拉丁裔公民参与的话语。第一个星期一2016年7月24日;21日(8)。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Odlum M, Cho H, Broadwell P, Davis N, Patrao M, Schauer D，等。主题建模在推文中的应用，作为COVID-19健康差异研究的基础。Stud Health technology Inform 2020 Jun 26;272:24-27 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Oktay H, Firat A, Ertem Z. Twitter用户的人口统计分析:基于名字的分析。见:美国科学与工程学院学报(ASE)。2014年发表于:中国科学院(ASE);2014年1月11日;伯明翰。gydF4y2Ba
王晓明，王晓明，王晓明。心理导航仪在化学实验中的应用?一个基于网络的对电子精神世界的描述。网络心理行为学报，2015;18(5):296-300。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Pick J, Sarkar A, Rosales J.美国县的社交媒体使用:地理及其决定因素。地球物理学报，2019,9(9):424。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
发展研究健康不平等的计算方法。华盛顿大学，2017。URL:gydF4y2Bahttps://soc.washington.edu/research/graduate/developing-computational-approaches-investigate-health-inequalitiesgydF4y2Ba[2022-04-21]访问gydF4y2Ba
Priante A, Hiemstra D, Saeed A, van den Broek T, Ehrenhard M, Need A。基于twitter个人资料描述的社会身份分类。2016年第一次NLP与计算社会科学研讨会论文集发表于:第一次NLP与计算社会科学研讨会论文集:计算语言学协会;2016年11月5日;奥斯汀,德克萨斯州。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Riederer C, Zimmeck S, Phanord C, Chaintreau A, Bellovin S.我没有照片，但你可以有我的足迹:揭示地理位置数据的人口统计数据。In: ACM on Conference on Online Social Networks. 2015发表于:OSN '15: ACM on Conference on Online Social Networks;2015年11月2-3日;美国加州帕洛阿尔托。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
robert MJ, Perera M, Lawrentschuk N, Romanic D, Papa N, Bolton D.基于微博的期刊俱乐部持续职业发展全球化:系统回顾。医学互联网研究，2015;17(4):e103 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
距离、口罩和疫苗采用率与全球推特趋势的比较研究。医疗保健2021年4月21日;9(5):488。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Rummo PE, Cassidy O, Wells I, Coffino JA, Bragg MA。研究针对年轻人的食品营销支出与社交媒体关注者人口统计数据之间的关系。国际环境与卫生杂志，2020,03;17(5):1631 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
龙格K。“社会”科学、蜘蛛山羊和美国科学受众:调查人际网络对新兴技术认知的影响。它。2017.URL:gydF4y2Bahttps://www.proquest.com/openview/85b51025bda09f9a6941 fd9b6e7cc054/1吗?pq-origsite = gscholar&cbl = 18750迪斯= ygydF4y2Ba[2022-04-21]访问gydF4y2Ba
刘建军，陈建军。基于商业智能的推文可视化研究。发表于:第39届国际ACM SIGIR信息检索研究与发展会议论文集;2016年7月17日- 21日;意大利比萨。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Singh M, Singh A, Bansal D, Sofat S.一个识别Twitter上可疑用户的分析模型。控制论系统2019 Apr 02;50(4):383-404。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Tomeny TS, Vargo CJ, El-Toukhy S. Twitter上与自闭症相关的反疫苗信仰的地理和人口相关性，2009-15。中国生物医学工程学报(英文版);2017;31 (1):391 - 391 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
对卫生数据集的评估，以加强对英国莱姆病的监测。它。2019.URL:gydF4y2Bahttps://www.proquest.com/openview/72acae0b592c9f8564d2204eaa84f5d1/1?pq-origsite=gscholar&cbl=44156gydF4y2Ba[2022-04-21]访问gydF4y2Ba
Vydiswaran VG, Romero DM, Zhao X, Yu D, Gomez-Lopez I, Lu JX，等。揭示推特上与食物相关的讨论与社区特征之间的关系。中华医学杂志，2020;27(2):254-264 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
用脚投票:谁将离开希拉里和唐纳德·特朗普?参见:IEEE多媒体国际研讨会论文集。2016年发表于:IEEE国际多媒体研讨会(ISM);2016年12月11-13日;加州圣何塞[gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
wegg C, Schwartz HA, Hill S, Merchant RM, Arango C, Ungar L.使用Twitter衡量公众对疾病的讨论:一个案例研究。公共卫生监测，2015;1(1):e6 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
#KnowBetterDoBetter: Twitter对灾难扫盲影响的研究。它。2019.URL:gydF4y2Bahttps://www.proquest.com/openview/1d20d09437e5921d1b996c6657c29011/1?pq-origsite=gscholar&cbl=18750&diss=ygydF4y2Ba[2022-04-21]访问gydF4y2Ba
Yazdavar AH, Mahdavinejad MS, Bajaj G, Romine W, Sheth A, Monadjemi AH等。社交媒体中的多模式心理健康分析。PLoS One 2020;15(4):e0226248 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
应强，赵丹，张欣。基于时间发布模式的OSN用户特征分析。提交于:WWW '18: The Web Conference Proceedings;2018年4月23日至27日;法国里昂。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
袁峰，李敏，翟伟，齐斌，刘锐。基于社交媒体的人口统计学分析:理解灾害响应差异。2020年建筑研究大会会议录:计算机应用2020年发表于:建筑研究大会2020:计算机应用;2020年3月8-10日;坦佩亚利桑那。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
张志，Bors G.“少即是多”:从Twitter用户档案中挖掘有用的特征，用于公共卫生领域的Twitter用户分类。中国生物医学工程学报，2019;44(1):213-237 [j]gydF4y2Ba免费全文gydF4y2Ba］gydF4y2Ba
赵鹏，贾军，安宇，梁军，谢玲，罗杰。社交媒体中表情符号使用分析与预测。见:2018年网络会议论文集。2018年发表于:WWW '18: the Web Conference 2018的同伴会议录;2018年4月23日至27日;法国里昂。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
钟艳，袁宁，钟伟，张飞，谢霞。你去哪里，你就在哪里:从地点签到推断人口属性。提交于:WSDM '15:第八届ACM网络搜索和数据挖掘国际会议论文集;2015年2月2-6日;中国上海。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
蒋颖，李忠，叶霞。地理标签Twitter用户的人口统计学和社会经济偏见研究。地理信息学报，2018,32(3):228-242。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
脸+ +主页。+ +。URL:gydF4y2Bahttps://www.faceplusplus.com/gydF4y2Ba[2022-04-21]访问gydF4y2Ba
强大的受众群体。DemographicsPro。URL:gydF4y2Bahttps://www.demographicspro.com/gydF4y2Ba[2022-04-21]访问gydF4y2Ba
Onomap正在改变。Onomap。URL:gydF4y2Bahttps://www.onomap.org/gydF4y2Ba[2022-04-21]访问gydF4y2Ba
学术研究:为学术研究申请做准备:学习申请学术研究产品所需的一切知识。Twitter Inc .。URL:gydF4y2Bahttps://developer.twitter.com/en/solutions/academic-research/application-infogydF4y2Ba[2022-04-19]访问gydF4y2Ba
Twitter允许学者完全访问公共数据，但不包括被暂停的账户。路透。URL:gydF4y2Bahttps://www.usnews.com/news/technology/articles/2021-01-26/twitter-grants-academics-full-access-to-public-data-but-not-for-suspended-accountsgydF4y2Ba[2022-04-19]访问gydF4y2Ba
郑淑娟，郭华华，杨森B.基于性别、年龄和种族的四种常用人脸识别工具的准确性评估。参见:第十二届国际AAAI网络和社交媒体会议论文集。2018年发表于:第十二届国际AAAI网络和社交媒体会议;2018年6月25日至28日;美国加州帕洛阿尔托。gydF4y2Ba
李建军，李建军。性别阴影:商业性别分类的准确度差异。提交地点:第一届公平、问责与透明度会议论文集;2018;纽约。gydF4y2Ba
Jung S, An J, Kwak H, Salminen J, Jansen B.推断社交媒体用户?来自个人资料图片的人口统计:对twitter用户的face++分析。提交地点:The 17th International Conference on Electronic Business (ICEB);2017;迪拜,阿联酋。gydF4y2Ba
人脸识别与人口统计属性估计联合去偏。在:计算机视觉- ECCV 2020。可汗:施普林格;2020.gydF4y2Ba
傅生，何海，侯铮。从面孔学习种族:一个调查。IEEE跨模式数据分析，2014,12,36(12):2483-2509。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
张建平，何勇，张建平。基于眼动和瞳孔测量的跨种族面孔学习缺陷研究。[J]心理学报;2009;35(5):1105-1122。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
迈斯纳CA，布里格姆JC。三十年来对面孔记忆中的种族偏见的研究:一项荟萃分析综述。心理公共政策法2001;7(1):3-35。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Jofre A, Berardi V, Brennan K, Cornejo A, Bennett C, Harlan J.众包图像提取与标注:软件开发与案例研究。数字人文Q 2020;14(2) [j]gydF4y2Ba免费全文gydF4y2Ba］gydF4y2Ba
金·RD，约翰逊·BD:惩罚的表情:司法大厅里的肤色和非洲中心主义特征。中国生物医学工程学报，2016;22(1):90-124。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
张建军，张建军，张建军。人脸识别算法的准确性比较:我们在衡量种族偏见方面进展如何?生物工程学报，2013,31(1):101-111。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
李建军，李建军。性别阴影:商业性别分类的准确度差异。发表于:第一届公平、问责与透明度会议;2018年2月23日至24日;纽约。gydF4y2Ba
托拉尔巴A，埃弗罗斯A。参见:CVPR 2011。2011年出席:CVPR 2011;2011年6月20-25日;科罗拉多斯普林斯，科罗拉多州，美国。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
moscro A, Ziebland S, Bloch G, Iraola JR.如果健康的社会决定因素如此重要，我们不应该询问患者吗?英国医学杂志2020 11月24日:m4150。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
引用本文:张建明。互译者信度:kappa统计。生物化学医学杂志(Zagreb) 2012;22(3):276-282 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
开发人员术语:更多关于Twitter api的限制使用。开发平台。URL:gydF4y2Bahttps://developer.twitter.com/en/developer-terms/more-on-restricted-use-casesgydF4y2Ba[2022-03-04]访问gydF4y2Ba
Alsaied T, Allen KY, Anderson JB, Anixt JS, Brown DW, Cetta F，等。Fontan结果网络:为美国Fontan循环患者建立寿命登记的第一步。中华医学杂志，2020;30(8):1070-1075。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba

‎gydF4y2Ba

ML:gydF4y2Ba机器学习gydF4y2Ba

国家卫生研究院:gydF4y2Ba美国国立卫生研究院gydF4y2Ba

NLP:gydF4y2Ba自然语言处理gydF4y2Ba

棱镜:gydF4y2Ba系统评价和荟萃分析的首选报告项目gydF4y2Ba

编辑:梁涛;提交17.12.21;经JW Kwon, D Storman, A Joseph同行评审;对作者23.02.22的评论;收到08.03.22修订版本;接受23.03.22;发表29.04.22gydF4y2Ba

©Su Golder, Robin Stevens, Karen O'Connor, Richard James, Graciela Gonzalez-Hernandez。原载于医学互联网研究杂志(//www.mybigtv.com)， 2022年4月29日。gydF4y2Ba

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。gydF4y2Ba

本文内容如下gydF4y2Bae-collection /主题问题:gydF4y2Ba

建立Twitter用户种族或民族的方法:范围审查gydF4y2Ba

建立Twitter用户种族或民族的方法:范围审查gydF4y2Ba

审查gydF4y2Ba

通讯作者:gydF4y2Ba

摘要gydF4y2Ba

关键字gydF4y2Ba

介绍gydF4y2Ba

利用Twitter数据进行研究gydF4y2Ba

从Twitter上提取人口统计信息gydF4y2Ba

目标gydF4y2Ba

方法gydF4y2Ba

概述gydF4y2Ba

入选标准gydF4y2Ba

概述gydF4y2Ba

人口gydF4y2Ba

干预gydF4y2Ba

比较器gydF4y2Ba

结果gydF4y2Ba

研究设计gydF4y2Ba

限制gydF4y2Ba

搜索策略gydF4y2Ba

资源搜索gydF4y2Ba

数据提取gydF4y2Ba

质量评估gydF4y2Ba

数据分析gydF4y2Ba

结果gydF4y2Ba

概述gydF4y2Ba

纳入研究的特点gydF4y2Ba

手动检查gydF4y2Ba

Census-Driven预测gydF4y2Ba

特设ML或NLPgydF4y2Ba

现成的软件gydF4y2Ba

讨论gydF4y2Ba

主要研究结果gydF4y2Ba

与所用方法有关的问题gydF4y2Ba

优势与局限gydF4y2Ba

未来的发展方向gydF4y2Ba

结论gydF4y2Ba

致谢gydF4y2Ba

数据可用性gydF4y2Ba

作者的贡献gydF4y2Ba

利益冲突gydF4y2Ba

参考文献gydF4y2Ba

缩写gydF4y2Ba