当前位置: 首页 > 科技观察

Nature封面:搭上AI的翅膀,数据“飞翔”计算社会科学

时间:2023-03-13 14:21:06 科技观察

早在苏美尔王国,这个智慧王国的人们就开始记录数据、进行人口普查、分发食物。苏美尔的人口普查记录,世界上最早的文明之一苏美尔人贡献了最早的书面数据分析记录。随着计算机的出现,人们开始使用机器来分析大型数据集。这个阶段可以追溯到大型计算机时代。计算机大大加快了数据分析的速度,并广泛应用于审计和人口普查。而这种将海量数据分析与社会问题相结合的工作,即计算社会科学(Computationalsocialscience)近年来得到了很大的发展。巨大的发展伴随着无限的、不受监管的数据收集。存在很大的风险:缺乏监控以及从匿名数据中重新识别的风险。也有人担心,未经当事人同意收集资料怎么办?如果大部分数据被少数几家大型科技公司垄断怎么办?大型科技公司不仅持有数据,而且数据的使用权向发达国家和富人倾斜,这样做出的决策难免有失偏颇。所以现在需要的是我们把社会科学和不同学科结合起来,把收集和分析大数据集所需的技能结合起来,这就需要跨学科的合作。然而,跨学科合作目前面临许多挑战。今天,《自然》杂志以特刊的形式讨论了当前计算社会科学面临的挑战和机遇。克服跨学科语言障碍计算社会科学整合了社会科学、自然科学和计算科学。同一个词在不同学科之间可能有不同的含义。在这种情况下,很容易“跟鸭子说话”。例如,在社会科学中,“预测”往往意味着“相关”;在物理科学中,这个词更多指的是“预测”。“Token”在不同的领域也有不同的含义。因此,不同的学科需要克服表达同一术语不同含义的语言障碍。在进行跨学科研究时,科学家们首先需要学习彼此的语言,然后想出一个相互都能理解的术语。但比语言障碍更难的是如何呈现、分析和解释数据,并最终解释某种现象。例如,为了了解交通拥堵的原因,研究人员收集和预测交通流量数据,并从司机那里了解他们选择某些路线的原因。计算社会科学学科的互补性可以更有效地回答研究问题。处理数据的注意事项所有研究结果都取决于分析策略,但也取决于数据的质量,尤其是在处理社交数据时。为了完成计算社会科学研究,需要大量的数据,例如手机的位置信息。但是这些信息通常不是为了研究目的而收集的,因此很容易被误解。对于处理大型数据集的研究人员来说,从简单地观察数字趋势或模式得出结论是一个很大的禁忌。研究人员应考虑可能影响结果的因素。为了提取数据的真正含义,研究人员需要确保根据理论仔细定义、验证和适当解释他们测量的内容。算法的广泛影响是另一个潜在的错误。算法遍及社会并以不同方式影响个人和群体行为,这意味着所有观察不仅描述了人类行为,还描述了算法对人们行为方式的影响。需要更新社会科学理论以承认算法的影响;没有它们,如果没有清楚地了解算法对可用数据的影响,研究人员就无法得出有意义的结论。共享数据的困难大型数据集通常是企业的私有财产,这是计算社会科学中的另一个复杂问题。学术科学家需要联系公司以获得访问权限,这有可能造成更多偏见。对于企业来说,数据是有价值的,共享数据会触犯企业的“底线”。这就是为什么公司倾向于限制他们共享的内容的原因之一。但考虑到这些数据可以提供的社会效益,公司以及学术研究人员和公共机构需要共同努力解决这些问题并制定数据质量、数据访问和数据所有权的标准。未来获取数据的方法一篇关于“人类社会感知”的文章概述了一些获取有用、可靠数据的方法。这是对个人如何在其社交网络中收集他人信息的研究。例如,研究人员可以通过采访受试者并询问他们的朋友在谈论什么来预测政治观点的变化。从他人那里收集数据有助于避免自我报告数据中可能出现的一些偏见,生成匿名数据还有一个额外的好处,即永远不会知道他们获得的数据中的任何个人或敏感细节。传染病建模和行为科学的交叉证明了获取数据的方法变得更加复杂。为了创建准确的传染和感染模型,研究人员需要了解患病人群的文化和行为。如果不考虑传播的这些和其他社会方面,就很难预测疾病传播的路径。跨学科结构和广泛合作是关键。而COVID-19大流行表明,将大规模数据集应用于科学可以挽救生命。随着具有计算机科学或应用数学背景的研究人员与社会科学家合作,这种潜力才刚刚开始显现。