普林斯顿大学已经开发出一种实时跟踪在线外国错误信息活动的技术

时间：2021-10-18 16:51:57 来源：

由普林斯顿大学领导的研究团队开发了一种实时跟踪在线外国错误信息活动的技术，该技术可以帮助减轻外界对2020年美国大选的干扰。

研究人员开发了一种方法，该方法可以使用机器学习根据其过去的行为来识别恶意的互联网帐户或巨魔。该模型以科学进步为特色，调查了中国，俄罗斯和委内瑞拉过去在2016年大选前后针对美国发动的虚假宣传活动。

团队确定了这些活动的模式，然后分析了Twitter和Reddit上的帖子以及它们包含的超链接或URL。在进行了一系列测试之后，他们发现他们的模型可以有效地识别属于外国影响力活动的职位和账目，包括那些从未使用过的账目和账目。

他们希望软件工程师能够在他们的工作基础上建立一个实时监控系统，以暴露外国对美国政治的影响。

普林斯顿公共和公共事务学院政治与国际事务教授雅各布·夏皮罗（Jacob N. Shapiro）说：“我们的研究意味着，您可以实时估计其中有多少，以及他们在谈论什么。”国际事务。“这并不完美，但这会迫使这些演员发挥更大的创造力，并可能停止他们的努力。您只能想象如果有人投入工程来对其进行优化的话，情况会好多了。”

Shapiro和副研究员Meysam Alizadeh与纽约大学政治学教授Joshua Tucker和新泽西理工学院信息学助理教授Cody Buntain进行了这项研究。

团队首先提出了一个简单的问题：仅使用基于内容的功能和已知影响力活动的示例，您是否可以查看其他内容并判断给定帖子是否是影响力活动的一部分？

他们选择调查一个称为“ postURL对”的单元，该单元只是带有超链接的帖子。为了产生真正的影响力，协调的运营需要密集的人员和机器人驱动的信息共享。该团队认为，随着时间的流逝，类似的帖子可能会在各个平台上频繁出现。

他们将Twitter和Reddit的巨魔战役数据与政治参与用户和纽约大学社交媒体与政治中心（CSMaP）多年来收集的普通用户发布的丰富数据集结合在一起。巨魔数据包括从中国，俄罗斯和委内瑞拉巨魔公开获得的Twitter和Reddit数据，从2015年末到2019年，共有8,000个帐户和720万个帖子。

CSMaP联合总监塔克（Tucker）说：“如果没有常规的普通推文的基线比较数据集，我们就无法进行分析。”“我们使用它来训练模型，以区分来自协调影响力活动的推文和来自普通用户的推文。”

团队考虑了帖子本身的特征，例如时间，字数或所提到的URL域是否是新闻网站。他们还研究了所谓的“元内容”，或帖子中的消息传递与当时共享的其他信息之间的关系（例如，URL是否位于巨魔共享的前25个政治领域中）。

夏皮罗说：“梅萨姆对元内容的见解是关键。”“他看到我们可以使用机器来复制人类的直觉，即‘关于这篇文章的某些东西看起来很不合时宜。’巨魔和普通人通常在他们的帖子中都包含本地新闻URL，但是这些巨魔倾向于在此类帖子中提及不同的用户，这可能是因为他们试图将观众的注意力吸引到一个新的方向。元内容使算法可以发现此类异常。”

团队对他们的方法进行了广泛的测试，逐月检查了四个影响力活动中五个不同的预测任务的绩效。在几乎所有463种不同的测试中，很明显哪些帖子属于和不属于影响力操作的一部分，这意味着基于内容的功能确实可以帮助在社交媒体上找到协调的影响力运动。

在某些国家，这种模式比其他国家更容易发现。委内瑞拉巨魔只转发了某些人和话题，使其易于检测。俄罗斯和中国的巨魔在使它们的内容看起来更有机方面表现更好，但也可以找到它们。例如，在2016年初，俄罗斯巨魔经常链接到最右边的URL，鉴于其帖子的其他方面，这是不寻常的，并且在2017年初，它们以奇怪的方式链接到政治网站。

总体而言，随着时间的流逝，俄罗斯巨魔的活动变得越来越难找。尽管俄罗斯人似乎在2018年的产量似乎比往年少，但调查团伙或其他人可能会抓住虚假信息，举报职位并强迫巨魔改变其战术或方法。

尽管研究表明没有稳定的特征集可以找到影响力，但它也表明，巨魔内容几乎总是在可检测的方式上是不同的。在一组测试中，作者证明了该方法可以找到正在进行的活动的一部分从未使用过的帐户。尽管社交媒体平台会定期删除与外国虚假宣传活动相关的帐户，但该小组的发现可能会导致更有效的解决方案。

Buntain说：“当平台禁止这些帐户时，这不仅使将来很难收集数据来查找相似的帐户，而且还向虚假信息参与者发出信号，表明他们应避免导致删除的行为。”“该机制允许[平台]识别这些帐户，将它们与Twitter的其余部分隔离开，并使这些参与者看起来好像他们正在继续共享其虚假信息。”

这项工作强调了社会科学与计算科学之间跨学科研究的重要性，以及资助研究数据档案的重要性。

夏皮罗说：“美国人民应该了解外国正在做些什么来影响我们的政治。”这些结果表明，提供知识在技术上是可行的。我们目前缺乏的是政治意愿和资金，这是一种愚蠢的行为。

研究人员告诫说，这种方法不是万能药。它要求某人已经确定了最近的影响力竞选活动以供学习。以及不同功能如何组合以指示可疑的内容随时间推移以及各个广告系列之间的变化。

参考：“基于内容的功能可预测社交媒体的影响力运营”，2020年7月22日，《科学进展》。

郑重声明：文章仅代表原作者观点，不代表本站立场；如有侵权、违规，可直接反馈本站，我们将会作修改或删除处理。