视频:检测言语中的欺骗

文章 (25) 2021-08-15 11:07:27

检测文本中的欺骗涉及很多挑战。首先,缺乏数据来研究欺骗性言论,即人们说谎的方式。我们并不总是知道真相。很难知道人们将事物与什么进行比较,而且当有研究时,很难将它们与现实世界进行比较。

此外,人们在不同文化和不同性别等方面的撒谎方式也存在差异。所以这是我姐姐 Sarah Ita Levitan 的博士论文中最近提出的一种方法,她通过语音工具研究了该地区的欺骗检测。

这项工作的一些显着特点是它提供了一个用于研究欺骗、多领域、跨文化、跨性别的大规模语料库。此外,对撒谎者和欺骗者的经济激励。以及自动提取特征的方法和用于分类欺骗性语音的机器学习方法。

三个主要想法是识别欺骗的线索,研究说话人撒谎方式的可变性,以及使用这些信息对语音进行分类。关于被称为 CXD 语料库或哥伦比亚跨文化欺骗语料库的语料库的更多细节,这是他们的实验概述,它是虚假简历范式的扩展,也被称为谎言游戏参与者进入实验室,其中一个采访了另一个,询问了一个参与者被告知要说谎的地方。

另一个应该检测他们是否在说真话。他们因为表现出色而获得报酬。它还包括性格分数和他们演讲的基线样本以进行比较。这是他们收到的一个问卷示例,其中有一半的示例要求他们编造一个答案,然后当他们的搭档询问他们时,他们会说错误的答案。例如,您是否曾经对任何食物过敏?例如,他们会撒谎,然后他们将不得不设法逃脱。

所以只是这个语料库的一些其他特征,340 个主题,超过 120 小时的演讲,不同的文化,不同的性别,还带有全球和本地欺骗的标签。他们研究了不同的语音片段、不同的语音单位、停顿间单位,即无停顿语音。Turns 只是一个演讲者,但可能包括停顿。问题回答是直接遵循提示的问题,例如,您是否有过敏症,因此直接回答。然后问题块是对给定问题的总回答。

因此,一旦他们收集了所有数据,他们就提取了不同的特征集。声韵是语音特征。然后,语言欺骗指标是明确指示欺骗行为的不同特征,如笑声、犹豫等。LIWC 特征是语音的不同维度,如形式和标点符号。复杂性研究语音的句法,它有多复杂。总共研究了 152 个特征,三个不同的组。例如,对于声学韵律,这些是音高特征,每个特征都有不同的度量。强度是体积。

也有不同的措施,和语音质量。我们知道人们通过他们的语言向世界展示自己,因此不仅查看语音样本很有用,而且查看内容也很有用。这就是为什么我们使用 LIWC 来识别文本中的不同特征,这些特征是通过转录音频获得的。而这些不同的维度可以让我们对演讲的心理暗示有所了解。

 

THE END

发表评论