持续学习和理解违反规范的多场景方法

2024-09-25 20:25来源:本站

  在多智能体社区中,使用规范来指导和协调交互已经引起了极大的关注。然而,随着人们对动态社会技术系统的兴趣转向,新的挑战出现了,在这个系统中,人类和软件代理相互作用,并且需要相互作用来适应不断变化的人类需求。例如,不同的代理(人类或软件)可能对违反规范意味着什么(例如,仇恨言论的特征)有不同的理解,或者他们对规范的理解可能会随着时间的推移而改变(例如,什么构成可接受的响应时间)。挑战是通过学习从有限的交互数据中检测规范违反并解释这些违反的原因来解决这些问题。为此,我们提出了一个结合机器学习(ML)模型和增量学习技术的框架。我们的建议可以解决表格和文本分类场景中的任务。增量学习用于随着交互的展开不断更新基础ML模型,集成学习用于处理交互流的不平衡类分布,预训练语言模型(PLM)用于从文本句子中学习,集成梯度(IG)是可解释性算法。我们在维基百科文章编辑的用例中评估了提议的方法,其中交互围绕着编辑文章,而所讨论的规范是禁止破坏行为。结果表明,该框架可以在数据不平衡和概念漂移的情况下学习检测规范违规。

  持续学习什么构成违反规范的能力,如给定社区所理解的,并检测何时发生这种违反行为,对于任何规范性系统来说都是必不可少的,因为它打算规范其相互作用的代理(在本工作中,称为社区成员)的行为。考虑到歧视、仇恨言论和网络欺凌会对个人造成重大伤害,并对在线平台上的社区体验产生负面影响,这一点尤为重要[38,60,81]。因此,我们的工作旨在解决两个主要挑战。首先,通过使用描述的行为示例(收集为文本句子或形式化为一组特征),不断了解在线社区对违反规范的理解。其次,向社区成员解释他们的行为中与违反规范行为相关的部分。为了做到这一点,我们有兴趣在互动展开时找到并调整规范违反的定义。值得注意的是,不仅在线社区可以从这项研究中受益,因为我们解决的挑战也对检测不当行为可以防止违规行为(例如,信用卡欺诈,个人信息泄露和网络渗透)的领域感兴趣。

  已经提出了一些有趣的方法来检测在线社区中的规范违反,应用于维基百科[8,104],软件工程(SE)社区[22,23],Reddit[19]和其他社区[46,64,106]。然而,这些方法不能持续更新用于将行为分类为违反规范的系统。因此,他们无法处理社区对什么构成这种侵犯的看法的演变。这一特征在我们的工作中是至关重要的,因为我们认为对违反规范的理解是动态的,例如,随着新成员的加入和互动的展开,被认为是仇恨言论的内容可能会迅速改变。例如,随着越来越多的非洲裔美国人加入这个社区,并开始用这个词互相致敬,“黑鬼”这个词可能会被不同地看待。在这种情况下,用于管理这些交互的规范系统必须适应当前社区的观点。我们通过提出一个框架来解决这个问题,该框架将在线社区的交互处理为具有不平衡类别分布和概念漂移存在的行动流。换句话说,包含更多与常规行为相关的元素的行为流,而不是违反行为,聚集在一起,改变了社区成员如何理解违反规范的行为。因此,与现有的方法不同,我们的框架通过将社区成员的反馈作为基础事实来处理在线社区中违反规范的动态本质,以不断适应随着时间的推移,违反规范行为的意义的变化。

  此外,规范和规范系统领域的先前工作已经解决了该领域出现的不同挑战,提出了一系列关于规范冲突检测[4,32]、规范合成[67,71]和规范出现[58,68,88]机制的建议。此外,一些领域也受益于这一领域,将规范和规范系统的概念应用于机器学习(ML)模型预防歧视[25],合同和法律的形式化[36,82],以及处理伦理困境和道德价值观[5,91]。在这项工作中,我们对支持规范系统的机制特别感兴趣,这些系统可以从交互和代理的反馈(人类或人工)中学习,以帮助决定什么是违反规范的行为。在在线社区中,互动是由社区成员所执行的影响整个社区的行为来定义的。例如,考虑编辑维基百科的文章。在这个场景中,交互是由一些成员执行的文章编辑和其他成员随后阅读的文章。

  表1强调了不同的场景,其中在线交互的形式化可能因违规检测任务的类型而异。具体来说,虽然有些任务只需要一组特性来描述一个操作,但由于领域的复杂性,其他任务必须在原始操作输入发生时处理它。因此,我们感兴趣的是构建一个用于多场景设置的框架,即表格和基于文本的域,因为它们涵盖了各种用例(包括检测维基百科文章编辑中的违规行为)。例如,欺诈发现和不当行为检测将行为形式化为一组功能,如用户参与和用户-用户交互。而识别欺骗写作风格可能需要将输入映射到基于语言的特征。这些任务通常受益于与表相关的方法。然而,在仇恨言论检测、处理假新闻在社交媒体上的传播以及对抗性攻击等领域,需要直接处理自然语言句子的解决方案。

  表1从处理特征和/或文本数据集的解决方案中受益的任务示例

  全尺寸工作台

  图1

  figure 1

  我们的多场景方法的概念框架。在集合中,N表示分类器的个数

  为了创建我们的解决方案,我们在一个框架中研究增量学习,该框架可以学习违反规范的含义,适应社区观点的变化,并在学习过程中纳入社区成员的反馈。我们在图1中描述了框架组件之间的关系。具体来说,这种方法在我们的上下文中提供了以下优点。首先,它使用顺序到达的数据块不断更新基本分类器(第2.2节)。这在我们的框架中体现了适应社区观点变化的能力(概念漂移),仅使用最近的数据来了解违反规范的含义,并放弃处理和维护过去信息的需要。其次,它有助于将社区成员的反馈作为违反规范的基本事实。这与我们的观点一致,即系统对违反规范的理解需要适应它的用户(在我们的例子中是社区成员)。

  此外,我们的框架将前馈神经网络(fnn)与增量学习方法集成在一起,以处理表格任务上下文中的类分布不平衡(第2.1节)。这在学习违反规范的行为时特别有用,因为这种行为通常比常规行为发生的频率要低。对于与文本相关的场景,我们的方法结合了预训练语言模型(PLMs)[47](第2.3节)。与fnn相比,plm不需要分类器的集合。相反,它们可以通过编码语言结构(由于它们的大小)和对大多数类进行欠采样来处理不平衡的数据集。此外,为了学习特定的分类任务,PLMs只微调分类头,分类头集成在模型的预训练层之上。

  除了检测违反规范之外,部署的系统还必须提供有关决策背后原因的信息。因此,我们研究可解释性,以获得关于ML模型内部工作原理的解释。在这里,我们感兴趣的是理解文本句子中通常与违反规范有关的单词。由于我们使用plm来解决这些任务,我们的框架采用集成梯度(IG)算法[97]来解释我们基于变压器的模型的行为(第2.4节)。IG提供了与违反规范相关的词汇,使我们的框架能够解决两个问题。首先,它使我们能够坚持负责任的AI原则[10],因为我们增强了人们对我们模型的理解。其次,它为我们未来的论证过程做好了准备,因为解释步骤提供的信息有助于用户审议和协作地就违反规范的定义达成一致。脚注2

  实验(第4节)描述了训练基础分类器的两种增量学习技术的实现:小批量学习和在线学习。在这项工作中,fnn是表格任务集合中的模型。同时,我们通过比较两个plm(蒸馏器和RoBERTa)来评估文本场景。用例是编辑维基百科文章。在这种情况下,我们通过将行为(文章编辑)形式化为社区提供的一组特征(例如,亵渎词的数量,字母数字字符的出现等[34])或直接处理文本句子输入来检测规范违反。违规的一个例子是“大嘴唇,毛膜,自私的肮脏的黑鬼经常排便”。结果表明,所提出的方法可以在班级分布不平衡(只有约7%的数据对应违反规范的编辑)和存在概念漂移(社区视图的变化)的在线社区中学习违反规范的含义。为了形式化文章编辑,我们定义了元组(X, y),其中X是一个动作的特征集,是它的类标签,0表示常规行为,而1表示违反规范的行为。

  本研究扩展了我们之前的工作[33],通过(1)采用一种机制来处理以文本句子表达的违规行为;(2)通过识别不同类别的违规行为学习多标签任务;(3)了解通常与违反规范有关的词语,具体确定其与不同违反规范案件的相关性;(4)比较两个plm,分析它们在这种情况下的学习能力,以及它们的架构如何影响对违规行为的理解。

  本文的剩余部分分为以下几个部分。第2节介绍了我们提出的框架所使用的基本机制,如第3节所述。第4节展示了它在维基百科文章编辑用例中的应用,第5节讨论了结果。第6节介绍了相关文献,第7节给出了我们的结论并提出了我们未来的工作。

  本节介绍了构建这项工作的基本概念。首先,在处理表格任务时,我们首先提出一种集成策略来处理数据集的不平衡性。其次,我们描述了用于连续训练本工作中考虑的ML模型的增量学习方法。第三,我们引入了预训练语言模型(PLM)的概念,它负责将动作处理为自然语言句子。最后,我们描述了可解释性及其在理解PLMs分类输出中的应用。

  处理违规行为的检测通常会导致数据集不平衡的情况。这是因为正常(或预期)的行为比违规更常见。因此,在这些设置中处理域的解决方案必须具备处理类分布不平衡的能力。否则,解决方案往往偏向于描述常规行为的类(大多数类)。为了解决这个问题,我们使用集成学习,它可以被定义为生成和组合不同的ML模型(例如,神经网络,随机森林和逻辑回归)来解决预测任务[83]。该技术的主要思想是,通过使用投票方案组合多个ML模型,单个模型的错误将由其他模型补偿。因此,整体性能优于单个组件的性能[29]。

  可以使用不同的集成方法来构建分类系统。Dong等人[29]强调了一些重要的方法,如Bagging、AdaBoost和Random Forest。Bagging是一种有趣的方法来处理本工作中研究的不平衡数据集的挑战。该技术通过在初始数据集的不同子集中训练不同的基分类器来找到解决方案。然后,集成使用多数投票来决定最终输出。例如,在具有不平衡数据集D的二元表格分类任务中,可以将D分为两个子集,多数类子集M和少数类子集P(这些集合中的实例数量分别由和表示)。在这种情况下,主要目标是训练具有n个平衡数据集的集成E。每个都是具有相似类分布的数据集,和。通过这种方式,由于In的实例数量小于In的实例数量,因此B中的子集具有大小,并且由来自M的非重叠实例创建,而P的所有实例被复制到每个子集。

  如上所述,装袋方法可以用于离线或以小批量方式训练ML模型。然而,这种方法不能在在线环境中使用(在这种环境中,训练一次只发生一个实例)。为了解决这个问题,必须修改装袋程序。因此,Wang等人[102]提出了一种重采样策略来处理在线情况下的不平衡数据集。该策略考虑了两种方法,基于过采样的在线学习(WEOB1)和基于欠采样的在线学习(WEOB2),并随时间增加了权重调整。WEOB1和WEOB2通过从这些子集中重新采样实例来调整学习偏差从M到P。具体来说,过采样增加了少数实例的数量,而欠采样减少了多数实例的数量。与传统的bagging策略一样,在线bagging创建了不同的分类器,并通过只考虑当前数据点来训练它们k次。K是由分布定义的。当数据可用时,根据不平衡比动态计算参数。以这种方式,如果P中有一个新的实例,那么k增加。然而,如果M中有一个新的实例,那么k减小。

  由于我们正在处理在线社区,我们必须考虑如何提供数据。通常,系统必须处理顺序到达的数据流。在这种情况下,有不同的方法来构建能够解决问题的框架。技术的不同之处在于它们如何处理数据流,以及如何训练算法。按照这个想法,我们可以把训练技术分成两大类:离线学习和增量学习。

  离线学习处理完整的数据集;在这种情况下,不可能更新训练好的模型。为了整合新知识,从头开始的整个训练过程是必要的[40],当我们必须处理非平稳域时,这是这种方法的主要缺点。此外,维护和处理这种学习的所有数据可能是昂贵和复杂的(特别是考虑到不同实体和立法者指定的数据法规)[50]。

  另一方面,增量学习是一种通过使用可用的新数据不断更新ML模型来解决离线学习局限性的技术。这种方法在在线社区中特别有用,因为模型必须随着人们的互动和理解的变化而不断更新。在这项工作中,我们关注的是小批量和在线学习。小批量学习创建并使用连续到达的小数据集来训练机器学习模型。由于我们只处理构成固定大小的当前数据块的最新实例,因此该过程既不像离线学习那样昂贵也不像离线学习那样复杂[50,54]。在线学习可以看作是mini-batch学习的一个特例,其中batch的大小为1。因此,一旦数据可用,就可以更新ML模型,放弃存储该数据点的需要,从而避免数据处理的复杂性。在稳定性方面,强调mini-batch相对于在线学习的一个优势是很重要的。由于在在线学习中,训练过程在每个时间步只考虑一个数据点,因此与mini-batch算法相比,实现这一概念的算法通常具有最差的稳定性[54](在第5节中我们也演示了这一现象)。

  增量学习方法,包括随着新数据的出现而不断更新基本模型,对于调查涉及概念漂移的问题很有用,例如,社区成员对什么是常规行为和违反行为的看法的变化。通过观察随时间的联合分布可以识别社区行为的变化[56,101],其中为特征值,为表示规则或违反规范行为的相关类标签,t为当前时间戳。然后,为了比较时间上的两个时刻并检测可能的概念漂移,我们参考以下内容:,其中u是过去的时间戳。gamma等人[35]定义了三种对概念漂移进行分类的方法:类p(y)的先验概率变化,影响违规行为与规则行为之间的比例;类条件概率的变化,影响违规和规则行为的定义;这对类的后验概率有影响,这是社区理解为违规和常规行为的变化。后者导致了真正的概念漂移,这是我们在这项工作中感兴趣的定义。

  我们的建议的第一部分侧重于解决表格分类问题。然而,我们的目标是通过整合解决文本分类场景中的任务的能力,将框架的范围扩大到一个更通用的解决方案。文献中提出了从自然语言句子中学习模式的不同方法,从使用TF-IDF[44,109]和递归神经网络(RNN)[89]的概率分类器到本研究中使用的基于变压器的模型。

  最近,变压器模型已经成为解决自然语言处理(NLP)任务的主要方法,超越了以前的方法,并在各个领域持续实现最高性能[47,61,99]。转换器的优点之一是它能够通过减少特征化步骤所需的工作量来处理文本数据[78]。图2展示了变压器层架构和所包含的进步,例如添加注意机制和使用全连接的FNN层[105],以并行方式组装以提高计算性能。

  图2

  figure 2

  变压器层,由Vaswani等人提出。[99]

  多头注意机制使变形模型能够通过计算注意分数来学习文本序列中不同单词之间的关系。考虑“维基百科对社会很重要,因为它是一个相关的信息来源”这句话。该机制迭代计算句子中所有单词之间的注意力得分,从而获得它们之间的依赖关系[99]。在这个特定的例子中,“Wikipedia”和“it”表现出很高的关注得分,因为它们是相关的,并且代表了相同的概念。与此同时,“社会”和“it”这两个词的关注度得分很低。此外,注意机制为句子添加了语境[99],使模型能够区分单词的含义,例如“银行”是金融机构,“银行”是河流的概念。为了利用这种机制,基于变压器的模型采用多头策略,并行计算多个注意头。在这里,单词被编码为向量空间中的嵌入(输入嵌入),并与位置编码相结合,位置编码插入有关单词在句子中的位置的信息,并允许模型处理远程文本[99]。方程式1形式化了如何计算注意力。

  (1)

  Q, K和V是矩阵,表示句子中的每个单词,是点积。这些矩阵接收相同的输入,只有通过大规模数据集训练获得的学习权值不同。作为比例因子,对Q和k的转置之间的感兴趣维度[99]进行编码,最后将softmax值与V结合,得到最终的注意力得分。

  为了提高训练效率,变压器将中间子层(多头注意和前馈)的输出归一化[12,107]。它通过计算子层输出的分布统计(均值和标准差),将规范化的值转发到下一步来实现这一点。公式2形式化了这个过程。

  (2)

  G和b分别为增益和偏置参数。它们与前一层的输出具有相同的维度,并且是在训练过程中迭代学习的动态术语(大规模数据集)。是标准差和均值。X是前一层的输出。

  由于变压器采用点向网络,因此注意层的每个归一化节点都通过FNN转发。在这一步,变压器应用两个线性变换,使用ReLU (Eq. 3)激活函数[99]。为了形式化完整的步骤,我们给出了公式4。

  (3) (4)

  ReLU (Eq. 3)执行一个非线性操作,旨在计算前一个NN层(z)给出的最终值。在Eq. 4中,x表示注意层的输出,表示第一次线性变换的权重,第二次线性变换的权重。偏置项是否都加到两个步骤中。

  上述架构是构建预训练语言模型(PLM)的基本模块,PLM是用于解决复杂NLP任务的大型深度神经网络(DNN)。为了创建PLM,需要堆叠多个变压器层,并在大规模数据集上进行初始训练[105]。不同的实现产生最先进的结果,例如BERT[47],它有大约1.1亿个可训练的参数,RoBERTa[55],大约1.25亿个可训练的参数,而DistilBERT[86], 6600万个可训练的参数。由于我们正在处理大型dnn,因此不可能从头开始训练这些模型来处理每个任务。因此,plm利用微调范式来适应特定的任务[31]。

  微调过程需要使用以前训练过的实现,并在其上加入一个新的FNN层,称为分类头。在这里,我们对违规行为设置下的文本分类任务感兴趣,即给定文本作为输入,模型预测文本是否违反社区规范。在此场景中,转换器层用于语言表示。这些层可以应用于任何领域,因为它们是在大规模数据集中训练的。另一方面,分类头负责输出。因此,考虑到给定的领域数据集和社区需求,例如输出节点(二元或多标签任务)的数量以及用于训练的实例数量,它仅针对手头的任务进行显式训练。

  具体地说,我们的工作探讨了两种不同的plm。第一个是RoBERTa,建立在BERT之上,通过改变架构设计和在更大的数据集上进行训练来改进其实现,从而在不同的NLP任务中获得更好的性能[55]。第二个是蒸馏器,它也是建立在BERT之上的,但它的目标是创建一个更小、更快、更便宜的模型[86]。第5.2节给出了RoBERTa和DistilBERT应用于维基百科条目编辑中的仇恨言论检测的结果。

  与我们的表格场景不同,与文本相关的任务不需要特性化过程(将文本句子编码为一组属性)。相反,可以直接操作文本[10,26,72,79]。在这种情况下,我们结合了集成梯度(IG)算法[97]来理解文本句子中与模型输出最相关的部分。IG使我们的框架能够通过调试和从DNN中提取规则来深入了解基于变压器的模型的内部工作原理[97]。

  理解我们模型的内部机制对于人与模型输出的有效交互至关重要,这有两个主要原因。首先,告知社区成员违反规范是我们解决方案的重要组成部分,允许人们考虑他们的行为与违反行为相关的因素。其次,我们与负责任的人工智能[10]的目标保持一致,特别是关于ML模型决策过程的透明度。

  文献通常侧重于两种可解释性技术来解释ML模型是如何工作的。首先是局部可解释性,它涉及识别与特定操作相关的对模型输出有贡献的单词(或特征)。其次是全局可解释性,提供对模型内部工作的更广泛的理解。我们在这里关注本地可解释性方法,因为在我们工作的这一步,向社区成员提供有关特定文本违规的信息是主要目标。为了实现这一点,IG通过模型的反向传递来计算单词的贡献,将其相关性从输出传播到输入[57]。该算法的中心假设是梯度值最高的标记对分类输出的影响最大。

  根据[57,97]的形式化,考虑一个NLP任务,设x为由一组令牌和由零嵌入向量表示的基线输入组成的句子。是令牌i的梯度,M是基于变压器的模型。理论上,为了获得积分梯度,IG考虑一条从基线到输入x的直线路径,计算路径上所有点的梯度[97]。因此,积分梯度来自于这些单个点的累积。公式5形式化了积分计算。

  (5)

  然而,为了有效地计算积分梯度,IG采用黎曼和方法(Eq. 6)进行近似,该方法定义了沿直线路径的一组有限点(m)。为计算出的关联分数,m为经验选取。[97]中的实验表明沿路径大约有20-300个点。

  (6)

  最后,在我们的用例中,在获得原始文本句子中存在的每个标记的相关性评分后,我们遵循两个步骤的过程。首先,我们向社区成员(执行一个操作)传达模型输出的原因。第5.2.3节和“附录2”展示了如何显示这些信息。其次,我们准备了我们的框架,以便在未来的论证过程中为其他社区成员提供可解释性数据,重点讨论违反规范背后的原因,并收集不断发展的社区观点。随后,我们使用此步骤中的反馈来更新训练过的模型,因为我们设想社区成员不断定义违反规范的含义。

  相关的内容

  摘要

  1 介绍

  2 背景

  3.多场景增量学习f

  ramework

  4 实验

  5 结果与讨论

  6 文献综述

  7 有限公司

  结论及未来工作

  笔记

  参考文献

  致谢

  作者信息

  道德声明

  附录

  相关的内容

  搜索

  导航

  #####

  图3

  figure 3

  我们的解决方案将在其中实现的过程

  在本节中,我们提出了我们的工作建议,一个能够通过表格任务的集成和增量学习的组合来学习违反规范的含义的框架,以及文本任务的plm的使用。其主要思想是在规范系统中部署该框架,以支持规范的实现,特别是在考虑被禁止的行为时。

  图3概述了部署框架的工作流程。第一步,第0步,涉及机器学习模型的持续训练,包括分类器和PLM的集成。该框架首先使用数据块进行训练,在完成第一个数据块后,模型准备检测规范违规。随后,系统开始监控社区中执行的每一个新动作(步骤1)。在步骤2中,系统可以将该动作映射到社区定义的一组特征,或者直接处理文本输入。在后一种场景中,可能会执行文本处理步骤,例如纠正单词、处理语法错误和删除非字母数字字符。步骤3给出了系统可能执行的两条不同路径。如果检测到该操作违反了规范(条件1),系统必须执行一系列步骤,以确保不将该违反转发给整个社区。这些步骤包括:(1)拒绝操作(即不执行操作);(2)告知用户违规行为并予以屏蔽;(3)提供违规检测的原因,包括与违规行为相关的具体特征或词语,允许社区反馈和我们系统的纠正机会。然后可以使用社区反馈来持续训练基础模型(第0步)。

  相反,如果执行的操作未被检测为违反规范(条件2),则将该操作转发给社区。在这种情况下,由于我们的模型可能存在不正确的分类,社区成员仍然可以提供反馈。此外,反馈还包含了新的社区观点,通过持续的模型训练(步骤0)来更新对规范违规的理解。

  以下部分将深入研究实现我们的解决方案的不同方法,脚注3特别考虑了规范违反检测中的一些挑战。例如,违反规范通常会导致使用不平衡的数据集,因为有害行为不会像正常(或预期)行为那样经常发生。因此,在构建解决这种情况下学习的解决方案时,有必要采用一种能够处理班级分布不平衡的方法。在这项研究中,我们研究了在表格场景中使用集成机器学习来解决这个问题,同时我们研究了文本相关任务的欠采样和过采样。我们还应用了两种方法来持续更新基础ML模型:mini-batch和online learning。尽管我们使用小批量方法来微调plm,但由于这些模型的大小,在线学习是不可行的。因此,我们的框架只考虑文本分类任务的小批量学习。

  随着数据的顺序提供,算法开始构建固定大小为n的数据块。当一个数据块包含n个数据点时,算法就准备开始ML分类器的训练过程。本工作中探索的小批量方法(算法1)建立在两种增量集成算法之上,即精度更新集成(AUE2)[17]和动态更新集成(DUE)[54]。我们的方法所带来的差异是:(1)结合反馈来强调被社区改变了类标签的数据点;(2)使用基于复制的过采样技术,随机复制当前数据块中存在的少数类实例,而不是使用创建合成少数类样本的SMOTE[21]过采样技术。此外,我们定义了一个新的度量(分类器的数量)来定义少数实例的过采样比率(算法1,第6行)。

  figure a

  小批量培训程序。

  在我们的例子中,多数类M代表期望行为,而少数类P代表违反规范的行为。由于我们将动作定义为一组特征,因此我们用元组(X, y)表示一个数据点,其中X是动作的特征集,是它的类标号。因此,数据块定义为,其中n为数据块大小。数据预处理后,算法首先计算集与当前数据块之间的不平衡比(算法1,第5行)。此外,set和set用于计算集合中分类器的数量(算法1,第6行)。

  为了更详细地说明算法1是如何工作的,使用一个示例会很有趣。我们设最初的,和不平衡比。然后,一段时间后,在时间步长上记录到概念漂移,其变化为0.03和12。接下来,如果,算法通过复制所有少数派实例(算法1,第8行)来进行过采样设置,这提示更新最佳集成大小(第9行)。然后,算法检查不平衡比率是否因第11行中某些预定义的因子d而改变(值得一提的是,社区成员可能会为该值决定一个适当的数字),计算集成中包含的新分类器的数量(第12行)。之后,算法结合社区反馈(第15行)来呈现训练过程中社区观点变化的相关数据。然后,从数据块中创建平衡数据集。每个平衡数据集B包含来自的非重叠数据点、来自的所有数据点和来自的所有反馈数据点(第18行)。接下来,该算法使用平衡数据集对每个ML基本分类器执行训练过程(第20行)。最后,丢弃当前数据块,并增加t。

  figure b

  在线培训程序。

  算法2描述了以在线方式训练分类器集合的过程,该过程建立在Wang等人[102]和Montiel等人[65]描述的概念之上。第一步是创建分类器E的集合(算法2,第1行)。E中基本分类器的数量可以由社区、专家知识或通过初始实验来定义。对于可用的每个数据点(即在线社区中的每个操作),算法使用运行的统计值进行预处理。我们对平均值和平方和感兴趣,因为它们是用来标准化输入数据点的。

  与小批量方法不同,训练过程在在线学习中只要有一个可用的数据点就会执行。然而,这个特性导致了预处理阶段计算统计值的不同方法。在这种情况下,算法必须计算运行统计值,在每个时间步更新,并且不如使用数据块计算的值精确[65]。该算法使用以下公式来计算这些值:

  (7)

  其中,为描述动作的每个特征在t时刻更新的运行平均值,为最后一次运行平均值,为新特征值,为直到当前时间t为止遇到的数据点数。有了运行平均值,就可以计算运行平方和:

  (8)

  由于不可能知道在线训练中完整数据集的数据分布,因此决定在交互发生时将哪些部分数据用于训练是基本的。为了解决这个问题,算法通过计算不平衡比率r的变化来检查概念漂移(算法2,第7行)。如果差异大于定义的阈值,则更新期望的分布m,这可以强调少数类实例。

  更新m之后,算法计算绘制泊松分布随机值的速率(算法2,第11行)。该值决定采样策略(过采样或欠采样)。对于每个分类器,算法使用泊松分布来确定复制一个数据点进行训练的次数[102](第13行)。因此,失衡比例越大,少数数据点用于训练的次数就越多。虽然我们使用了[102]中的工作来计算重采样率,但未来的工作将研究应用替代策略来计算该值的效果[30]。

  最后,假设数据点收到来自社区的反馈(用第16行表示)。在这种情况下,算法进行过采样以强调所提供的信息,并训练集成中的所有分类器(算法2,第18行)。实证实验表明,过采样比其他方法提出的加权方案具有更高的召回性能。

  前面,我们研究了处理涉及表格数据的二进制分类任务的两种算法。本节扩展了我们的框架,包括用于二进制和多标签场景的文本分类任务。这种能力使我们的框架能够适应在线社区不同的数据结构需求。由于我们主要关注的是plm(章节2.3),由于模型的大小,在线学习方法是不可行的,这会影响网络权重的更新和完成微调过程所需的时间。

  与算法1一样,文本任务的mini-batch(算法3)构建数据块以连续更新模型参数。然而,这些方法之间的一个关键区别是,算法3可以通过对大多数类进行欠采样来更有效地处理不平衡的数据集,而不需要创建分类器的集合。为了实现这一目标,算法3利用了PLMs的架构,它可以根据之前的训练学习文本的表示,并结合分类头来解决特定的任务[47,55,86]。

  figure c

  plm的小批量微调程序。

  plm的微调过程从预处理可用的文本数据开始。手头的分类任务规定了此过程的必要步骤。例如,在检测仇恨言论的情况下,删除非字母数字字符可能是有益的,因为我们的模型只考虑句子中的术语来确定违规。因此,这些字符在此上下文中可能不相关。另一个必要的步骤是纠正通常用来绕过自动检测工具的单词。例如,在社区成员表现出种族主义的情况下,他们可能会使用其他术语来指代非裔美国人,例如“nigga”,“n1gga”和“nigger”。另一方面,为了检测一个句子是否违反了预期的写作风格,删除这些字符对模型的性能是有害的。因此,有必要实现特定于任务的预处理,以确保我们的框架的有效性。当我们的社区包含小型数据集,或者交互发生在低资源语言中时,这一点变得尤为重要。

  在预处理阶段之后,算法3计算不平衡比率(第3行),以确定是否需要欠采样(第4行)。然后,算法考虑多数和少数实例数量之间的既定差异(第5行),应用欠采样。下一步(第7行)是根据指定的epoch数量对数据块进行PLM微调。PLM的主要优点之一是我们可以简单地执行微调过程。因此,完整的训练过程比算法1和2更直接,因为它需要更少的步骤来部署PLM到一个新的任务域。

  最后,在第8行,当我们更新PLM时,可以通过计算基于局部解释的全局相关性评分来理解通常与违规相关的术语。单词的全局相关分数()是所有局部相关分数的总和,使用集成梯度计算。在Eq. 9中,k是单词i在数据集中出现的次数,是计算出的单词i出现的相关性分数,它对类1的贡献,表示违反行为。框架必须只将第二个参数更改为0,以获得常规类的相关分数。

  (9)

  除了识别违规(算法3)外,我们提出的框架还可以对存在的特定违规类别进行分类。值得注意的是,单个操作可能包含多个违规类。因此,该框架必须具备处理多标签任务的能力。

  figure d

  多标签plm的小批量微调程序。

  对于社区定义的每个违规类(算法4,第2行),算法检索属于该类的实例数,并将其与每个违规类必须具有的固定最小实例数(c)进行比较(第4行)。假设数据块不包含最小类实例数v。在这种情况下,算法通过复制属于v的所有实例进行过采样,并使用它们进行微调。这一步至关重要,因为我们试图在不同的违规行为之间保持平衡的数据分布。如果没有这一步,模型将倾向于倾向于具有大量实例的类,这可能会妨碍其准确识别低表示类中的违规行为的能力。这种方法的一个限制是我们不处理新的违规类的出现。在这种情况下,我们有一个带有输出节点的PLM,其中每个输出节点代表一个违规类。未来的工作将调查新的违规类别的出现以及将其纳入plm。

  第9行使用Eq. 10获得全局相关性得分。全局相关性评分()是根据本地解释计算的。计算单词i相对于类v的局部相关分数,k是i在数据集中出现的次数,u表示i的特定实例。计算使社区成员能够理解与每个违规类通常相关的单词。这是特别相关的,因为一个单词可能在一个类别中具有相对较低的相关性分数,而在另一个类别中具有较高的相关性分数。

  (10)

  本节描述我们如何将增量学习方法应用到维基百科文章编辑的用例中。在这里,我们考虑两种场景(表格任务和文本任务)中的维基百科数据,因为我们设想在不同的分类上下文中部署我们的框架。这个用例是相关的,因为维基百科是一个开放和协作的社区,有维护和组织其内容的规范[76],包括要求使用适当的写作风格,避免删除内容,避免编辑战,不参与仇恨言论。鉴于个人互动和为维基百科做出贡献的不同背景,可能会出现对什么是违反规范的误解。在这项研究中,我们关注的是对仇恨言论规范的违反,因为这是在线互动中一种复杂且特别有害的违规行为。脚注4在这种情况下,违反规范被称为“破坏公物”。

  这项工作探索了一个由两部分组成的数据集。首先,维基百科使用Amazon Mechanical Turk (MTurk)对条目编辑进行分类[2],并没有提供关于违规性质的进一步信息。其次,我们进一步用违规类标注每个违规实例,重点关注仇恨言论违规。为了执行此注释,我们首先考虑来自MTurk过程的标签(违规或常规)。然后,我们为带有向个人或团体传达攻击信息的违规编辑指定额外的仇恨言论类。通常,这些攻击集中在人的特征上,如种族、性取向和社会阶层[73]。表2给出了Wikipedia中此类行为的示例。Freitas dos Santos等人[34]为该任务提供了详细的分类,包括表格场景中特征及其动作表示之间关系的信息。此外,在此步骤中,我们手动纠正拼写错误的侮辱性单词(基于已识别的违规类别)。

  表2维基百科社区中被归类为违反规范(vandalism)的句子示例以及仇恨言论的具体类别

  在维基百科的数据集中,我们识别出六种不同类型的仇恨言论。单个编辑可以包含一个或多个此类的元素。因此,我们构建框架来解决多标签分类任务。我们只解决了文本句子的多标签分类任务,因为表格数据中存在的特征没有编码相关信息,无法将违规行为分类为特定的仇恨言论类别。下面,我们列出了这些类的详细列表:

  脏话——它描述的是包含脏话的编辑;

  侮辱和残疾主义——它认为编辑侮辱一般人,特别是残疾人[16];

  性骚扰——包含性暗示和性骚扰的编辑[15];

  种族主义——针对不同种族的人的歧视[48];

  LGBTQIA+攻击-基于性取向和/或性别认同的人的侮辱[39];

  厌女症——针对女性的攻击[37]。

  为了评估我们的方法的性能,我们针对不同的任务场景设计了特定的实验。首先,考虑到社区只有表格数据可用的领域,我们将实验分为两个阶段:

  在没有概念漂移的情况下学习违反规范的含义:在这种情况下,目标是评估所提出的算法是否可以学习违反规范的含义。该数据集包含32.439次编辑,其中2.394次故意破坏编辑(约7%)和30.045次常规编辑(约93%)。数据集高度不平衡。我们使用10倍交叉验证来评估性能。分类召回率是所选择的度量。

  通过概念漂移学习违反规范的含义:在这种情况下,目的是评估所提出的算法是否可以在存在概念漂移的情况下学习违反规范的含义。为了做到这一点,我们首先将完整的数据集D分成两个子集,I和F。I包含用于初始训练集成的数据,其中有1.197个破坏编辑和15.022个常规编辑,F包含包含概念漂移的数据,其中有1.197个破坏编辑和15.023个常规编辑。这种分离是必要的,因为我们的目标是展示算法增量适应新概念的能力。因此,我们首先用子集I来训练算法。只有当算法处理I中的所有数据点时,我们才开始从不断变化的数据集f中学习。在这个实验中,我们特别感兴趣的是通过改变被标记为破坏的编辑(交换类标签)来添加概念漂移。由于我们没有来自社区成员的真实反馈,我们通过更改数据集来模拟它,如下所示:仅使用破坏子集,我们应用K-Means聚类算法来生成包含彼此之间最相似的数据点的子组[49]。由此得到4个子群G={0: 618, 1: 442, 2: 117, 3: 20}。让这些组具有相似的数据点的想法是为了满足反馈是一致的假设,因为我们将类似的编辑分组。因此,我们对结果的解释自然来自于这种一致性。对于这个实验,我们从所有数据点交换类标签。然后,类分布发生变化,导致15.641个常规编辑和579个破坏编辑。因此,不平衡的比例也发生了变化。

  我们使用Keras库[24]构建集成。前馈神经网络(FNN)是基础分类器。为了比较迷你批处理和在线学习,两种情况下的FNN架构是相同的。随机梯度下降(SGD)是优化器,其学习率为0.01,损失函数为交叉熵。实验在2.6GHz、16GB RAM的Intel酷睿i7-9750处理器上进行。

  有必要为学习算法设置特定的参数。在mini-batch学习中,batch的大小为512,epoch的个数为200。在在线学习中,初始集合大小设置为12,每个类标签(regular和vandalism)的期望分布为50%,采样率等于1,分布变化为30%。这些值是根据经验发现的(类似于超参数搜索),可能会影响分类器的性能。

  与上面的实验不同,我们并没有研究第二种情况的概念漂移。然而,我们在这里包括一个多标签分类任务:

  学习违反规范(仇恨言论)的含义-二元任务:在这个实验中,我们的目标是评估我们的框架在文本分类任务中处理违反规范的能力。这一步类似于表格分类场景的第一个实验。不同的是,我们对仇恨言论特别感兴趣。因此,我们的数据集包含30.684次编辑,其中639次仇恨言论编辑(约2%)和30.045次常规编辑(约98%)。数据集高度不平衡。我们使用2x5倍交叉验证实验,这是必要的,因为文本数据集的大小。分类召回率是所选择的度量。

  学习仇恨言论类-多标签任务:在这里,我们的目标是评估我们的框架检测特定仇恨言论类的性能。除了违规/常规编辑的数据不平衡外,仇恨言论类也不平衡。某些违例类比其他违例类发生得更频繁。总的来说,违规数据集由3647%(233)性骚扰编辑,33.18%(212)侮辱和残疾主义,19.72%(126)咒骂,17.06% (109)LGBTQIA+攻击,8.76%(56)厌女症和5.01%(32)种族主义组成,总共639条违规编辑。为了保证验证过程的每一阶段保持数据分布,我们使用[90]中的算法在多标签数据集上应用分层步骤。本实验也采用2x5倍交叉验证。每个类的分类召回率是所选的度量。

  为了解决与文本相关的任务,我们的框架采用了plm(章节2.3)。具体来说,我们采用了RoBERTa和DistilBERT,遵循了hug Face的实现[105],二进制分类任务的批处理大小为1024,多层分类任务的批处理大小为256。Adam为优化算法,焦点交叉熵为损失函数。学习率是。

  为了优化plm的性能,我们实现了额外的参数。具体来说,我们将最大输入长度设置为64个字,并对超过这个长度的编辑应用填充。我们的这个决定是基于我们数据集中的大多数实例落在这个范围内的观察,这允许我们节省计算资源并加速微调过程。必须强调的是,如果在其他社区需要,我们的框架使用的plm可以容纳最多512个单词的文本句子。

  在我们的框架中,我们的目标不仅是将任务分类为违反规范的行为,而且还向社区成员提供此类输出的原因。我们的目标是通过利用他们的相互理解来整合不同的社区成员。为了实现这一点,我们使用集成梯度(IG)来获得有助于违规分类的相关单词。这些词然后呈现给用户,如第5节和“附录2”所示。此外,通过提供对这些信息的访问,其他社区成员可以讨论我们框架的内部工作,支持未来的协议流程,在该流程中,社区必须协作决定某个行为是否确实是违规行为。

  二元情况下的解释结果显示了哪些词对文本的违规或非违规(规则文本)分类贡献最大。编辑中的每个单词都可以与违规分类相关,与常规分类相关或中性。相反,多标签情况允许每个单词与0、1或更多类相关。例如,一个单词可能会导致编辑分类为种族主义和包含脏话。由于我们对理解违反规范的含义感兴趣,实验只关注这些情况的可解释性数据。因此,我们考虑639个编辑(完整的违规数据集)的可解释性。最后,我们使用变形金刚解释库进行实验。脚注7

  考虑到维基百科文章编辑的上下文,本节介绍了使用FNN集合来解决与表格相关的任务和使用plm来解决与文本相关的任务的结果。在这个领域,社区将违反规范的行为定义为“破坏行为”。此外,我们在二进制和多标签设置中显示有助于plm输出的编辑词。

  5.1.1 实验1-Noncept漂移

  图4和表3描述了应用于第一个实验(无概念漂移)时算法的总体召回得分。两种方法的学习曲线是相似的,Wilcoxon Signed-Rank检验(表5)证明了这种相似性。零假设没有被拒绝。因此,mini-batch和在线学习在整体记忆方面没有统计学上的显著差异。虽然在这种情况下相似,但在显式处理破坏实例时,算法有所不同。表4展示了mini-batch学习如何更快,完成训练过程所需的时间更少,因为它对一批数据执行计算,而不是对每个数据点单独重复此过程。

  结合表3的数据和图5的学习曲线,我们可以推断小批算法在对破坏编辑进行正确分类方面优于在线算法。此外,在线情况下的不稳定性受到训练方法(因为它一次只考虑一个点)和使用的重采样策略的影响[54,102,103]。

  图4

  figure 4

  整体召回的小批量和在线案件没有概念漂移

  图5

  figure 5

  小批量和在线案件的故意破坏召回,没有概念漂移

  表3小批量和0在线学习结果应用于表格维基百科文章编辑数据集

  表4总结了小批量与0的训练时间对比在线学习

  表5总结了小批量和0的召回性能比较在线学习

  5.1.2 实验2 - co的存在ncept漂移

  第二个实验的结果如图6和表3所示,揭示了涉及概念漂移的场景的总体回忆。在训练的大部分时间(直到大约12000个处理实例),mini-batch的性能要好得多。原因是概念漂移的引入导致在线学习算法的变异和不稳定性更高,导致性能提升速度较慢,需要处理额外的数据点来稳定学习过程。然而,在训练过程接近尾声时,两种方法的总体性能相似,没有显著差异(表5)。

  由于我们使用的是一个不平衡的数据集,比较整体和破坏案件的结果是必要的,因为不这样做可能会导致误导性的结论。在这种情况下,在线学习方法优先考虑大多数类的分类,从而通过提高总体价值来高估性能。图7给出了专门用于破坏分类的学习曲线,其中mini-batch的性能明显优于在线方法(表5)。与其他情况一样,在线学习更不稳定,随着我们引入概念漂移,性能会显著下降。

  图8显示了专门针对类标签交换的数据的召回(我们将其称为表3中的Re-label数据集)。当我们合并模拟反馈时,由于引入新信息,框架的性能下降。然而,随着更多的数据变得可用,框架逐渐训练ML模型,集成通过学习特定的文章编辑不应再被归类为破坏行为来适应新的社区观点。从表5可以看出,在线学习算法在这种情况下的表现明显更好(但是仍然表现出不稳定性)。由于我们通过将分类标签从破坏行为更改为正常行为来增加不平衡比率,因此对多数类的偏见影响了在线算法的性能。

  图6

  figure 6

  在存在概念漂移的情况下,对Mini-Batch和在线案例进行全面召回

  图7

  figure 7

  在概念漂移的情况下,小批量和在线案件的故意破坏召回

  图8

  figure 8

  重新标签召回的小批量和在线情况下,破坏编辑重新标记为常规编辑

  综上所述,表3给出了每种方法在考虑的数据集中的性能信息,表4给出了训练过程所需的时间,表明mini-batch学习比在线学习更有效。表5描述了Wilcoxon Signed-Rank检验的结果,它比较了提出的方法的性能。零假设是样本来自同一分布,临界值=0.05。结果表明,小批量方法更适合对破坏编辑进行分类,性能稳定,适应概念漂移快。相比之下,在线方法呈现出对大多数类别的偏见,因此,在我们的概念漂移案例中,对变化数据的偏见。此外,这种方法在分类破坏编辑时性能显著下降。在这里,我们注意到需要进一步调查和探索不同的不平衡策略结合社区反馈对算法性能的影响,因为在线方法可以学习新概念,但以少数班级的性能为代价。

  最后,可以得出结论,这两种方法都适合于在表格场景的在线社区环境中学习违反规范的含义。Mini-batch提供了更高的稳定性、更好的破坏检测性能和更快的训练速度,因为它需要处理更少的实例来解决任务。另一方面,在线学习提供了在数据可用时立即更新模型的灵活性,无需在保持可接受的分类性能的同时维护和创建数据块。因此,方法的选择必须考虑社区的需求。

  在这里,我们展示了应用RoBERTa和蒸馏器来检测维基百科文章编辑中的破坏行为的相关结果。此外,我们还给出了二元和多标签分类任务的可解释性结果。

  5.2.1 实验1二元分类

  图9显示了描述RoBERTa和DistilBERT在应用于破坏行为分类任务时的召回分数(详见表6)的图。根据表8中的Wilcoxon Signed-Rank检验,结果显示两种模型之间没有显著差异。但值得注意的是,RoBERTa呈现出较高的标准差,这可能是由于数据集规模较小,模型中可训练参数较多(125 M)。这种行为突出了数据的表示(2x5文件夹交叉验证的不同运行)如何影响微调过程和RoBERTa的性能。相比之下,蒸馏器(它有大约66 M个可训练参数)在不同的实验执行中表现出更稳定的性能,处理不太复杂的语言模型架构,这对我们的小数据集设置特别有用。

  图10和表6显示了微调RoBERTa和DistilBERT所需的时间。我们可以看到模型之间的显著差异,蒸馏酒需要更少的时间来完成微调过程。Wilcoxon Signed-Rank检验证明了这种优势,其p值为0.0019,表明在水平上存在统计学显著差异。与上面分析的绩效案例一样,plm的大小也会影响培训时间。蒸馏酒更小,参数更少。因此,完成整个过程所需的时间更少。结果的标准差反映了可用于微调这些模型的有限计算资源。

  图9

  figure 9

  RoBERTa和DistilBert的破坏行为召回

  图10

  figure 10

  对RoBERTa和DistilBERT进行分类的培训时间。二进制的任务

  表6 RoBERTa和DistilBERT应用于维基百科文章编辑数据集二元任务的性能结果总结

  5.2.2 实验2 -破坏行为的多标签分类

  本节介绍了应用于多标签分类任务的RoBERTa和DistilBERT的评估。我们的目标是根据维基百科中仇恨言论的六个类别来对破坏行为进行分类,例如:咒骂、侮辱和残疾主义、性骚扰、种族主义、LGBTQIA+攻击和厌女症。在调查的用例中,仇恨内容可以同时攻击不同的个人和团体。例如,在一个句子中,一个社区成员可以基于一个人的种族和性取向说出侮辱。因此,我们建议的框架必须能够识别这些违规何时同时发生。

  图11显示了我们用例上下文中每个类的召回分数(详见表7),其中只涉及处理破坏行为数据。由于每个类由少量编辑组成,我们的方法在2x5倍交叉验证实验中显示出更高的召回分数变化。关于性能值,两个plm的学习曲线是相似的,由Wilcoxon Signed-Rank测试证明(表8)。唯一显著的区别是厌女类,其中RoBERTa优于DistilBERT。该类只出现在8.76%的违规实例中,并且在两个模型中表现出最低的性能分数,特别是对于蒸馏器。为了解决这个问题,未来的工作应侧重于跨社区学习,通过利用来自不同社区的数据的微调过程来提高模型的性能。

  最后,图12显示了多标签任务所需的训练时间。与二元情况类似,蒸馏器模型具有明显更快的微调过程,正如Wilcoxon Signed-Rank检验(p值为0.0019(低于临界值))所证明的那样。我们使用256个批次的破坏编辑的多标签,在三个时代训练。在较小的尺度上,也可以观察到与训练时间内的扩散有关的相同行为,正如在二元情况下所看到的那样。

  表7在多标签情况下,RoBERTa和DistilBERT应用于维基百科文章编辑数据集的性能结果总结

  表8总结了RoBERTa和DistilBERT召回性能的比较

  图11

  figure 11

  回想一下违规类别的得分:咒骂、侮辱和残疾歧视、性骚扰、种族主义、LGBTQIA+攻击和厌女症

  图12

  figure 12

  RoBERTa和DistilBERT对违规类别进行分类的培训时间。多标记任务

  5.2.3 可解释性-二进制和多标签的情况

  这个实验研究了编辑的哪些单词会影响plm的输出。为此,我们提供三种不同的信息。一个描述了一个特定的故意破坏编辑的相关单词,如图13和14所示。我们的框架使用集成梯度(IG)算法计算相关值(第2.4节)。第二种描述了通常与特定(Swear)违规类相关的单词的摘要,以及它们在我们完整的训练数据集中的频率,如图15和16所示。脚注8最后,图17和18给出了通常与破坏行为相关的词语的总结。分数的总和考虑使用IG计算的局部相关性。有了这个,我们的目标是在我们的领域对仇恨言论的含义给出一个总体的看法。脚注9

  为了描述本地解释,我们分别分析了图13和图14中的蒸馏器和RoBERTa。这里考虑的故意破坏类是Swear。脚注10对于本地解释,绿色阴影越强,突出显示的单词的相关性得分越高。另一方面,红色越深,突出显示的单词对降低故意破坏信心的影响越显著(分类为非swear)。

  一个关键的方面是,某些词的相关性可能因模型而异。让我们看看图13和图14中的“人”这个词。对于RoBERTa来说,这与模型的分类有关。然而,对于蒸馏酒来说,这个词并不重要,因为它包含一个中立的分数。这种差异主要有两个原因。首先,RoBERTa优先考虑的是性能准确性,而DistilBERT的目标是更小、更快、更便宜。因此,它们的体系结构不同,单个单词对分类结果的影响也不同。其次,它们采用不同的标记化过程和词汇表,影响每个PLM对输入层中的单词进行编码的方式。例如,在蒸馏器的标记化过程中,单词“nerd”被分成两个“ne”和“rd”。相比之下,RoBERTa的标记化处理完整的单词而不做任何修改。这种差异对于我们的仇恨言论用例尤其重要,因为这些plm最初并没有映射与此行为相关的大多数术语。

  除了当地的解释,描述与特定仇恨言论类相关的单词总结也很有趣。如前所述,每个编辑可能包含多个破坏类(人们可能表达对不同团体或个人的仇恨)。因此,有必要了解与每个仇恨言论类相关的单词。图15和图16显示了Swear类中相关度得分最高的术语。在前20个相关词汇中,蒸馏器和罗伯塔有6个不一致。此外,一些相关单词与我们对Swear类的理解不一致,如“307”和“s”。识别这些词显示了结合可解释性的另一个好处。有了这些信息,社区成员就有了一个可视化工具,可以识别模型何时遵循错误的逻辑,因为它考虑了与他们的理解不一致的有影响力的单词。

  我们解释的最后一部分在图17和图18中。这些图表总结了通常与二元分类任务中的破坏行为相关的单词。正如一般仇恨言论所预期的那样,社区数据集中的词语是侮辱性的,与网络欺凌有关。这两个模型都认为类似的词与检测破坏行为有关。然而,他们对其中六项的评估存在分歧。这种分数上的差异(更高或更低)并不一定表明缺乏相关性。相反,它反映了plm内部机制的差异(不同数量的变压器层和嵌入)。例如,在蒸馏器中,相关性得分最高的单词是“gay”,而RoBERTa给出的得分最高的单词是“fuck”。这些发现突出了这两个plm是如何解决这个任务的。

  图13

  figure 13

  考虑到多标签情况下蒸馏酒模型的特定编辑的局部解释。考虑的标签是SWEAR。使用积分梯度计算相关分数(第2.4节)

  图14

  figure 14

  在多标签情况下考虑RoBERTa模型的特定编辑的局部解释。考虑的标签是SWEAR。使用集成梯度计算相关性评分(第2.4节)。

  图15

  figure 15

  在多标签情况下,考虑到蒸馏器模型的前20个单词的全局关联得分总和。考虑的标签是Swear。此外,我们还给出了一个词在用于训练的数据集中出现的频率。使用IG计算相关性评分(第2.4节)

  图16

  figure 16

  在多标签情况下,考虑RoBERTa模型的前20个单词的全局关联分数总和。考虑的标签是Swear。此外,我们还给出了一个词在用于训练的数据集中出现的频率。使用IG计算相关性评分(第2.4节)

  图17

  figure 17

  考虑到蒸馏器模型,前20个单词的全局关联得分总和。此外,我们还给出了一个词在用于训练的数据集中出现的频率。使用集成梯度计算相关性评分(第2.4节)。

  图18

  figure 18

  考虑到RoBERTa模型,前20个单词的全球相关性得分总和。此外,我们还给出了一个词在用于训练的数据集中出现的频率。使用集成梯度计算相关性评分(第2.4节)。

  下载原文档:https://link.springer.com/content/pdf/10.1007/s10458-023-09619-4.pdf

度享网声明:未经许可,不得转载。