论文阅读：Retrieval-Augmented Few-shot Text Classification

凉砧掌 · 2025-6-1 20:42:07

论文链接：Retrieval-Augmented Few-shot Text Classification
论文方法的阐述

对研究问题的理解和描述

检索增强方法通过从训练集或外部知识库中获取相关示例并在它们之前添加原始输入，增强了预训练语言模型处理各种自然语言任务的能力。这些方法提高了许多任务的执行能力，例如机器翻译、对话生成、文本分类和关键短语生成等等。而我们今天的关注重点在文本分类这个任务上，而且是少样本文本分类。
假设我们有一个情感分类任务，目标是判断一段文本是正面情感还是负面情感。在小样本学习场景中，我们只有少量带有情感标签的训练数据。接着，我们需要从训练数据中寻找与输入文本相似的训练样本。OK，如果让你去寻找，你该如何去做呢？我们拿到这个问题的第一反应是哎——“文本相似”，什么是文本相似，根据什么就能判断文本相似呢？其实，这是一个一千个读者一千个哈姆雷特的问题。比如，语句对（“我喜欢昆明”，“我不喜欢昆明”），你觉得这两个语句相似吗？构成正样本对吗？当然，正样本对是对比学习中一个比较重要的概念。
那么，我们就需要一个标准，度量就是用于衡量两个文本或数据点之间相似性或相关性的方法。在检索增强方法中，度量的作用是评估输入文本与检索到的示例之间的相似性，从而决定哪些示例对当前任务最有帮助。有哪些检索方法呢？
1.静态检索。
静态检索使用固定的检索度量，比如TF-IDF（词频—逆文档频率）。它是一种常用的文本表示方法，用于衡量一个词在文档中的重要程度。TF表示一个词在文档中出现的频率，IDF则反映了该词在整个语料库中的稀有程度，TF-IDF值越高，说明该词在文档中越重要。在文本相似度计算中，TF-IDF通常与向量空间模型结合使用，将文本表示为TF-IDF向量的集合，然后通过计算向量之间的相似度来评估文本的相似度。
IF-IDF的缺点其实也蛮多的：
        TF-IDF仅仅基于词频统计不考虑词语之间的语义关系;
       没有考虑词语的顺序，存在这样的句子对，如果用TF-IDF表示是相同的，但语义可能有所不同;
       在长文本中，一些重要的词可能因为文档长度较长而使得其TF-IDF值相对较低，从而影响关键信息的提取。
用原文中的话来说：在检索空间有限的情况下，静态re-trieval可能缺乏具有高指标的邻居。即使存在这样的邻居，静态检索也不能可靠地检索真正有用的目标预测样本，因为它的指标不是特定于任务的。
2.基于联合学习的检索
在训练过程中，模型试图通过最小化交叉熵损失来同时学习检索度量和情感分类器。由于训练数据有限，检索度量的更新会受到弱监督信号的影响，导致梯度消失。这意味着检索度量无法有效学习到如何选择对情感分类最有帮助的样本。结果可能是，模型在训练过程中无法有效优化检索度量，导致检索到的样本对分类任务的帮助有限。
这儿我感觉说的有点抽象和模糊，但是如果从公示的角度去推导一下，那么就很清楚了。

上图是检索器所有参数的平均梯度大于1e-6的步长比例。可以很明显的看到joint Learning也就是联合学习的比例是最低的，也就是作者在摘要中所提到的：作者做了一个初步实验表明，很难通过最小化标准交叉熵损失来优化一个合理的度量，因为最小化交叉熵损失在优化过程中受到弱监督信号和严重的梯度消失问题的影响。
为了克服上述挑战，作者提出了两个新的训练目标，即基于期望最大化的损失（EM-L）和基于排名的损失（R-L），用于学习更有效地从有限的空间中检索示例。这两个目标都致力于消除梯度消失问题，并优先考虑特定下游任务的更有益的示例。我们先不看这两种方法是如何做的，相信你看到这里对这篇文章要做的事情有个大概的了解。接下来，我们看看作者怎么建模的或者说用公式表达这个问题的。
模型构建

所有的检索方法都可以包括示例检索器和文本分类器。

公式（1）表示在给定输入文本x的情况下，检测到例子的概率。这个概率是通过检索器计算得到的。是检索器，通常是一个检索度量函数，用于计算输入文本和训练集中例子之间的相似度。x是输入文本。是检索到的例子的表示。

公式（2）表示在给的那个输入文本x和检索到的例子的情况下，预测类别y的概率。是分类器，通常是一个神经网络。表示将输入文本x和检索到的例子进行拼接操作。softmax将分类器的输出转换为概率分布的函数。

公式（3）表示在给定输入文本x的情况下，这个概率是通过检索到的m个例子的加权平均得到的。表示在给定输入文本x和检索到的例子的情况下，预测类别y的概率。表示在给定输入文本x的情况下，检索到例子的概率。和分别是分类器和检索器的可训练参数。m表示检索到的例子的数量。
标准交叉熵用于优化分类器和示例检索器如下：
1.静态检索
给定输入句子x和检索语料库，静态检索旨在根据固定检索度量搜索一组相关示例Z。根据公式它的检索指标定义如下：
公式定义了一个检索度量，它基于一个固定的相似度函数。这个固定的相似度函数可以是TF-IDF、BM25或者由预训练语言模型编码的语义相似度，这些固定的相似度是没有可训练的参数，因此它们无法适应具体的下游任务，也无法优先选择对任务最有帮助的样本。特别是在小样本学习场景中，这种局限性会被放大，因为训练数据稀缺，固定的相似度量可能无法有效检索到有用的样本。
2.基于联合学习的检索
静态检索假设和x之间的相似性越高，对x的辅助作用越大。然而，这一假设在具有高相似性的输入具有不同的标签任务中不成立，例如情感分类。为了解决这一限制，基于联合学习的检索统一了检索器和下游模型，以针对特定任务联合训练他们。
公式中的分子输入x和检索样本的点积的指数，分母是对所有检索样本的点积指数的求和。这种形式的注意力机制允许模型在训练过程中学习到哪些检索样本对当前任务更有帮助，从而调整它们的概率。
静态检索和基于联合学习的检索方法都是从大规模语料库中检索示例。在本文中，我们主要关注小样本文本分类，并从有限的训练集中检索最有帮助的例子。
方法

1.EM-L

思想：
在EM-L方法中，检索到示例被视为潜在变量，并使用期望步长和极大步长的迭代过程直到收敛。潜变量/隐变量的后验分布被估计来衡量候选实例在E步长中的重要性，而M步长最大化期望对数似然。通过根据后验概率逼近检索度量，对于训练数据有限的下游任务，可以召回更有成效的示例。
实例：
在情感分类任务中，我们希望判断一段文本是正面情感还是负面情感。在小样本学习场景中，我们只有少量带有情感标签的训练数据。为了提高分类器的性能，我们使用EM-L方法，将检索到的样本视为潜在变量，通过EM算法进行优化。假设我们有以下训练数据：正面情感：这部电影的特效很棒。负面情感：这部电影的剧情很无聊。
实例步骤：
首先是训练过程。输入文本：这部电影的特效很棒，模型会尝试检索与输入文本相似的训练样本。由于训练数据有限，可能只能找到少量相似样本。然后根据检索到的样本和输入文本，分类器预测情感。再是EM-L优化过程：
a.E步（期望步）
先估计检索到的样本对分类任务的辅助作用，即计算后验分布。例如，对于输入文本“这部电影的特效很棒”，检索到的样本可能是“这部电影的特效很棒”（正面）和“这部电影的剧情很无聊”（负面）。再计算这两个在分类为正面情感时的后验概率：
假设初始参数下，正面样本的后验概率为0.8，负面样本的后验概率为0.2
b.M步（最大化）
根据E步中计算的后验概率，最大化期望对数似然，更新模型参数。最大化期望对数似然就是最大化在E步中计算得到的后验概率加权下的对数似然函数。这个过程的目的是通过优化期望对数似然来更新模型的参数，从而提高模型的性能。
例如，对于正面情感分类，期望对数似然为：
正面正面通过优化Q，更新分类器和检索器的参数，使得正面样本的权重更大，负面样本的权重更小。
c.迭代
重复E步和M步，直到模型收敛。在每次迭代中，后验概率会根据更新后的参数重新计算，逐步提高分类器的性能。
2.R-L

基于排名的损失（R-L）将检索的过程视为排名任务，通过优化排名损失函数来增强检索度量与分类任务之间的一致性。具体来说，R-L确保对分类任务更有帮助的样本在检索结果中排名更靠前。
上面的公式表示的R-L的优化目标，通过最小化损失函数来实现。其中，表示在给定输入和检索到的样本的情况下，预测标签的概率。表示在给定输入的情况下，检索到样本的概率。、是一个边缘参数，用于控制两个分布之间的距离。n是训练数据的数量，m是检索到的样本数量。
在利用上面损失函数计算对分类器和检索器参数的梯度，模型反向传播会更新参数以最小化损失函数。但是作者并不是直接将这个损失加入到总体损失，而是以一定的权重周期性的添加到总体损失中：
具体来说，每经过t步训练，就将排名损失加入总损失，否则不加入。这种方法的目的是在训练过程中平衡基础损失和排名损失的贡献，从而优化模型的性能。原因在于这种策略通过动态调整两种损失的权重，使得模型在训练过程中能够逐步适应和优化两个目标。基础损失（如交叉熵损失）和排名损失（R-L）优化的目标不完全一致。基础损失主要关注分类任务的准确性，而排名损失则关注检索样本的质量和相关性。如果在训练初期同时优化这两个损失，可能会导致优化冲突，影响模型的收敛速度和稳定性。通过周期性地加入排名损失，模型可以先在基础损失的指导下学习基本的分类能力，再逐步引入排名损失，避免优化冲突。周期性地加入排名损失可以逐步引导模型优化检索器的表现。在训练初期，模型主要关注基础损失，学习如何准确地分类。随着训练的进行，每经过 t 步，排名损失被加入总损失，模型开始逐步学习如何优化检索器，使得检索到的样本对分类任务更有帮助。这种逐步引导的方式有助于模型更好地平衡两个优化目标。
实验

实验结果

1.Experimental Settings

1）Datsets

2）Baselines为了证明从训练集中检索示例的有效性，作者开发了一种无需检索进行比较的基线方法。为了比较不同的检索方法，作者评估了EM-L和R-L与静态检索和基于联合学习的检索。作者将它们与两个广泛使用的文本分类主干相结合：预训练语言模型微调和提示学习。
3）评估指标
a.Accuracy
b.Kendall's ：这个指标被用来度量两个排名之间一致性的统计指标。在论文中，它被用来评估检索到的样本与分类任务之间的相关性。具体来说，Kendall's \{tau}衡量了检索到的样本在检索度量(z_j|x_i)和分类辅助度量之间的排序一致性。

表示检索到的样本在检索度量下的概率。
表示检索到的样本在分类辅助度量下的概率。
sign(.)是符号函数
m是检索到的样本数量
的取值范围是[-1,1]，正值表示正相关，负值表示负相关。
表示训练集中大于0的实例比例，反映了检索到的样本在多大程度上对分类任务有帮助。
2.Main Results

1）在大多数数据集中，检索增强模型优于没有使用检索增强方法的，表明从训练集中检索示例可以增强泛化，即使搜索范围很窄。
2）基于联合学习的检索、EM-L和R-L比静态检索表现更好，甚至静态检索在有些数据集上的表现甚至不如没有加上检索增强方法的模型。作者认为这是因为静态检索获取了一些语义相似度高但不利于下游任务的示例。相比之下，可学习的检索方法，即基于联合学习的检索、EM-L和R-L，更有可能与待定任务的目标保持一致。
3）EM-L和R-L方法比静态检索和基于联合学习的检索更有效地训练检索器。首先，作者提出的EM-L和R-L在不同主干网中实现了更高的准确性，证明了它们在获取有用示例和适应特定下游任务方面的有效性。此外，在平均水平上，R-L优于EM-L，这可能是因为它利用了更直接的排名损失，为示例检索器提供了更重要的信号和更灵活地指导。
4）最后，值得注意的是，EM-L和R-L在大多数据集上显示出比其他方法更小的标准差，我们推测所提出的训练目标通过引入检索记忆和参数来增强泛化的稳定性。

author argue that：在稀缺数据上训练PLM的众多参数容易产生过拟合和不稳定泛化，仅使用训练的参数进行推理通常会导致在看不见的测试数据上表现不佳。而基于检索的方法在各种自然语言处理任务中取得了成功，这要归功于它们对检索到的记忆和参数进行整合以实现更好的泛化能力。

3.Consistency Experiments

Analysis

1.Effects of The Number of Retrieved Examples

首先，所有图表都显示检索示例可以提高小样本文本分类的性能，除了静态检索和基于联合学习的检索在m取特定值时的准确率略低。这可能归因于它们训练过程的不稳定性。其次，大多数方法在m=5或m=10时达到其峰值性能。随着m的继续增加，性能可能会开始下降。我们猜测原因是检索太多的示例增加了训练难度。第三，我们观察到EM-L和R-L在m变化时保持悬念优势和稳定性，这验证了它们更强的监督信号。另一个观察是，基于联合学习的方法落后于LAP上的静态方法。这一发现表明，在某些任务中，训练不佳的可学习指标甚至比静态指标表现出更差的性能。
2.Gradient Updates

在某些数据集上，基于联合学习的检索器的梯度范数仅在大约40%的步骤中超过了1e-6的阈值，而EM-L和R-L在超过60%的步骤中超过了这一阈值。这一观察表明，静态和联合学习-1对应于梯度范数超过1e-6的步骤的零的恒定比例。基于检索的检索为检索器提供了较弱的监督信号，并在小样本文本分类中遭受严重的消失问题，而EM-L和R-L缓解了这些限制。
3.Case Study

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

账号		自动登录	找回密码
密码			立即注册