小样本学习的核心问题是 经验风险最小化 是不可靠的。

什么是小样本学习

Machine Learning : A computer program is said to learn from experience E with respect to some classes of task T and performance measure P, if its performance can improve with E on T measured by P.

Few-Shot Learning (FSL) : A type of machine learning problems (specified by E,T and P), where E contains only a limited number of examples with supervised information for the target T.

​ 概括为 机器学习就是从数据中学习,从而使任务的表现越来越好。小样本学习是具有有限监督数据的机器学习。类似的,其他的机器学习定义也都是在机器学习定义的基础上加上不同的限制条件衍生出来。例如, 弱监督学习 是强调在不完整、不准确、有噪声、数据少的数据上学习, 半监督学习 是强调在少量标注数据和大量非标注数据上学习, 迁移学习 是把充足数据上学习的知识迁移到数据匮乏的任务上。

小样本学习的方法有哪些?

​ 如果把小样本学习比作一个黑盒子,给这个黑盒子喂少量的数据,凭什么能让它表现的好呢》显然我们需要外力来帮助,这个外力就是先验知识。

​ 小样本学习的先验知识来自三方面: 数据、模型、算法 ,小样本学习的研究都是从这三方面着手。因此,小样本学习方法大致可分为基于数据增强的方法、基于模型改进的方法、基于算法优化的方法。

基于数据增强的方法

主要思路就是数据增强,通俗地讲就是扩充样本。想到数据增强,我们通常会想到平移、裁剪、翻转、加噪声等操作,但这些操作方法可能在特定数据集上表现得很好,不具有普适性。而且设计这些操作需要对所处理领域具有足够的了解。小样本学习所使用的数据增强方法主要有三个思路:

  • 小样本数据集 :可以训练一个transformer学习样本之间的变化,然后使用该transformer对小样本数据集进行扩充;
  • 小样本数据集+弱标记数据集: 可以训练transformer从弱标记数据集中“挑选”样本来扩充小样本数据集;
  • 小样本数据集+相似的数据集: 训练一个GAN网络,通过学习给小样本数据集加上扰动来生成新样本。
  • 数据的三种来源

    基于对数据的方法比较容易理解,但是存在的问题是:很多工作都不具备普适性,难以迁移到别的数据集。

    基于模型改进的方法

    每个模型经过迭代都会得到近似解,而当样本有限时,在假设空间搜索解就变得困难。这类方法为了缩小假设空间。

    多任务学习(Multitask Learning): 这种模型可以处理多个任务,因此也具备了模型的普适性和一般性。在处理多个任务时,模型的参数可以是共享的,也可以是关联的;

    改善元学习参数: 元学习(meta-learning)是当下很火的一个研究方向,他的思想是学习如何学习。他的结构一般由一个底层模型和一个顶层模型组成,底层模型是model的主体,顶层模型是meta-learner。更新参数时,他除了要更新底层model,还要更新mata参数。

    改善策略大致有三类:

    1> 结合不同特定任务模型参数来对新任务的参数进行初始化;

    2> 对模型不确定性建模,以备后续提升;

    3> 改进参数调整流程

    学习优化器: 如下图所示,optimizer每次都会迭代更新上一次的模型参数,现在通过小样本数据集中每个迭代的更新值,从而应用在新的测试数据上。

    小样本学习是机器学习领域未来很有前景的一个发展方向,他要解决的问题很有挑战性、也很有意义。小样本学习中最重要的一点就是先验知识的利用,如果我们妥善解决好先验知识的利益,能够做到更好的迁移性,想必就离通用AI不远了。

    references

    (7条消息) 小样本学习概述_DwD-的博客-CSDN博客_小样本学习

    Y. Wang, J. Kwok, L. M. Ni and Q. Yao, "Generalizing from a few examples: A survey on few-shot learning", arXiv:1904.05046 , 2019