首发于 书剑阁

机器学习领域科技论文-实验设计与写作

(以下为东北大学-专业写作(模式识别与智能系统)-研究生课程第8讲讲义,因为没有找到合适的参考资料,所以只能临时自编,挂一漏万,仅供参考)

实验设计与写作方法(机器学习领域)

目录

一、 实验内容架构

二、 实验的选择与设计

三、 实验分析思路

四、 实验其他要点


一、实验内容架构

模式识别与机器学习领域的实验绝大多数为基于程序与数据的计算结果分析,较少部分涉及到传感器、机器人、芯片、嵌入式系统等硬件设备的测试分析。本文主要针对前者,即基于程序与数据结果对文章提出的模型和算法进行试验比对分析的内容,其常规架构如下:

1. 实验总体描述

一般放在论文实验章节大标题下作为引言部分,总体概述实验部分的设计思想和主要内容,要简短,在会议论文中可以忽略不写。

2. 实验准备

a) 数据库:名称、来源、采集方法、规模与内涵、特点,应尽量选择行业内的benchmark数据库。

b) 对比模型/算法:简单引用相关文献,如后面的实验部分所采用的对比算法差别较大,这部分内容可以放在相应的对比实验环节再介绍。

c) 参数与初始化:对论文模型中提到了概念和定义但没有给出具体数值的参数及变量初始值给出准确的数值描述。

d) 实验环境:传感器、计算平台、网络或云计算资源等软硬件实验条件介绍。

e) 指标:如果采用相对简单或行业内通用指标,这里可以不提,在具体实验数据部分简单提及;如果是比较特殊的、读者不熟悉的或者是文章作者自主设计的评价指标,则在此处给出准确全面的介绍。

3. 实验内容与结果

a) 实验概述:实验设计的目的、实验执行的方法和步骤,在什么数据库上和什么方法用哪些指标进行对比。

b) 条件设置:实验执行所需的条件,这里不是指软硬件条件,而是与方法和算法有关的条件,很多具体实验中对于某些模块、参数和数据处理方法的设置是需要逐一说明的,比如消融实验中对于当前模块或参数之外的其他条件的设置。

c) 指标选择:说明使用了哪种具体的性能评价指标,确保读者了解该指标的具体测量和统计方法。

d) 实验结果展示:图、表、有些论文还可以包括多媒体文件

e) 实验结果分析与结论:论文结果的语言陈述,论文结果的解析,论文方法的优缺点,论文结果支撑了关于本文的哪些假设、判断和结论等。


二、实验设计与选择

机器学习与模式识别领域的实验设计可以有多种分类方法,例如定性实验与定量实验,功能验证实验与性能比较实验,总体实验与分模块实验等等。本文根据目前机器学习领域论文常见的实验设计思路,采用了创新验证实验,方案优化实验、功能性能比较实验三类的分类方案。

1. 创新验证实验

a) 目标:通过实验分析验证论文提出的创新性方法或技巧所产生的作用和效果,一般要能够支撑论文的contribution和motivation。

b) 方案:通常是将论文分解成多个模块或步骤,然后选定一个需要验证的内容,固定其他剩余部分,通过仅概念这个部分的内容来验证论文提出的方法所得到的性能指标优于baseline所采用的方法。一般称为ablation(消融)实验。

c) 例子:在一篇关于改进GAN网络的论文中,作者提出了一种新的网络架构,一个新的损失函数和一种新的minibatch正则化技巧。则在这部分分别涉及了三个消融实验,第一个给出新的网络结构与传统的denseNet/ResNet/VGG的指标对比,第二个给出采用本文的架构后,损失函数分别用本文方法/交叉熵/均方误差的指标对比,第三个给出在使用本文提出的网络结构和损失函数的前提下,采用传统的Batch正则化方法和本文提出的自适应正则化方法的指标对比结果。

2. 方案优化实验

a) 目标:一般用于优化最终方法的有关因素的具体设定,以形成最佳的解决方案。

b) 方案:对构成算法的可调整或可优化的模块进行替换式的比对,不仅仅集中于创新点,而是为整个算法或模型寻找一个完整且优越的解决方案。

c) 例子:深度学习网络backbone的选择、多个模块的组合方式,训练策略对比,参数的选取

3. 功能与性能比较实验

a) 目标:通过实验验证本文方法的有效性和优越性

b) 方案:功能展示,主要采用定性实验或可视化效果,证明本文方法能够实现某种功能;性能比较,主要采用定量实验的指标比对,也可以适当加入一部分可视化效果增强直观印象,证明本文方法对比其他state-of-the-art方法在总体性能上有优越性。

c) 例子:人体姿态关键点检测可以给出多幅复杂多目标场景下的人体关节点结果效果图,然后将关节点检测坐标结果与ground-truth之间的均方误差作为主要性能指标,与多个该领域现有算法进行比对,并分析比对结果。


三、实验分析思路

1. 实验结果的可信度

首先要确保实验结果是可信的,这是后面结果分析的基础。首先论述数据库的定位、特点与可信度,要尽量用有影响力的benchmark数据库,如果一定要涉及到自建的新数据库,务必要全面细致;其次是实验条件设置方面要陈述的周详,包括参数、初始化、实验条件与环境等;最后是实验数据本身要完整、指标选取要合理、对比方法选取要有代表性和先进性。上述内容可以用文字部分加以回顾和强调,以暗示读者论文实验结果是真实、全面且可信的。

2. 实验结果的说明与解析

要引导和帮助读者快速、全面、细致地了解到实验数据的具体内容,避免读者无法有效获取和理解实验结果的数据内容。具体举措包括:1)尽量使用读者熟悉或圈内常用的性能指标和展示方法,如AUC,MAE,ROC曲线、PR曲线,柱状图、饼状图、曲线图、三线表等;2)适当使用色彩标记,比如三线表中每个数据库上n中算法的前三名可以用红色、蓝色和绿色标出;3)对大量实验结果中存在的具有代表性的部分加以强调,包括色彩高亮、圈中、文字强调等;4)对于不太明显或容易遗漏但又比较重要的结果,应单独加以说明,并解释其基本含义。

3. 实验结果对论文工作的验证

实验结果应支撑论文工作尤其是contribution和motivation,因此每一个已经解释清楚的实验结果应最后扣题说明前面提出的某种设想、性能改进或功能增加确实得以实现。在论述中,要注意逻辑严密性,既这个实验结果确实能够推出相应的结论。

4. 基于实验结果得到的结论

基于对实验结果的分析,得到一个支撑本文工作新颖性、有效性和优越性的结论。一般就是一句话,相对简单,但要明显且突出。


四、实验其他要点

1. 对比方法的选择

由于机器学习和模式识别领域近年来发展速度过快,为了确保对比算法的前沿性和先进性,除baseline以外,主要的state-of-the-art对比算法尽量选择3年内的算法,最近一年内的算法不能缺,该领域顶刊顶会论文不能缺,所选择的baseline对应的approach内最新且最具先进性的代表性算法不能缺。

2. Motivation的验证

不能把创新性埋没在整个架构中。如果从实验中无法判断出最终性能的好坏具体是由哪些创新性改动带来的,就会被认为motivation不足。另外实验结果必须要分析,不能只是陈述,如果你只能从数据上看出本文方法的优越性,而无法从原理角度分析出为什么会具有这样的优越性,那么会被认为motivation不可信。

3. 要注意公平性与可信度

在实验设置与数据解读方面要注意公平公正,也包括定性的可视化实验结果的选择问题。比如本文方法在精度性能指标上提升了1个百分点,但代价是计算速度提升了100倍,那么你需要为你的这种性能的平衡与转换找到一个合适的应用场景而不是讳莫如深,只谈精度不谈效率。另外在算法的条件方面,比如图像实例分割问题,你采用RGB-D图像进行实验及性能测试,而某个对比算法其实只用了RGB图像,那么这个结果就不具备公平性。又或者虽然用了同一个数据库,但是你偷偷把所有样本都先用来预训练,然后再使用标准的70%比例进行fine-tune,而在实验中又不提这件事,显然不不诚信的,对于经验生疏的新人来说,这样造出来的数据很容易被评审专家看破。

4. 缺点和限制不能不提

在实验结果论述方面,不能只展示好效果,隐藏坏效果,要分析和论证本文方法的limitation,而不是讳疾忌医,否则容易在comments中被reviewer diss。

发布于 2020-04-21 13:59

文章被以下专栏收录