变分推断 贝叶斯神经网络有什么论文可以推荐阅读吗?

我现在处于本科阶段,对这方面挺感兴趣的,想以后进行相关方面的研究。 希望大家能推荐一下这方面的论文。比如变分推断的整个发展过程从meanfild 到 …
关注者
343
被浏览
105,411
登录后你可以
不限量看优质回答 私信答主深度交流 精彩内容一键收藏

主要从贝叶斯神经网络方面说一下吧,正好自己做过一些。。。

变分推断法是解决贝叶斯神经网络的一种方法,也可以使用拉普拉斯近似或马尔科夫链蒙特卡罗法解决,相关内容可参考我之前的回答(如何才能看得懂变分贝叶斯方法(Variational Bayesian)? - 魔王梦蝶的回答 - 知乎 zhihu.com/question/2099 )以及文章

Bishop 的经典教材 PRML 就详细讲述了如何用拉普拉斯近似解决贝叶斯神经网络的过程,但是现在变分法的使用则更加广泛。关于贝叶斯神经网络的经典文章,精选了部分推荐如下:

基础篇

[1] R. M. Neal, Bayesian learning for neural networks . Springer Science & Business Media, 2012, vol. 118.

这本书很完整的讲了如何将贝叶斯方法应用到神经网络。如果题主想要深入研究该方向,最好抽时间读读这本书。

[2] D. J. MacKay, “ A practical bayesian framework for backpropagation networks , ” Neural computation, 1992.

使用贝叶斯模型量化描述前馈网络中的映射,backpropagation 和贝叶斯神经网络的经典文章。

[3] C. M. Bishop, “Pattern recognition,” Machine learning, vol. 128, 2006.

机器学习模式识别的经典教材,在第五章讲了贝叶斯神经网络的拉普拉斯近似法,后面第十章则主要讲变分推断。

[4] A. Graves, “ Practical variational inference for neural networks ,” in NIPS.

使用变分法解决贝叶斯神经网络的经典之作,过程都给出了详细推导,一定得看。

[5] C. Blundell et al., “ Weight uncertainty in neural network ,” in ICML.

从引入参数不确定性的角度讲了变分法在贝叶斯神经网络的解决过程,给了很多实现细节,如假设参数服从高斯分布等,并在一些数据集上做了验证,很有价值的一篇文章。

[6] D. P. Kingma et al., “ Auto-encoding variational bayes ,” stat, 2014.

很多回答都推荐过了,不同于前面直接用近似分布逼近后验概率,这边文章是通过变分下限推导的,这是变分推断的正常思路,后面也详细阐述了变分法的梯度下降以及重参数化等过程。

[7] D. Barber and C. M. Bishop, “Ensemble learning in bayesian neural networks,” Nato ASI Series F Computer and Systems Sciences, 1998.

从比较直观地角度解释了贝叶斯神经网络的效用,是 [5] 的理论基础,在参数上增加不确定性,贝叶斯神经网络本质上就是用很多不同的网络在测试集上集成(或平均),从而提高泛化能力。

[8] Y. Gal and Z. Ghahramani, " Dropout as a bayesian approximation: Representing model uncertainty in deep learning ,” in ICML, 2016.

将 dropout 看做贝叶斯近似,基于贝叶斯框架从数学的角度解释了 dropout。

[9] Vincent Fortuin. Priors in Bayesian Deep Learning: A Review

比较新的一篇从先验的角度强调贝叶斯学习的文章,概述了针对(深度)高斯过程、变分自编码器、贝叶斯神经网络的不同先验。


再推荐一些使用贝叶斯神经网络的实际应用的文章,基本都是用的变分法,希望能有些帮助。

应用篇

CV (CNN):

[1] Yarin Gal,Zoubin Ghahramani. Bayesian Convolutional Neural Networks with Bernoulli Approximate Variational Inference .

[2] Kumar Shridhar,Felix Laumann,Marcus Liwicki. A Comprehensive guide to Bayesian Convolutional Neural Network with Variational Inference .

NLP (LSTM-RNN, Transformer)

[3] C. Yuan and J. Hoffmann, “ Bl t: Exact bayesian inference with distribution transformers.”

[4] J. Yu et al., “ Comparative study of parametric and representation uncertainty modeling for recurrent neural network language models ,” in Interspeech, 2019.

[5] B. Xue et al., “ Bayesian transformer language models for speech recognition ,” in ICASSP, 2021.

ASR (TDNN):

[6] S. Hu et al., “ Bayesian learning of lf-mmi trained time delay neural networks for speech recognition ,” TASLP, 2021.

[7] X. Xie et al., “ Bayesian learning for deep neural network adaptation ,” TASLP, 2021.

Probabilistic Programming:

[8] D. Tran et al., “ Bayesian layers: A module for neural network uncertainty ,” in NIPS, 2018.