米兰大学发布论文与猫咪叫声数据集，分类喵喵叫_猫叫声情感识别 ...

收集二十一只猫，在三种状态的喵喵叫

猫，一直以来都是最受欢迎和喜爱的家庭宠物之一，通过对它们的行为、各类研究加强对猫的全面了解。

研究团队展开的这项研究，希望能够找出猫在几个常见环境下的叫声是否存在共性和规律，能通过机器学习的方式，找到这些规律，以了解猫的行为意图或心理活动。

他们选择了 10 只缅因猫和 11 只英国短毛猫两个品种共二十一只猫，仔细记录下它们的性别、绝育情况。

喵喵叫数据集

发布机构：米兰大学计算机系

包含数量：440 段音频

数据格式：wav

数据大小：20 MB

下载地址

数据集收录了它们三种环境状态下的叫声，分别是：被抚摸时、陌生环境、喂食前，并严格保证每只猫在三种环境中的各种变量。

比如在收录猫咪在陌生环境中的叫声前，会让主人陪伴猫咪在环境中共处至少 30 分钟，以免激发它们的情绪波动。在保证猫咪情绪稳定后，主人离开当前环境，收录猫咪独处的十分钟里的叫声。

在数据收集过程中，还需要尽量减少房屋、家具装饰等对收音的影响，团队还测试了各种收音设备，包括宠物穿戴设备，确保收音质量。

在这里插入图片描述
基于声音文件，研究团队提取了两组声学参数，即梅尔频率倒谱系数（MFCC）和时序特征。用这些参数使用基于有向无环图等分类方案，将问题空间进行分类。

研究团队共使用了五种分类方案：DAG-HMM（有向无环图-隐式马尔科夫）、class-specific HMMs, universal HMM 、SVM 支持向量机和ESN 回声状态网络（Echo State Network ）五种分类方法。
在这里插入图片描述

实验结果发现 DAG-HMM（有向无环图-隐式马尔科夫）的识别效果最佳。DAG-HMM 对三种状态的分类识别效果，如下：在这里插入图片描述

结果显示 GAG-HMM 方法对三种状态的猫叫声，都有着很高的识别率。尤其对于等待喂食状态下的声音，有着 100% 的准确识别率。

这一研究结果让团队大受鼓舞，实验证明了猫叫声是可以被有效分类的。他们计划下一步的研究将尝试结合猫咪的身体动作，建立分析模型，继续分析猫咪的情绪特征。\

读论文，下载数据集，就能理解猫？

阅读论文
 数据集下载
数据集详情
我们在年初的一篇文章《铲屎官福音：汪星人和喵星人的小情绪，AI 可以识别了》介绍过目前市面上一些识别宠物情绪的技术和产品。也提及，动物的表达体系十分复杂，声音只是其语言的一部分，绝大多数动物还会依靠肢体动作、气味甚至生物激素，进行彼此之间的交流。

所以，要想搞懂它们的情绪，人工智能的确有办法。但是我们建议主人在养育过程中，多多用心关注小主子的表现与反应，更能体会到它们真实的情绪和需求噢~
在这里插入图片描述

37类宠物 数据集 ，每个数据类大约有100张图像，由牛津大学的Visual Geometry Group创建。图像在比例，姿势和照明方面有很大的差异。所有图像均具有相关的品种，头部ROI和像素级三图分割的地面真相注释。这个 数据集 对于那些对语义分割，对象定位和对象检测不熟悉的人很有用，因为该数据的格式非常好。任何人都可以使用此 数据集 进行语义分割，对象定位和对象检测。集成卷积神经网络的自动动物声音分类该存储库提供了工作的源代码“基于Ensemble-CNN的动物自动监视的声音分类 ”，该文件目前正在审核中。我们提出的方法使用Ensemble-ResNet152模型在ESC-动物声音 数据集 [1]和在Animal-10声音 数据集 [2]上均达到94.8％的平均准确度。源代码已根据许可获得许可。该存储库的内容根据许可发布。下载 数据集 图像和我们训练有素的模型（159 MB）（621 MB）由于 数据集 的大小和模型权重，它们不在Github存储库中。 数据集 和预训练的权重必须分别在存储库的根目录下下载到名为“数据”和“预训练”的目录中。 数据集 包括从ESC-动物声音 数据集 [1]转换而来的三种频谱图。另外，将 数据集 分为5组以进行k倍交叉验证。关于预训练权重，使用单个ResNet152在我们的增强ESC-动物 数据集 上对其进行训练。超强人工智能究竟能否实现？ ----关于人工智能的哲学思考原文链接：http://fancyerii.github.io/2019/03/14/philosophy/#%E8%87%AA%E7%94%B1%E6%84%8F%E5%BF%97free-will 阅读提示: 这是一篇长文,全文约5万7千字；为了便于可选择的阅读，转发时特意加了目录标签，少量排版问题可参照原文。本文讨论人工智能是否可以实现这个哲学问题。本文是《 深度学习 理论与实战：提高篇》的一章，更多内容请点击 深度学习 理论与实战：提高篇。基于CNN的狗叫，猫叫语音分类最近开始北漂的实习生活，第一家实习单位还是挺不错的。说句题外话，北京的生活没有想象中的那么恐怖，没有想象中的那么累，反而挺有人情味的。公司里的主要业务是做“声纹识别”的，现在项目组好像主要分为传统的机器学习以及 深度学习 两个模块在做。刚接触到是一个唤醒的智能AI产品，为了尽快的熟悉这一模块的知识，所以找了个练手的项目。这个分类很简单，... cat有164个WAV文件，对应1323秒的音频狗有113 WAV文件对应598秒的音频你可以在这里有一个Wav的可视化描述:可视化woofs & meows🐱。在访问 数据集 2中，我们提出了可以使用的训练/测试分割。所有WAV文件包含16KHz音频和可变长度。 数据集 下载链接序列顺序的特征提取，对于一维卷积来说，是通过长的卷积核和池化层对序列的缩放实现的。动物识别 数据集 ，动物分类 数据集 ，动物 数据集 ，动物分类识别，animal dataset,动物识别 数据集 +动物分类识别训练代码 Pytorch 支持 googlenet, resnet, inception_v3, mobilenet_v2 视觉和声音是人类固有的感觉输入。我们的大脑是可以迅速进化我们的能力来处理视觉和听觉信号的，一些系统甚至在出生前就对刺激做出反应。另一方面，语言技能是学习得来的。他们需要几个月或几年的时间来掌握。许多人天生就具有视力和听力的天赋，但是我们所有人都必须有意训练我们的大脑去理解和使用语言。在过去五年中， 深度学习 模式的突破最终预示着期待已久的图像和语音分析的革命。进展的困难与从相应类型的数据中提取有意义特征的困难直接相关。机器学习模型需要语义上有意义的特征进行语义意义的预测。在文本分析中，特别是对于英语这样的语 深度学习 (DL, Deep Learning)是机器学习(ML, Machine Learning)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能(AI, Artificial Intelligence)。 深度学习 是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。神经网络的云集成模式还不是很成熟，应该有发展潜力，但神经网络有自己的硬伤，不知道能够达到怎样的效果，所以决策支持系统中并不是很热门，但是神经网络无视过程的优点也是无可替代的，云网络如果能够对神经网络提供一个互补的辅助决策以控制误差的话，也许就能使神经网络成熟起来1人工神经网络产生的背景自古以来，关于人类智能本源的奥秘，一直吸引着无数哲学家和自然科学家的研究热情。Jenkins等人研究光学神经网络，建立了光学二维并行互连与电子学混合的光学神经网络，它能避免网络陷入局部最小值，并最后可达到或接近最理想的解；..