caffe 深度学习薛开宇笔记实例
基于卷积神经网络 CNN的声音识别
摘 要
目前的音乐检索系统用流派、风格、情感等类别标签检索音乐。其中,如果人工标注
音乐这些类别标签,则存在主动性强、费时费力、速度慢的问题,而如果采用传统的自动
标注方式,则存在准确率低的问题。后者准确率低的原因是,其标注时使用的模型不能
很好识别音乐。随着 Hinton 提出深度学习模型后,因其在图像和语音识别领域均取得很
好的成果,在识别领域成为了研究热点。因此,本文旨在研究如何使用深度学习中的卷
积神经网络(Convolutional Neural Networks,CNN)模型,设计出一个准确度高、速度快
的自动音乐分类系统,用作标注音乐的类别标签。
本文的工作有三部分:
(1)提出一种新的自动音乐分类系统。该系统先将音乐转化成声谱图,后使用卷积
神经网络进行音乐识别分类。本方法在 Caffe 和 Matlab 平台下搭建,在 ipython notebook
平台中作成果展示。
(2)在 Jamendo 网站上收集 10 类共 1000 首音乐,制作成音乐分类数据库。
(3)在 GTZAN 数据库上进行了七种实验,从而找出最适合该系统的参数并验证系
统的有效性。其中,声谱图实验、微调实验是比较重要的原创实验。
最终,通过在以上实验中得出来的较好参数,使用本文设计的基于 CNN 的音乐分类
系统进行测试,在 GTZAN10 类数据库上达到了 90±1%的识别率。
关键词:卷积神经网络 深度学习 音乐流派分类 声谱图 GTZAN 数据库
1
本文的结构
第一章,主要是阐明卷积神经网络理论。先介绍神经网络的原理和概念,其很多知识
与 CNN 有关,再介绍深度学习原理和特点,可对属于深度学习的 CNN 有初步认识。最
后详细介绍 CNN 的结构、算法。
第二章,主要介绍声谱图。本文的创新之处主要是使用了声谱图作为音乐的输入。详
细介绍了音乐的声谱图理论,及其可得到的信息。
第三章,主要介绍本篇论文如何实现基于卷积神经网络的声音数据的识别分类。先介
绍所用框架 Caffe 平台及其搭建。然后从数据输入、数据训练、结
音乐/网络/介绍/系统/深度/分类/声谱图/学习/识别/CNN/
音乐/网络/介绍/系统/深度/分类/声谱图/学习/识别/CNN/
-->