广东工业大学,揣摸机学院,广东 广州
收稿日历:2020年11月23日;委派日历:2020年12月16日;发布日历:2020年12月23日
纲要
针对音乐资源过于普遍,现有的音乐推选圭表分类准确度不高,对用户情谊的识别较糊涂导致东说念主们在生涯中难以寻找到偏好音乐的问题,本文淡薄一种将短长期顾虑神经鸠集(Long Short-Term Memory, LSTM)与把稳力机制(Attention Model, AM)相交融的音乐分类及推选圭表,该圭表由音乐分类模子和音乐推选模子两部分组成。领先对音频数据的声学特征进行拿获,组成含有多维特征的序列后,通过LSTM神经鸠集和把稳力机制对音乐进行情谊分类,接下来鸠集用户的历史收听纪录,登第最近的十首歌曲并生成频谱图,结合CNN (Convolutional Neural Networks, CNN)对用户现时情谊进行识别,训导推选的高效性。实际部分将新淡薄的模子与其他传统音乐分类模子进行多组对比测试,末端泄露与比年来现有的模子比较,新淡薄的模子显著训导了情谊判断及用户情谊识别的准确度,音乐推选的准确度有所增强。
要道词
音乐推选,音乐分类,短长期顾虑鸠集,把稳力机制,卷积神经鸠集
Music Classification and Recommendation Method Combining LSTM and AM
Pengyu Feng, Pinghua Chen, Jianfang Shen
School of Computer Science and Technology, Guangdong University of Technology, Guangzhou Guangdong
Received: Nov. 23rd, 2020; accepted: Dec. 16th, 2020; published: Dec. 23rd, 2020
ABSTRACT
In view of the huge amount of music resources, the existing music recommendation methods have low classification accuracy, fuzzy recognition of user emotions, and low concentration of target data analysis, which makes it difficult to satisfy people’s preference for music in daily life. Due to demand and other issues, a music classification and recommendation method combining Long Short-Term Memory and Attention Model is proposed. The method consists of a music classification model and a music classification model. The recommended model consists of two parts. First to capture audio data of various acoustic characteristics, constitute a sequence containing multidimensional characteristics, through the LSTM Neural network classification of music emotion and attention mechanism; the next, gathering user history to record, select its most recent ten songs and generate the spectrum diagram, combined with CNN (Convolutional Neural Networks, CNN) to accurately identify the user’s current emotion, recommend the efficiency of ascension. The experimental part compares the new model with other traditional music classification models, and the results show that compared with the existing models in recent years, the new model significantly improves the accuracy of emotion judgment and user emotion recognition, and the accuracy of music recommendation is enhanced to some extent.
Keywords:Music Recommendation, Music Classification, LSTM, AM, CNN
Copyright © 2020 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
1. 序论
跟着迁徙时刻的不休发展,音乐自媒体的高速发展使得稠密的音乐网站齐存在大齐的用户。现在听音乐依然成为东说念主们在最猛进度上在碎屑化时分中寻求削弱的一种有用圭表,难以找到我方宠爱的音乐无疑会缩短音乐库的使用遵循,体验感不高,影响用户友好度 [1]。在这些普遍的音乐库中,如何快速搜索到用户在最近一段时安分神仪的音乐并提高音乐库的使用遵循,训导用户体验是现在大热的计议标的。贫困的音乐信息甚而音乐的分类准确度不高,对用户情谊判别的及时性较差。对于这个问题,本文选用语音讯号的音频特征以及用户收听的历史纪录四肢依据,来对音乐进行情谊分类以及推选。
就现在的计议近况而言,音频特征和用户的音乐领略存在巨大的语义范畴,推选后果不好 [2]。传统音乐推选圭表,举例基于文本标注的推选算法 [3],需要大齐的东说念主工标注,存在耗时长且低效的问题。为此Huang等结合了卷积神经鸠集(Convolutional Neural Networks, CNN)和把稳力机制,对音乐中情谊抒发较显著的部分完了了高亮 [4];Mirsamadi等交融了把稳力机制与轮回神经鸠集(Recurrent Neural Network, RNN),集结索要了一些与情谊相干联的短时帧级声学特征来自动识别言语者的情谊 [5];Picza KJ将简便的卷积神经鸠集结构用于Log梅尔频谱图来分类处分声息 [6];Zhang等交融卷积鸠集层结构与搀杂样本生成的新样本磨练鸠集,极大的训导了频谱识别模子的后果 [7]。
近期跟着深度学习时刻的不休创新,将短长期顾虑鸠集LSTM应用于音乐信息检索(Music Information Retrieval, MIR)取得了巨大的得手 [8]。同期也回顾出基于原始声学信号理解对情谊识别问题进行特征索要的两种圭表:一是从原始音频文献中捕捉最本色的声学特征,索要出信号特征 [9];二是平直在原始音频上运转深度学习框架。关联词仅运用这些数据并不及以跟进用户近期的喜好变化和样式调整,因此本文淡薄一种交融LSTM和把稳力机制进行音乐分类及推选的圭表,其中音乐分类模子高效的结合了音乐自身的多项音频特征,交融LSTM、把稳力机制对音乐进行了情谊分类,磨练音乐的情谊分类模子,接下来对用户的历史收听纪录进行筛选,登第最有代表性的数据与CNN相结合来对音乐进行推选。
本文与其它常见的模子作对比,剿袭了多组对比测试,实际末端可考证音乐情谊分类以及用户情谊分类的准确性,对用户进行更精确的音乐推选,及时性较高。
2. 音乐分类模子盘算推算
交融LSTM和把稳力机制的音乐分类模子盘算推算经由如图1所示。从磨练集数据中索要出多维隆起音乐情谊的代表性语音特征,将其传送至LSTM把稳力机制神经采聚首来搭建分类模子,并运用这个模子对音乐进行情谊分类。
图1. 音乐情谊分类经由
2.1. 索要音频的情谊特征
音乐在视觉确认上所以频谱的步地存在的,这里需要选用在频谱信号上最多情谊代表性且最合适的特征来索要出情谊特征,依此分析出音乐所属的情谊类别。本文策划在此处捕捉最原始的声学特征,完成从信号到特征向量的调整。此处需要结合初级态状符LLD,LLD四肢大概用于态状音频信号本色特征的变量,主要分为韵律特征、谱特征和音质特征三大类 [10]。韵律特征是语言的一种音捆绑构,是样式抒发的要紧步地之一,主要包含语调、时域分散和重音三个方面;谱特征是声息非常他信号的视觉暗示,最典型的特征索要圭表即为梅尔频谱倒谱悉数(Mel-scale Frequency Cepstral Coefficients, MFCC);音质特征主要包含响度,音域、音高、音素和纯度等 [11],本文在这里选用的初级态状符LLD包括MFCC、共振峰、短时能量、基音频率和短时过零率,将这些四肢情谊分类的特征参数,其主要想想是对音乐音高(频率)、音长(节律)、响度(重音)的描写等 [12]。
2.1.1. 梅尔频谱倒谱悉数
东说念主是通过声带的振动产生声息的,而东说念主的声说念决定了发出什么样的声息,其不错在短时的频谱包络中泄表现来。MFCC是基于东说念主耳听觉特色淡薄的,夙昔应用于语音识别(Speech Recognition)和话者识别(Speaker Recognition)方面,字据东说念主类听觉进行感知 [13],比较其它参数具有更好的鲁棒性,当信噪比缩短时仍然具有较好的识别性能。
领先对音频数据进行预处分以索要MFCC特征,主要包含预加剧、分帧、加窗、快速傅里叶变换(Fast Fourier Transform, FFT)、Mel滤波器组、对数运算和冲破余弦变换(Discrete Cosine Transform, DCT)等操作。本文中将对音频数据进行预加剧处分,即增强信号高涨沿和下跌沿处的幅度。另外,由于音乐信号具有不稳重性,因此为了最猛进度上保证信号的竣工性,需要对信号进行分帧处分,将每一帧乘以汉明窗来加多左端和右端的一语气性,经过FFT得到每一帧在频谱上的能量分散,对对数频谱进行揣摸。接下来对经过等带宽的Mel滤波器器组进行滤波处分来对频谱进行平滑化,将上述对数能量带入DCT来得到MFCC特征。MFCC特征的索要过程如图2所示。
图2. MFCC的索要过程
MFCC是在Mel标度频率域索要出来的倒谱参数,Mel标度态状了东说念主耳频率的非线性特色,它与频率的关系如式(1)所示:
Mel ( f ) = 2595 ∗ lg ( 1 + f 700 ) (1)
其中,f为频率,其单元是Hz。
MFCC的揣摸圭表如式(2)所示:
MFCC ( t , i ) = 2 N ∑ j = 1 N lg [ E ( t , j ) ] cos [ i ( j − 0.5 ) π N ] (2)
其中, MFCC ( t , i ) 为t时刻的MFCC参数,N为滤波器数目, E ( t , j ) 是t时刻第j个滤波器的输出。本文在此处共索要了18维MFCC特征,剿袭了更顺应东说念主耳听觉特征的参数,信号的竣工性得到了大幅度提高。
2.1.2. 共振峰
共振峰是在声息的频谱中能量相对集结的一些区域,共振峰否则而音质的决定要素,况且响应了声说念(共振腔)的物理特征。它是响应声说念谐振特色的要紧特征,是语音讯号处分中非常要紧的特征参数,代表了发音讯息最平直的来源,本文捕捉了共振峰的8维特征,包含共振峰频率、频带宽度和幅值。
2.1.3. 短时平均能量
短时能量意为较短时安分的语音能量,是音频信号的时域特征。这里的较短时分时时指的是一帧,即一帧时安分的语音能量即是短时能量。语音的短时能量即是将语音中每一帧的短时能量齐揣摸出来。它主要用于区分浊音段和清音段,对声母和韵母进行分界,每一帧中悉数语音讯号的平方和齐不错四肢辅助的特征参数用于信号识别,其揣摸公式如式(3)所示。
E n = ∑ m = n − ( N − 1 ) n [ x ( m ) ω ( n − m ) ] 2 (3)
对于每一帧m而言, E n 为n时刻的短时平均短时安分的语音能量, ω ( m ) 是窗口函数,在这里它是一种方窗,N为窗长且其罗致与语音周期相干,这里拟将帧长设定为10~30 ms,索要出10维特征。
2.1.4. 基音频率
在声息的振动中,由频率最低的振动所发出的声息叫作念基音,其余为泛音。基音频率的短长、薄厚、韧性、劲度和发音风尚关系系,在很猛进度上反应了声息的特征。针对此特征,本文主要索要了现时帧的6维特征,包含最值、均值、方差、中位数和振幅。
2.1.5. 短时平均过零率
过零率(Zero-Crossing Rate, ZCR)是指一个信号的标志变化的比率,是对敲击声息的进行分类的主要特征,一帧音频中信号波形穿过横轴,即改变标志的次数即为过零率。由于信号具有短时性,在本文将信号以30 ms为一段分为些许帧进行分析,两帧肇始点相隔5 ms,索要出10维特征。
上文索要出的50维音频特征均为接下来音乐情谊分类的要紧依据。另外,LSTM是一种具有长顾虑特征的轮回神经鸠集(Recurrent Neural Networks, RNN),因此还需要把音乐的时出息行分割,每3秒为一段并同期索要出一个50维的特征,得到的特征序列即为接下来LSTM模子的输入数据。
2.2. 交融LSTM和AM的情谊分类模子
本文策划在这个模子中完了对音乐的情谊类别进行辩认,交融了双层LSTM结构和把稳力机制的神经鸠集模子由三层LSTM、把稳力层及输出层组成。其模子框架如图3所示。
图3. LSTM把稳力神经鸠集模子
2.2.1. 三层LSTM结构
RNN会靠近梯度散失的问题,梯度是用于更新神经鸠集的权重值,散失的梯度问题即为在时分的推移传播过程中梯度下跌,易导致难以延续学习的问题,而LSTM四肢RNN的一种特殊类型,领有通过门结构来去除或加多信息到细胞气象的才气。它由Hochreiter和Schmidhuber于1997年淡薄,其要道在于细胞气象,水平线在上方谀媚运转,非常顺应于处分和预测时分序列中拒绝和延伸非常长的要紧事件。LSTM的合座架构 [14] 如式(5)~(10)所示。
f t = σ ( W f [ h t − 1 , x t ] + b f ) (4)
i t = σ ( W i [ h t − 1 , x t ] + b i ) (5)
C ˜ t = tanh ( W c ˜ [ h t − 1 , x t ] + b c ˜ ) (6)
C t = f t ∗ C t − 1 + i t ∗ C ˜ t (7)
o t = σ ( W o [ h t − 1 , x t ] + b o ) (8)
h t = o t ∗ tanh ( C t ) (9)
其中,权重参数分别是 W f , W i , W c ˜ , W o ,偏置值分别是 b f , b i , b c ˜ , b o 。领先将输入的特征序列 x t 和前一层的避讳层 h t − 1 气象相结归拢通过激活函数sigmoid来组成健忘门 f t ,会读取 h t − 1 和 x t ,输出一个0到1之间的数给每个在细胞气象 C t − 1 中的字。接下来将前一层避讳层气象的信息 h t − 1 和现时输入的信息 x t 传递到tanh函数中,去创造一个新的候选值变量,将sigmoid输出值与tanh的输出值相乘,sigmoid的输出值将决定tanh的输出值中哪些数据是要紧且需要保留的。输出数据将四肢接下来把稳力机制结构的输入序列。
2.2.2. 把稳力机制
东说念主们在把稳某个方针或某个场景时会运用有限的把稳力资源从海量信息中筛选出最具价值的信息。而深度学习中把稳力机制的中枢方针和罗致性视觉把稳力机制雷同,不错极大提高信息处分的遵循和准确性的把稳力机制,有助于克服RNN入网算遵循低下第问题,其中枢在于把稳力权重的学习,通过在体捆绑构中加入一个稀疏的前馈神经鸠集来学习。把稳力权重 α i 的揣摸圭表如式(11)所示。
α i = exp ( f ( x i ) ) ∑ j exp ( f ( x j ) ) (10)
其中,是用来评分的函数,而是针对于输入序列中的每个向量而言的,每一个向量齐对应一个权重。
这些把稳力权重齐被用于构建内容向量,该向量四肢输入传递给解码器,而编码器中悉数避讳气象和相应把稳力权重的加权和即为把稳力层的输出末端。输出末端 a t t e n t i v e _ x 的揣摸圭表如式(11)所示。
a t t e n t i v e _ x = ∑ i α i x i (11)
本文使用的交融LSTM和把稳力机制的情谊分类模子,将特征输出和音乐所属情谊类别愈加紧密的接洽对应起来,使揣摸资源分派更合理。
2.2.3. 输出层
在输出层中,使用softmax函数将50维与情谊相干的特征序列映射到[0,1]限度内,为了数据处分便捷,把数据定为总额为1的0到1之间的一丝。音乐所属类别取决于最大的值。由此音乐的情谊被分类为知足、新鲜、削弱和伤感。
3. 音乐推选模子
在对音乐进行情谊分类后,还不可平直向用户推选音乐,需要先对用户现时的样式和情谊进行分析之后才能细目拟推选的音乐种类。音乐推选模子的盘算推算经由如图4所示。
本文在这里盘算推算了一个音乐推选模子,领先针对用户历史收听纪录中的歌曲进行特征获得及一系列处分,然后再经过LSTM层、AM层以及softmax层,将特征向量降维处分并进行用户的情谊分类。以上处分有益于识别出用户在最近一段时安分的情谊类别,对音乐推选有短处的参考价值。
3.1. 用户的情谊分析
本部分将对盘算推算一个运用用户的历史收听纪录对用户的情谊进行判别,把上文中选用的包含MFCC、共振峰、短时能量、基音频率和短时过零率的初级态状符LLD、LSTM和AM相交融,即得到用户情谊判断模子,其模子图如图5所示。
图4. 音乐推选模子经由图
图5. 用户的情谊判别模子
3.1.1. 历史收听音乐的特征索要
本部分的特征索要过程与2.1节与2.2节中的特征索要过程与情谊分类过程基本一致,需要获得音乐的LLD态状,将音乐延续分段处分,每一段时长为3 s,且每一段里齐需要包含18维MFCC、8维共振峰、10维短时平均能量、6维基音频率以及8维短时过零率等揣摸50维的原始音频特征,并将得到的特征序列进行接下来的加权平均处分。
3.1.2. 历史收听纪录的罗致及情谊分类
领先,针对用户历史收听纪录的罗致问题,不错知说念:历史纪录简短分为一齐时安分的播放次数排行和近一周内的播放次数排行,且距今时分越短、播放次数越多的音乐参考价值越大。此处登第近一周内前k首歌曲,分别索要出每一首歌曲的特征序列并进行加权平均处分,新得到的特征序列具有较高的及时性。加权平均的公式如式(13)所示。
F ( i , k ) = ∑ i i + k e i k (12)
其中,k为遴选的歌曲数目, e i 为第i首歌曲的特征序列, F ( i , k ) 是把从第i首到第 i + k 首歌曲的特征序列进行加权平均而得到的新序列。这段新的特征序列将四肢接下来三层LSTM结构的输入数据,再经过把稳力层和隐层来对信息进行筛选,加强输出与情谊类别的对应关系,接下来得到的数据悉数映射到不错用于多分类的softmax层,以此判别用户现时的情谊分类,此处类别依然是:知足、新鲜、削弱和伤感。
3.2. 音乐推选模子的具体要领
由上文中的图4可回顾出音乐推选模子的具体要领。
1) 获得用户的历史收听纪录,对纪录中的音乐进行筛选;
2) 针对遴选的音乐,索要出每首音乐的50维原始音频的信号特征,并对这些音乐的特征序列取加权平均,得到新的特征序列;
3) 将新的特征序列次序通过三层LSTM和AM结构,得到新的特征向量,对用户现时的情谊类别进行分析和细目;
4) 用户不错罗致是否接受这次推选,若接受则推选得手,以后将延续向用户推选该情谊标签下的音乐;
5) 若用户不接受这次推选,则需要复返要领3,从头分析用户现时的情谊气象以便接下来推选其他音乐。
这么处分的克己是在对原始音频信息进行分析的同期更多的筹商到用户的样式转换,最大截止的运用了用户历史数据等音乐资源,愈加全面的运用了音乐的各方面特征信息,周期短,更逼近用户现时的样式气象,大概大幅度提高音乐推选的遵循。
4. 实际
4.1. 数据集的罗致
由于Last.FM、QQ音乐、虾米音乐以及酷狗音乐等网站难以获得到其他用户近一周内的播放歌曲的种类及频数,因此本实际选用网易云音乐的数据集,鸠集到带有歌曲名、歌手名、专辑名和情谊标签等信息的音乐,在之后的磨练集和对比实际中。以歌曲名、歌手名和专辑名来判断一首歌曲是否被重迭推选,以带多情谊标签的音乐来磨练数据集。
4.2. 实际参数的成立
本实际从网易云音乐上爬取了10,000首音乐,按照前文分类模子所述,最终分为四种情谊类型,分别是:知足、新鲜、削弱、伤感。每一首音乐齐带有不啻一个情谊标签,且时长均在6分钟以内。将每一首音乐齐以3 s为一段进行分割,得到按时期规定罗列的音频段。
在针对音乐的信号特征索要阶段一共索要出50维特征,其中MFCC 18维、共振峰8维、短时平均能量10维、基音频率6维以及短时过零率8维,对特征序列映射到[0,1]限度内时,剿袭max-min进行归一化,缩放数据,并将这种方式应用到磨练集和测试集结。在情谊分类阶段需要用到三层LSTM鸠集以及AM,其中学习率定为0.002,成立100个Epoch且每个Epoch的值均定为1000,Dropout的值定为0.7,选用tanh激活函数,Batchsize定为128,在优化器上剿袭SGD。
在音乐推选模子中,选用每个用户在最近一周内播放次数最多的前10首歌曲,以2 s为一段,每段中包含和分类模子中同种类别组成的50维音频特征,隐层的激活函数均选用sigmoid函数,softmax的节点数定为6,sigmoid之前的隐层节点数定为64,softmax吃亏函数为CE。
4.3. 实际末端非常对比分析
在本文的实际环境中,CPU树立为Intel i7 8th Gen,框架选用Tensor Flow,编写环境使用Jupyter Notebook和PyCharm。在将数据集分为磨练集和测试集时,本文剿袭五折交叉考证法。
在音乐情谊分类模子中,将文中所述的交融了音频50维特征、三层LSTM以及AM的模子与其他模子进行对比,分别为:50维特征+LSTM;50维特征+LSTM+AM;50维特征+三层LSTM+AM;接济向量机SVM(Support Vector Machines, SVM)的分类模子;隐含狄利克雷分散LDA (Latent Dirichlet Allocation, LDA)模子的分类模子。对比的内容即为各模子对情谊进行分类的准确度,对比末端如表1所示。
表1. 音乐的情谊分类准确度
由表1不错看出,仅包含音频特征和传统LSTM模子的分类准确度是最低的,讲明这时音频的信号特征并莫得被最大化的运用,不外在加入把稳力机制后,情谊类别的准确度和集结度齐有所训导。和基于SVM的音乐情谊分类模子以及基于LDA的音乐情谊分类模子比较,本文淡薄的使用音频特征和三层LSTM鸠集、AM的模子框架是分类准确度最高的。
在对数据集进行磨练时,音乐情谊的识别率亦然一个需要进行对比的揣度点。四种音乐情谊的识别率如表2所示。
表2. 音乐的情谊识别率
由表2可知,对于知足、新鲜、削弱和伤感四个情谊类别,样式校价永别较大的情谊更容易被区分,而永别较小的,如新鲜和削弱类音乐,二者在识别上更容易被耻辱。
临了是字据用户近一周的历史收听纪录来对用户的样式进行分类的模子测试末端,这里将分别罗致用户近一周内历史纪录中播放次数最多的前1首、前3首、前5首、前10首音乐的特征序列四肢输入来对用户样式分类准确度进行对比,对比末端如表3所示。
表3. 用户的情谊分类准确度
由表3不错发现,在运用用户近一周内播放次数最多前10首音乐的加权平均特征序列后,准确率有显著的训导,比较只是运用前1首、前3首和前5首音乐并不及以准确识别用户在最近一段时安分的情谊和听歌喜好,因此本文淡薄的这个音乐推选模子的可行性是很可不雅的。
5. 回顾与预测
对于现在音乐推选中存在的情谊分类不够风雅、用户样式识别及时性不高档问题,本文在音乐分类模子中构造了三层LSTM和把稳力机制模子,并依此对音乐在频谱特征上抒发的情谊进行分类;音乐推选模子创新性的构造了用户历史收听纪录中音乐的特征序列进行加权平均处分并再次交融LSTM与AM模子,运用新构造出的对于音频特征序列来对用户的样式进行识别并进行音乐推选。与其它传统的推选模子及只是结合了单一模子的推选圭表比较,本文淡薄的圭表在和用户情谊的吻合性方面确认较高,对音乐的推选精确度更高,但存在情谊类别的辩认种类较少等问题,下个阶段拟剿袭网易云音乐中更多的音乐标签来对音乐进行分类,同期对LSTM模子进行门单元的校正来提高音频信号的运用率,进一步提高推选的准确度。
基金神态
国度当然科学基金神态(62073090);广东省当然科学基金神态(2019A1515010700);广东省科技策划神态(2020B1010010010、2019B101001021)。
著作援用
冯鹏宇,陈平华,申建芳. 交融LSTM和把稳力机制的音乐分类推选圭表Music Classification and Recommendation Method Combining LSTM and AM[J]. 揣摸机科学与应用, 2020, 10(12): 2280-2290. https://doi.org/10.12677/CSA.2020.1012240
参考文献