您好,欢迎来到好土汽车网。
搜索
您的当前位置:首页一种基于3-d卷积神经网络的语音情绪识别方法及装置[发明专利]

一种基于3-d卷积神经网络的语音情绪识别方法及装置[发明专利]

来源:好土汽车网
(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 111798873 A(43)申请公布日 2020.10.20

(21)申请号 202010414544.8(22)申请日 2020.05.15

(71)申请人 厦门快商通科技股份有限公司

地址 361009 福建省厦门市软件园三期诚

毅北大街63号1301单元(72)发明人 吴毅鑫 李稀敏 肖龙源 叶志坚 

刘晓葳 (74)专利代理机构 厦门仕诚联合知识产权代理

事务所(普通合伙) 35227

代理人 吴圳添(51)Int.Cl.

G10L 25/63(2013.01)G10L 25/30(2013.01)

权利要求书2页 说明书5页

(54)发明名称

一种基于3-d卷积神经网络的语音情绪识别方法及装置(57)摘要

本发明公开了一种基于3‑d卷积神经网络的语音情绪识别方法及装置,包括以下步骤,步骤一,将原始语音使用log‑Mels进行处理,计算其deltas和delta‑detltas,步骤二,利用3‑d的CNN对log‑Mels的输出进行处理,以捕捉音频信息中的时域及频域的信息,步骤三,通过大量的标注数据,对3‑d卷积神经网络做训练,让神经网络做语音关于情绪的多分类问题,所述语音关于情绪的多分类问题是将语音分为平静、高兴、愤怒、悲伤、恐惧、惊讶的情绪标签,步骤四,通过梯度下降的方法优化参数,最终得到情绪识别模型。在本发明实施过程中,训练一个高准确率的情绪识别模型,3‑d神经网络由lod‑Mels作为输入,对3‑d卷积神经网络进行更新迭代,使其达到良好的识别准确率。

CN 111798873 ACN 111798873 A

权 利 要 求 书

1/2页

1.一种基于3-d卷积神经网络的语音情绪识别方法,其特征在于:包括以下步骤,步骤一,将原始语音使用log-Mels进行处理,计算其增量,步骤二,利用3-d的CNN对log-Mels的输出对神经网络进行训练及特征提取,以捕捉音频信息中的时域及频域的信息,

步骤三,通过大量的标注数据,对3-d卷积神经网络做训练,让神经网络做语音关于情绪的多分类问题,所述语音关于情绪的多分类问题是将语音分为平静、高兴、愤怒、悲伤、恐惧、惊讶的情绪标签,

步骤四,通过梯度下降的方法优化参数,最终得到情绪识别模型。

2.根据权利要求1所述的一种基于3-d卷积神经网络的语音情绪识别方法,其特征在于:所述步骤一进一步包括:

S1,对语音预加重,S2,将加重后的语音分成帧,并进行离散变换得到语音参数,S3,对S2中经离散变换的语音参数进行动态差分参数提取。

3.根据权利要求2所述的一种基于3-d卷积神经网络的语音情绪识别方法,其特征在于:所述S1中,在对语音加重时使用如下方程为H(Z)=1-UZ-1,其中U表示权重,Z表示音频的向量表示。

4.根据权利要求2所述的一种基于3-d卷积神经网络的语音情绪识别方法,其特征在于:所述S2中,在将语音分成帧后,将每一帧乘以一个窗函数,所述窗函数的方程为

其中a表示为语音,N表示为帧长。

5.根据权利要求4所述的一种基于3-d卷积神经网络的语音情绪识别方法,其特征在于:在每一帧语音乘以一个窗函数后,将其进行离散傅里叶变换,且运算的公式为

其中x(n)表示为输入语音信号,N表示为傅里叶变换的

点数。

6.根据权利要求2所述的一种基于3-d卷积神经网络的语音情绪识别方法,其特征在于:所述S3的具体步骤为通过Mel滤波器进行动态差分参数提取,且使用到的运算公式为

其他,其中dt表示为第t个阶柴分,Ct表示第t个倒谱系数,Q表示

倒谱系数的阶数,K表示一阶导数的时间差。

7.根据权利要求1所述的一种基于3-d卷积神经网络的语音情绪识别方法,其特征在于:所述标注数据为代表情绪标签的原始语音数据。

8.一种种基于3-d卷积神经网络的语音情绪识别装置,其特征在于:包括语音输入模块、语音处理模块、语音判断模块与储存模块,

2

CN 111798873 A

权 利 要 求 书

2/2页

所述语音输入模块用以对语音进行输入,所述语音处理模块用以对语音进行预加重、将加重后的语音分帧、对分帧后的语音进行离散变换与对离散后的语音数据进行参数提取,

所述语音判断模块用以对处理后的语音参数进行情绪识别并对识别,以得到最终的情绪识别模型,

所述储存模块用于对语音处理过程、语音处理结果及情绪识别模型进行储存。

3

CN 111798873 A

说 明 书

1/5页

一种基于3-d卷积神经网络的语音情绪识别方法及装置

技术领域

[0001]本发明属于语音情绪识别方法技术领域,具体为一种基于3-d卷积神经网络的语音情绪识别方法以及对应的装置。

背景技术

[0002]随着人工智能的发展,人工智能目前可以帮助人们处理越来越多的事情。人工智能也慢慢走近了人们的家庭生活。为了使用人工智能与人们的交互更加的和谐,可以洞察人们情绪的情绪识别就显得由于重要。

[0003]目前使用二维卷积神经网络的情绪识别,准确率较低,无法进入人们的日常生活,无法产生价值。

发明内容

[0004]针对上述情况,为克服现有技术的缺陷,本发明提供一种基于3-d卷积神经网络的语音情绪识别方法及装置,有效的解决了背景技术中的问题。[0005]为实现上述目的,本发明提供如下技术方案:一种基于3-d卷积神经网络的语音情绪识别方法,包括以下步骤,步骤一,将原始语音使用log-Mels 进行处理,计算其deltas和delta-detltas,即增量,步骤二,利用3-d的CNN对log-Mels的输出进行处理,以捕捉音频信息中的时域及频域的信息,步骤三,通过大量的标注数据,对3-d卷积神经网络做训练,让神经网络做语音关于情绪的多分类问题,所述语音关于情绪的多分类问题是将语音分为平静、高兴、愤怒、悲伤、恐惧、惊讶的情绪标签,步骤四,通过梯度下降的方法优化参数,最终得到情绪识别模型。[0006]优选的,所述步骤一进一步包括:S1,对语音预加重,S2,将加重后的语音分成帧,并进行离散变换得到语音参数,S3,对S2中经离散变换的语音参数进行动态差分参数提取。[0007]优选的,所述S1中,在对语音加重时使用如下方程为H(Z)=1-UZ-1,其中U表示权重,Z表示音频的向量表示。[0008]优选的,所述S2中,在将语音分成帧后,将每一帧乘以一个窗函数,所述窗函数的方程为

[0009]

优选的,在每一帧语音乘以一个窗函数后,将其进行离散傅里叶变换,且运算的公

式为

[0010]

优选的,所述S3的具体步骤为通过Mel滤波器进行动态差分参数提取,且使用到的

4

CN 111798873 A

说 明 书

2/5页

运算公式为其他。

优选的,所述标注数据为代表情绪标签的原始语音数据。

[0012]为实现上述目的,本发明还提供如下技术方案:一种种基于3-d卷积神经网络的语音情绪识别装置,包括语音输入模块、语音处理模块、语音判断模块与储存模块,所述语音输入模块用以对语音进行输入,所述语音处理模块用以对语音进行预加重、将加重后的语音分帧、对分帧后的语音进行离散变换与对离散后的语音数据进行参数提取,所述语音判断模块用以对处理后的语音参数进行情绪识别并对识别,以得到最终的情绪识别模型,所述储存模块用于对语音处理过程、语音处理结果及情绪识别模型进行储存。[0013]梯度下降是指神经网络更新参数的方法。可以将神经网络想象为一个庞大的链式复合函数,梯度是对其函数求偏导数数的集合,通过沿着梯度方向,更新神经网络中的参数,从而优化模型。里面参数是指的神经网络每个神经元的参数。[0014]与现有技术相比,本发明的有益效果是:[0015]1)、本发明通过神经网络将可以有效的将音频中关于情绪的特征提取出来,将与情绪无关的特征忽略,从而得到一个良好的情绪识别模型。而且本发明3-d卷积神经网络,训练一个高准确率的情绪识别模型,3-d神经网络由 lod-Mels作为输入,对3-d卷积神经网络进行更新迭代,使其达到良好的识别准确率。[0016]2)、本发明通过对语音经过各种函数进行处理,能够增加本方法对语音的情绪分析的准确性,从而使得本方法在实施的时候能够优于现有的语音情绪方法。[0017]3)、本发明中的装置在实施的时候,优于输入的各种情绪的语音不断增多,能够不断的对情绪识别模型进行优化情绪模型,提高了语音情绪识别的准确性。具体实施方式

[0018]下面将结合本发明实施例中,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

[0019]本发明公开了一种基于3-d卷积神经网络的语音情绪识别方法,包括以下步骤,步骤一,将原始语音使用log-Mels进行处理,计算其deltas和 delta-detltas,deltas和delta-detltas即Δ,表示语音的增量的意思,步骤二,利用3-d的CNN对log-Mels的输出进行处理,以捕捉音频信息中的时域及频域的信息,步骤三,通过大量的标注数据,对3-d卷积神经网络做训练,让神经网络做语音关于情绪的多分类问题,语音关于情绪的多分类问题是将语音分为平静、高兴、愤怒、悲伤、恐惧、惊讶的情绪标签,步骤四,通过梯度下降的方法优化参数,最终得到情绪识别模型。

5

[0011]

CN 111798873 A[0020]

说 明 书

3/5页

步骤一进一步包括:S1,对语音预加重,S2,将加重后的语音分成帧,并进行离散变

换得到语音参数,S3,对S2中经离散变换的语音参数进行动态差分参数提取。[0021]S1中,在对语音加重时使用如下方程为H(Z)=1-UZ-1,其中U表示权重, Z表示音频的向量表示。[0022]S2中,在将语音分成帧后,将每一帧乘以一个窗函数,窗函数的方程为

[0023]

在每一帧语音乘以一个窗函数后,将其进行离散傅里叶变换,且运算的公式为

[0024]

S3的具体步骤为通过Mel滤波器进行动态差分参数提取,且使用到的运算公式为

其他。

上述的步骤一的处理方法可以总结为如下的步骤[0026]1.使用log-Mels对原始语音进行处理,计算其deltas和delta-detltas, 这个步骤可以有效的减少音频中与情绪无关的因素。比如,说话风格,演讲内容,说话环境等。[0027]首先,进行语音预加重:[0028]H(Z)=1-UZ-1。

[0029]然后将语音分成帧,将每一帧乘以一个窗函数

[0030][0031][0032][0033]

[0025]

进行离散傅里叶变换(DFT)

之后通过Mel滤波器进行动态差分参数提取

[0034]其他。

[0035][0036]

dt为deltas,将上式的结果再代入就可以得到delta-detltas。

标注数据为代表情绪标签的原始语音数据。

6

CN 111798873 A[0037]

说 明 书

4/5页

实施例一

[0038]用户对原始输入的语音进行标注,例如标注为开心的语音,被标注为开心的语音经过如下步骤,

[0039]1.使用log-Mels对原始输入为开心语音进行处理,计算其deltas和 delta-detltas,这个步骤可以有效的减少音频中与情绪无关的因素。比如,说话风格,演讲内容,说话环境等。

[0040]2.利用3-d的CNN对log-Mels的输出进行处理,3-d的卷积神经网络可以更好地捕捉音频中的时域及频域的信息。

[0041]3.通过标注为开心的语音情绪数据,对3-d卷积神经网络做训练。让神经网络将此种情绪处理后的信息归结到开心模型中。通过梯度下降的方法优化参数。最终得到一个性能良好的情绪识别模型。[0042]实施例二[0043]用户对原始输入的语音进行标注,例如标注为惊讶的语音,被标注为惊讶的语音经过如下步骤,

[0044]1.使用log-Mels对原始输入为惊讶语音进行处理,计算其deltas和delta-detltas,这个步骤可以有效的减少音频中与情绪无关的因素。比如,说话风格,演讲内容,说话环境等。

[0045]2.利用3-d的CNN对log-Mels的输出进行处理,3-d的卷积神经网络可以更好地捕捉音频中的时域及频域的信息。

[0046]3.通过标注为惊讶的语音情绪数据,对3-d卷积神经网络做训练。让神经网络将此种情绪处理后的信息归结到惊讶模型中。再通过梯度下降的方法优化参数。最终得到一个性能良好的情绪识别模型。

[0047]在当原始输入的被标注的语音情绪越多,模型就会被建立的越稳定,从而在模型进行语音情绪识别的时候,就能更加准确,从而使得本方法在实施的过程中形成一个良性的循环,即使用的越多,模型情绪识别模型越完善,语音的情绪识别就更准确。[0048]与所述识别方法相对应的,本发明还提供一种基于3-d卷积神经网络的语音情绪识别装置,包括语音输入模块、语音处理模块、语音判断模块与储存模块,语音输入模块用以对语音进行输入,且对于输入的语音情绪,用户可以对其进行标注;语音处理模块用以对语音进行预加重、将加重后的语音分帧、对分帧后的语音进行离散变换与对离散后的语音数据进行参数提取,语音判断模块用以对处理后的语音参数进行情绪识别并对识别,以得到最终的情绪识别模型,储存模块用于对语音处理过程、语音处理结果及情绪识别模型进行储存。

[0049]需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。[0050]在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包

7

CN 111798873 A

说 明 书

5/5页

含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。[0051]尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

8

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- howto234.com 版权所有 湘ICP备2022005869号-3

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务