欢迎来到专业的新思文库网平台! 工作计划 工作总结 心得体会 事迹材料 述职报告 疫情防控 思想汇报 党课下载
当前位置:首页 > 范文大全 > 公文范文 > 正文

基于语音情感分析的E-Learning研究

时间:2022-12-05 17:45:08 来源:网友投稿

摘 要:针对E-Learning教学系统中存在情感缺失的问题,基于Mel频率倒谱系数和隐马尔可夫模型技术,提出了一种基于语音情感计算的E-Learning教学系统模型,并进行了实验分析。该模型通过采集学习者的语音并进行语音分析,判断和理解其情绪状态,然后根据学习者特定的情绪状态给出相应的情感鼓励或情感补偿,以弥补教学中的情感缺失,实现E-Learning教育中的人性化和个性化,促进语音情感分析在教育中的应用。

关键词:语音情感计算;E-Learning;MFCC;CHMM

中图分类号:TP391.41 文献标识码:A 文章编号:1672-7800(2011)06-0148-03

1 E-Learning存在情感缺失

E-Learning是通过因特网或其他数字媒体进行的教学活动,它借助多媒体计算机技术、网络技术来实现教育最优化的一种教育方式,在资源共享、交互性等方面远远优于传统的教育。然而在当前的E-Learning环境下,由于师生在物理空间上的分离,导致师生之间缺少必要的情感交流和反馈,不能及时地处理教学过程中的情感信息,掌握学生的学习情绪,及时地进行情感交流而存在情感缺失。因此,在E-Learning教学系统中如何获得学习者的认知情感,构建具有情感交互和情感补偿的和谐学习系统,已经成为重要的研究课题。

教学中师生的情感交流包含表情、语音、姿态、动作等情感信息,所有这些情感信息的缺失都将对师生之间的情感交互产生一定的负面影响,使学生产生迷茫和懒散的情绪,而教师不能体会学生的学习状态而有效控制学生的学习进程。从心理学的角度来看,情感指的是情绪过程中主观感受和主观体验;情绪是与人的需要相联系具有特定的主观体验、外显表情和生理变化的心理活动;所以情感就是情绪过程的主观体验,无论情绪还是情感,它的产生都是客观事物与人的需要相互作用而产生的。

情感计算的目的是通过赋予计算机识别、理解、表达和适应人的情感的能力来建立和谐人机环境,并使计算机具有更高的、全面的智能。情感计算是未来人工智能理论应用中不可缺少的重要组成部分,作为一个多学科交叉的崭新研究领域,对计算机科学发展的意义是深远的,同时对信息化依赖性非常强的教育活动,也需要情感计算的辅助。

教学活动中非言语行为主要包括语速、语调、情感、面部表情、姿态等言语之外的行为,而在人机交互及网络学习过程中,便于利用的只有语音或图像所包含的情感现象。近年来,以情感识别为核心的情感计算技术的研究发展,已经成功应用于人工智能、智能人机交互等领域。而这些技术一般利用人的表情和动作等信息来进行状态识别,跟踪学习者的情感状态,提供个性化情感补偿,并根据学习者情感体验的实时变化自动调整教学策略。

2 E-Learning中的语音情感

语言是人类交流的最重要的工具之一,它自然、方便、准确、高效地传递信息,而语音是语言的重要载体,传播不受时间和条件的限制,是人类社会赖以生存和发展所特有的不可缺少的交流技能,交流双方可以面对面的说话和听话,也可以隔着一定的距离过工作边交谈。电话等通讯设备的发明后更使语音的传播突破了空间的限制,双方可以相隔千万里之遥而自由交谈;语音的数字化和存储技术的发展又使语音突破时间的限制,可以通过数字信号处理的方法进行更为精确的计算和分析。

在教学过程中语音同样具有非常重要的地位。传统的课堂教学中教师通过语音及黑板的图像向学生传递教学内容,学生通过语言来释疑解惑;在的计算机辅助教学和E-Learning教学中大部分是以图文的形式呈现教学内容,而随着计算机及网络技术的发展,声音的作用越来越大,使学习者通过听觉和视觉的相互作用强化对教学内容的认知和学习。大量研究发现E-Learning教育中存在严重的情感缺失,主要体现在课程资源中的情感缺失和师生交互中的情感流失,学习者所看到的是与文字差不多的流媒体教学内容,没有教师声情并茂的非言语行为的刺激,单调的教学刺激长时间作用会降低学习兴趣并分散注意力;简单的教学效果反馈以及反馈的延时性同样也会降低学习兴趣。

针对E-Learning教育中的明显缺陷,将语音识别技术和语音情感计算技术引入到教育模块中可以很好地了解学生的学习情况,为进一步的学习状态的改善提供信息,因此很多研究者基于语音情感技术提出了一些解决情感缺失的相关模型或策略。通过在学习者的客户端添加语音录入设备,及时捕捉学习者的语音反馈并实时地进行处理和情感分析,判断学习者对所学知识的接受情况和学习情绪的变化。

目前国际上已有大量的科研人员致力于不同语言语音情感的研究。美国麻省理工学院媒体实验室情感计算研究所是世界上第一个大规模研究情感及其计算的科研机构,利用基频、时长、音质和清晰度等声学参数的变化来合成情感语音,并从语音的韵律学参数入手,完成了语音情感识别的计算模型研究。美国南加州大学语音情感研究组致力于情感语音的声学特性分析、合成和识别的研究。以色列的Nemesysco公司的分层声音分析技术可以捕获实时或者录制的语音信号,侦查和测量说话人的情感状态,在安全、商业和个人娱乐领域为客户提供解决方案。我国东南大学无线电工程系赵力教授的实验小组在国内率先开展了普通话语音情感识别的研究,他们提出了采用主元分析方法以及将情感语音的全局声学特征和以基频的时间序列特征绑定在一起共同组成特征向量的方法来对语音情感进行识别。清华大学模式识别国家重点实验室致力于普通话情感语音的研究,以分类回归树和权衰减型神经网络为分析模型,进行情感识别和特征分析实验。

3 基于语音情感分析的E-Learning智能教学系统

3.1 智能教学系统模型

E-Learning智能计算机辅助教学是在计算机的辅助下进行的各种教学活动,它将人工智能和网络技术引入到教学系统中,赋予机器以信息加工和高级智能的自适应教学系统。基于建构主义教学设计理念,将情感因素考虑到E-Learning教学系统中,以学习主体与教学信息之间的认知关系为依据来实现具有情感差异的个性化教育,加入语音发音模块和语音情感合成模块,建立了如图1所示的E-Learning智能计算机辅助教学系统,以图文并茂的形式传授给学习者知识,促进对教学内容的接收,同时通过语音反馈获得学生的情感信息,并自动进行情感补偿而改变教学内容和方式,促进学习者情绪状态的转变,已达到最佳的教学效果。

本系统模型分为四个模块:(1)教学内容的准备和教学方法的选择模块负责将教学内容以一定的形式输出,具备人工智能的E-Learning教学系统可以根据学生的学习基础、水平和能力,以此为依据为不同的学生制定学习计划,有针对性地进行个别指导,提供给学习者相应的学习内容;(2)语音合成模块中TTS引擎负责将文本的教学内容转变为语音,通过语音情感合成模块可以根据预设的情感对合成的机器语音进行渲染,使之具有相应的情感而更接近自然语音;(3)需要显示的教学内容以图文的形式输出,提供给学习者视觉的刺激;(4)在学习过程中能够通过对学习者语音信号的采集,进行情感计算和情感识别,获取学生的情感状态,并进行及时的反馈和情感补偿,促进教学内容和方法的改进,提高学习效率。

3.2 MFCC语音特征分析

语音情感信息处理采用多种语音特征和相应的有效性评价技术,常用的特征参数有基音频率、共振峰、线性预测倒谱系数、短时能量/振幅能量、发音时间/语速和Mel频率倒谱系数(MFCC)等。根据发音模型和接收模型的不同可以把语音的情感特性大体分为基于发音模型的情感特征和基于语音接收模型的情感特征两类。

语音的发音模型特征有发声结构决定,大部分都具有韵律特征,其中时间构造、振幅构造、基频构造和共振峰构造等都能反映出说话人情感的变化。语音的接收模型由人耳的结构决定。耳蜗就像一个频谱分析仪,将复杂的信号分解成各种频率分量,同时,人耳的听觉系统中一个特殊的非线性系统,它对不同频率声音的响应灵敏度是不同的。结合人耳的生理结构,运用对数关系来模拟人耳对不同频率语音的感知特性,形成了Mel倒谱参数(MFCC)。MFCC中包含着情感信息,如愤怒和高兴常常表现为频谱中高频成分的增加,而悲伤则与此相反,对应于频谱中高频成分的降低。

根据人耳对不同频率的灵敏度特性,设计了Mel频度滤波器组, 1 Mel定义为1 kHz信号所感知程度的千分之一。Hz频率f\-\{Hz\}与Mel频率f\-\{Mel\}之间的转换关系如公式1 所示。

图2给出了Mel频率与Hz频率的关系图。Mel频率倒谱系数是在频谱上采用滤波器组来计算,将语音频率划分成一系列三角形的滤波器序列,形成在Mel坐标上是等带宽的滤波器组,图3给出了计算得到的12维的Mel滤波器组的频率特性分布图。

MFCC的特征提取可以使用FFT来计算信号的频谱,但由于小波变换具有可变的频率分辨能力,可以体现非平稳信号的瞬间变化,因此常用小波变换来提取MFCC的系数,来精确地反映语音信号的动态特性。

3.3 CHMM语音情感分析

在语音情感识别方法的研究中,国内外的研究者做出了大量的努力,提出了多种识别方法,有Mahalanobis距离分类方法、神经网络方法、混合高斯模型法、K近邻法、隐马尔可夫模型和支持向量机等。由于识别语言、实验语音库、提取的特征向量以及识别方法的改进程度等因素,情感的识别正确率相差很大。

由于人的语言过程可以看作是一个双重随机过程。语音信号是一个可观测的时变序列,是由大脑根据语法知识和语言需要而发出音素流。隐马尔可夫模型(HMM)较合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性。在语音信号分析时,先在极短的时间内建立模型参数来表示,然后将多参数线性模型在时间上串接起来,形成马尔可夫链。HMM利用概率及统计学理论解决了如何辨识别具有不同参数的短时平稳的信号段和转化问题。

由于在马尔可夫模型的计算矢量化会产生语音成分丢失,因此用多个正态高概率密度函数的线性组合来表示其状态,而形成连续隐马尔可夫模型(CHMM)。通过对语音情感识别算法的分析与比较,本研究选用改进的连续隐马尔可夫模型来进行情感识别。

3.4 CHMM语音情感识别实验

本研究用标准情感语音库来进行实验,其中包含10男10女1200个语句,每一句为采样率16 kHz的波形文件,分为高兴、悲伤、愤怒、厌倦、害怕和中性6种情感,从每种情感的200句中随机抽取150句作为训练语句,剩下的50个语句用来做识别实验。

实验结果表明,使用MFCC和CHMM技术,对语音信号进行特征提取和情感分析训练后对任意语句进行情感识别,6种情感的识别正确率如表1所示,可见其平均的正确率在80%以上,而对高兴的识别正确率甚至达到92%。

4 结束语

本文基于建构主义的学习理论,针对教学中的情感缺

失问题,把语音情感识别技术引入到教学中,通过语音情感分析和补偿来调整教学内容和方法,提出了基于语音情感分析的E-Learning教学系统模型。本研究从语音信号的特征提取和分析入手,利用MFCC和CHMM技术进行语音情感特征分析和情感状态识别,通过研究与实验研究证明语音声学特征的统计特征对情感识别具有一定的贡献,但特征提取越多,时间及空间复杂度就越大;MFCC可以很好地描述情感状态在频域的能量分布特性,结合CHMM可以有效提高情感识别的正确率,为语音情感的识别在E-Learning中的应用提供良好技术保证。

参考文献:

\[1\] 马希荣,刘琳,桑婧.基于情感计算的E-Learning系统建模\[J\].计算机科学, 2005(8).

\[2\] 吴彦文,刘伟,张昆明.基于情感识别的智能教学系统研究\[J\].计算机工程与设计, 2008(9).

\[3\] 张迎辉,林学.情感可以计算—情感计算综述\[J\].计算机科学,2008(5).

\[4\] 隋云翔,刘平.非言语沟通与课堂教学\[J\].现代中小学教育,1991(4).

\[5\] ABBOUD B, DAVOINE F AND DANG M.Statistical modeling for facial expression analysis and synthesis\[C\].IEEE International Conference on Image Processing,2003.

\[6\] 冯满堂.基于表情识别的情感计算及其在网络教育中的应用研究\[D\],南京:南京师范大学,2009.

\[7\] AYADI M, KAMEL M AND KARRAY F.Speech emotion recognition using Gaussian mixture vector autoregressive models\[A\].IEEE International Conference on Acoustics, Speech, & Signal Processing,2007.

\[8\] de Cheveigné A, Kawahara H. YIN, a fundamental frequency estimator for speech and music\[J\].Journal Acoustical Society of America,2002(4).

\[9\] 赵力,将春辉,邹采荣,等.语音信号中的情感特征分析和识别的研究\[J\].电子学报,2004(4).

\[10\] 蒋丹宁,蔡莲红.基于语音声学特征的情感信息识别\[J\].清华大学学报:自然科学版,2006(1).

\[11\] 詹永照,曹鹏.语音情感特征提取和识别的研究与实现\[J\].江苏大学学报:自然科学版,2005(1).

\[12\] 林奕琳,韦岗.基于短时和长时特征的语音情感识别研究\[J\].科学技术与工程,2006(4).

\[13\] 张永皋,马青玉,孙青.基于MFCC和CHMM技术的语音情感分析及其在教育中的应用研究\[J\].南京师范大学学报,2009(2).

\[14\] 张永皋.基于CHMM的语音情感识别的研究\[D\].南京:南京师范大学,2009.

\[15\] 国辛纯,郭继昌,窦修全.基于HMM的语音信号情感识别研究\[J\].电子测量技术,2006(5).

(责任编辑:王钊)

推荐访问:语音 情感 分析 研究 learning