A - 文本情感特征:即语义情感特征;这是相对容易且实施方法比较Light的类别。仅需要将字/词、句式、语义块作为特征项并进行标注,比如褒贬义词、加强语气、一般语气、悲伤和欢喜等等;综合标注后形成一组情感集合或称情感词典,基于这组词典来计算上下文中的向量关系,最终收敛为较窄的置信区间;最大的两个阻碍:其一是多义字词的问题,比如“轻薄”一词可以是贬义陈述,也可以针对手机平板产品的场景时作为褒义陈述;其二是词序优先级与情感程度及其强弱发展的关系,这种发展并非总是线性的。
B - 语音情感特征:可以来自实时声纹,但并不足以支持计算,且应用场景不便采集,无法要求每位人类用户在使用语音设备之初必须去做较长时间的声纹情感标定,非家庭成员无法标定,人类丰富的语气情感特征更加无法在标定中获取。因此就需要高质量的语音情感数据库,是这项研究的必备;数据库中的语料质量由被采集者是否是真情流露、是否自发性所直接决定,反之表演性的语料不能泛化到所有情景。这项工作需要存录语音中的情感声学特征,以此训练和收敛一套包含人类情感共性特征的库,如发怒、哀伤、嘲讽、欢喜等等。目前经常抽取的语音情感声学特征参数主要有三种:韵律特征、音质特征和谱特征;其中仅韵律特征一项就包含了诸如基音频率、振幅、发音持续时间、语速等变量;而音质特征又包含了共振峰、频谱能量分布、 谐波噪声比等变量;谱特征参数则是反映语音信号的短时功率谱特性的声学特征参数;上述三组特征参数在计算过程中还需要配合情感程度(强度)的因子。另外,由于大量抽取的特征参数构成了很大的高维空间的特征向量,存在海量冗余也意味着训练的代价更大,因此需要对声学特征参数做降维和缩减,得到最佳特征子集,降低分类系统的复杂度和提高识别性能。