ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Journal influence

Higher Attestation Commission (VAK) - К1 quartile
Russian Science Citation Index (RSCI)

Bookmark

Next issue

2
Publication date:
16 June 2024

Automatic feature selection system for human emotion recognition in speech communication

Date of submission article: 23.07.2014
UDC: 519.87
The article was published in issue no. № 4, 2014 [ pp. 127-131 ]
Abstract:During the human-machine communication a number of problems related to voice processing should be solved. In addition to the speech recognition problem, there are several important issues such as a speaker, gender or age identification and speech-based emotion recognition. The amount of acoustic characteristics extracted from the signal is tremendously high (hundreds or even thousands): features may correlate with each other, contain noisy data or have low variation level that decrease the accuracy of involved classifiers. Therefore it is vitally important to select informative features automatically during the recognition process. This paper considers two feature selection techniques. Both of them are based on using the self-adaptive multi-objective genetic algorithm that is adjusted while the problem is being solved. The main advantages of this heuristic optimization procedure are the simplicity of coding the informative feature subsystem and the opportunity to optimize both discrete and continuous criteria. The probabilistic neural network is used as a classifier. Effectiveness investigation of the developed approaches was conducted on the set of emotion recognition problems: data bases contained speech signals in English and German languages. During the experiments it was revealed that application of the described feature selection procedures might lead to increasing of the classification accuracy (relative improvement was by up to 22,7 %). Moreover, it became possible to reduce the dimension of the feature vector significantly (from 384 to 64,8 attributes at the average). The proposed schemes demonstrate higher effectiveness compared with Principal Component Analysis. The described methods might be applied for solving the speaker identification problem, recognizing speaker’s gender, age or other personal characteristics that also implies the opportunity to use them as the algorithmic core in the intellectual modules of dialogue systems.
Аннотация:В процессе человеко-машинной коммуникации возникает ряд задач, связанных с обработкой голосовых сигналов. Помимо распознавания речи говорящего, актуальными остаются идентификация личности, пола, возраста пользователя диалоговой системы, а также его эмоционального состояния. При этом число акустических характеристик, которые могут быть извлечены в ходе анализа звуковой записи, достигает сотен или даже тысяч: атрибуты могут коррелировать друг с другом, содержать зашумленные данные или иметь низкий уровень вариации, что снижает точность работы привлекаемых классификаторов. Поэтому важной задачей является автоматический отбор информативных признаков, используемых алгоритмами распознавания. В рамках данной статьи рассматриваются два подхода, основанные на использовании адаптивного многокритериального генетического алгоритма, настройка пара-метров которого осуществляется автоматически в ходе решения задачи. Выбор данной эвристической процедуры для оптимизации критериев качества обусловлен простотой кодирования информативной подсистемы признаков, а также возможностью оптимизации как дискретных, так и непрерывных критериев. Вероятностная нейронная сеть используется в качестве классификационной модели. Исследование эффективности разрабатываемых подходов проводилось на множестве задач распознавания эмоций человека: БД содержали голосовые записи на английском и немецком языках. В ходе тестирования было установлено, что на указанном множестве задач применение описанной процедуры извлечения информативных признаков приводит к повышению точности результатов (относительное улучшение до 22,7 %), получаемых вероятностной нейронной сетью. Кроме того, становится возможным существенное снижение размерности вектора признаков, описывающих голосовой сигнал (в ряде случаев в среднем с 384 до 64,8 атрибута). Предложенные схемы демонстрируют высокую эффективность по сравнению с методом главных компонент. Описываемые процедуры могут быть применены для идентификации личности говорящего, распознавания его пола, возраста и других персональных характеристик, что также является предпосылкой их использования в качестве алгоритмического ядра интеллектуальных модулей диалоговых систем.
Authors: Brester C.Yu. (christina.bre@yandex.ru) - Academician M.F. Reshetnev Siberian State Aerospace University, Krasnoyarsk, Russia, Semenkin E.S. (styugin@rambler.ru) - Academician M.F. Reshetnev Siberian State Aerospace University, Krasnoyarsk, Russia, Sidorov M.Yu. (maxim.sidorov@uni-ulm.de) - Ulm University, Ulm
Keywords: speech-based emotion recognition, feature selection, multi-objective genetic algorithm, self-adaptation
Page views: 7759
Print version
Full issue in PDF (6.61Mb)
Download the cover in PDF (0.95Мб)

Font size:       Font:

Качество распознавания устной речи интеллектуальными диалоговыми системами (ИДС) стремительно повышается, однако использование ИДС в повседневной жизни затруднено в связи с предъявляемыми к ним требованиями. Диалоговая система должна не просто отвечать на вопросы шаблонными фразами, но и вести беседу на естественном языке, подстраиваясь под пользователя.

 

Сфера применения ИДС обширна: автоматизированные службы поддержки, системы диагностирования и проверки знаний, индустрия развлечений и т.д. При этом ориентация на конечного пользователя является ключевым моментом в про­цессе взаимодействия системы и человека: пол, возраст, эмоциональные особенности личности определяют формат ответа, синтезируемый ИДС.

Распознавание пользователя ИДС, его эмоционального состояния, других персональных черт и т.п. осуществляется на основе акустических характеристик голосового сигнала [1, 2]. При этом количество извлекаемых из звукозаписи параметров достигает нескольких сотен, что затрудняет работу привлекаемых алгоритмов (ввиду взаимной корреляции признаков, их зашумленности).

Поэтому важной задачей в процессе идентификации пользователя и его персональных характеристик (в том числе эмоций) является извлечение информативной системы признаков, используемых в дальнейшем алгоритмами распознавания. В данной статье для решения поставленной задачи предлагается использовать подходы, основанные на привлечении эвристической оптимизационной процедуры, а именно адаптивного многокритериального генетического алгоритма (ГА). Разработанные методики могут служить алгоритмическим ядром при реализации модулей ИДС.

Модели извлечения информативных признаков

При решении задач классификации целесообразно осуществлять предобработку данных, используемых алгоритмом обучения, поскольку атрибуты могут иметь низкий уровень вариации, коррелировать друг с другом или содержать зашумленные измерения, снижающие точность классификатора.

В случае, когда стандартные методы извлечения информативных признаков (метод главных компонент, факторный анализ) не демонстрируют приемлемую эффективность, для решения данной задачи могут быть применены алгоритмические схемы, основанные на эвристических процедурах оптимизации.

В статье рассматриваются два подхода: согласно первому, процедура отбора признаков осуществляется с привлечением классификатора, с помощью которого оценивается релевантность извлеченных атрибутов; второй подход соответствует этапу предобработки данных и для сравнения различных вариантов подсистем информативных признаков использует статистические характеристики, что требует меньше вычислительных ресурсов. В качестве классификатора в обоих случаях была использована вероятностная нейронная сеть PNN (Probabilistic Neural Network) [3]. PNN реализует статистические методы: осуществляется параллельная оценка функции плотности вероятности для каждого класса.

Архитектура PNN (рис. 1) включает в себя четыре слоя. Первый – входной: количество нейронов равно числу атрибутов в выборке. Каждый нейрон второго слоя (слой образцов) соответствует конкретному примеру из выборки. Входной слой и слой образцов образуют полносвязную структуру. Весовые коэффициенты связей, входящих в слой образцов, устанавливаются равными элементам соответствующего вектора-образца. Функция активации элемента слоя образцов равна:

                          (1)

где x – новый входной образ, который необходимо классифицировать.

Значение s в (1) задает ширину функции активации, чаще всего оно подбирается в ходе эксперимента. Далее следует слой суммирования: для каждого класса имеется свой нейрон-сумматор. К элементам данного слоя идут связи от нейронов второго слоя, принадлежащих соответствующему классу. Весовые значения связей фиксируются равными 1. Сумма по каждому классу представляет собой оценку значения функции плотности распределения вероятностей для экземпляров данного класса. Выходной элемент указывает на элемент слоя суммирования с максимальным значением на выходе (определяет номер класса). 

В работе [4] описаны основные алгоритмические схемы, в рамках которых осуществляется отбор признаков из БД.

Подход wrapper – это комбинация оптимиза- ционного алгоритма и классификатора, использующегося для оценки качества извлеченной подсистемы признаков (рис. 2). В данной работе предлагается использовать многокритериальную оптимизационную процедуру, оперирующую двумя функционалами: относительная ошибка классификации, оцениваемая по валидационной выборке, и число отобранных атрибутов. Привле- чение данных критериев позволяет не только улучшить качество получаемых решений, но и сократить объемы используемых данных, а значит, и время, затрачиваемое на их обработку.

Извлечение атрибутов с помощью технологии filter основано на оценке статистических характеристик наборов данных (рис. 3). Для отыскания информативной подсистемы признаков также используется двухкритериальная оптимизационная процедура. Функционалами качества выступают внутриклассовая дисперсия и расстояние между классами.

В качестве метода отбора информативных признаков был выбран ГА многокритериальной оптимизации, оперирующий бинарными строками, где 1 соответствует информативному признаку, а 0 – неинформативному.

Кроме того, для обеспечения гарантированного уровня эффективности работы целесообразно использование модифицированных многокритериальных ГА, основанных на идее самоадаптации. Их применение позволяет избежать настройки генетических операторов экспертом, что, в свою очередь, обусловливает более широкие возможности использования алгоритма для задач различного характера.

Описание модификации алгоритма SPEA

В силу свойств оптимизируемых критериев, а также высокой размерности поискового пространства для решения поставленной задачи был выбран ГА, реализующий метод многокритериальной оптимизации SPEA [5]. Приведем общую схему метода.

1.     Инициализировать начальную популяцию P0 (t = 0).

2.     Скопировать в промежуточное внешнее множество индивидов, чьи векторы решений недоминируемые относительно Pt.

3.     Удалить из промежуточного внешнего множества () индивидов, доминируемых относительно .

4.     Если мощность  больше заданного значения, то применить механизм кластеризации для устранения схожих индивидов.

5.     Сформировать внешнее множество из индивидов

6.     Применить генетические операторы: селекция, скрещивание, мутация.

7.     Проверить выполнение критерия останова: если выполняется, завершить работу алгоритма, иначе – перейти к п. 2.

На шаге 6 требуется настройка генетических операторов: необходимо выбрать один из вариантов скрещивания, определить вероятность мутации. В данном методе применяется турнирная селекция (причем отбор индивидов производится не только из текущей популяции, но и из внешнего множества), поэтому выбор типа селекции не требуется.

В статье [6] предложен следующий вариант адаптивной мутации:

                                           (2)

где t – номер текущего поколения, для которого рассчитывается вероятность мутации.

Для реализации адаптивного оператора скрещивания были применены идеи коэволюционного ГА [7]. На каждом поколении генерирование новой популяции осуществляется всеми типами скрещивания: вариантам оператора выделяются ресурсы (доля индивидов популяции, генерируемых конкретным типом скрещивания на текущем поколении) в зависимости от числа индивидов во внешнем множестве, сгенерированных при помощи данного варианта скрещивания:

                                                         (3)

где Pi – число индивидов во внешнем множестве, сгенерированных при участии i-го типа оператора скрещивания;  – мощность внешнего множества; ni – число индивидов в текущей популяции, сгенерированных с помощью i-го типа оператора; N – мощность популяции.

Для каждого варианта оператора скрещивания вычисляется его пригодность qi по формуле

                                                     (4)

где T – интервал адаптации; k = 0 соответствует последнему поколению в интервале адаптации, k = 1 – предыдущему и т.д.

Через каждые T поколений осуществляется попарное сравнение «пригодности» вариантов скрещивания с целью перераспределения ресурсов согласно правилу

(5)

где si – размер ресурса (количество индивидов), отдаваемого i-м алгоритмом каждому победившему его алгоритму; hi – число поражений алгоритма в попарных сравнениях; social_card – минимально допустимый размер популяции; penalty – размер штрафа для проигравших алгоритмов. Параметр social_card предназначен для поддержания разнообразия вариантов оператора, penalty – для перераспределения ресурсов.

Результаты исследования разработанных методик

Для тестирования предложенных алгоритмических схем были использованы три БД: Berlin [8], SAVEE [9] и VAM [10], содержащие характеристики голосовых записей на немецком, английском и немецком языках соответственно (табл. 1). Каждый звуковой файл описывался 384 признаками, представляющими собой максимальное, минимальное, среднее значения или среднеквадратическое отклонение акустических характеристик, описывающих речевой сигнал, его высоту, вибрации, интенсивность и т.п.

Таблица 1

Описание используемых БД

Table 1

Description of used databases

БД

Язык записи

Объем БД

Классы признаков

Berlin

Немецкий

535

Нейтрально, злость, страх, веселье, грусть, скука, отвращение

SAVEE (Surrey Audio-Visual Expressed Emotion)

Английский

480

Злость, отвращение, страх, счастье, грусть, удивление, нейтрально

VAM (Vera am Mittag)

Немецкий

947

Грусть-скука, злость-волнение, спокойствие, радость-волнение

Для анализа эффективности реализованных подходов для каждой задачи была оценена точность классификации на полном наборе признаков, на информативной подсистеме атрибутов, извлеченной SPEA в рамках подходов wrapper и filter, а также на наборе признаков, полученных с помощью метода главных компонент (PCA) (табл. 2). В скобках указано усредненное количество атрибутов, извлеченных из БД для обучения классификатора.

Таблица 2

Результаты решения задач распознавания эмоций

Table 2

The results of solving emotions recognition tasks

Подход

Точность классификации, %

Berlin

SAVEE

VAM

PNN

58,90 (384)

47,32 (384)

67,07 (384)

PCA+PNN

43,7 (129,3)

26,5 (123,6)

59,4 (148,6)

SPEA_wra- pper+PNN

71,5 (68,4)

48,4 (84,1)

70,6 (64,8)

SPEA_filter+PNN

76,2 (138,6)

60,8 (142,0)

73,2 (152,8)

Полученные результаты усреднялись по 20 прогонам, выборка делилась на обучающую и тестовую в пропорции 70 на 30 %. Как известно, результатом работы метода SPEA является множество не доминируемых по Парето точек, поэтому финальное решение выбиралось с помощью многократных прогонов классификатора на обучающем множестве примеров, часть которых составляла валидационную выборку (20 % от обучающей).

Анализ полученных результатов показал, что применение метода SPEA для извлечения информативных признаков позволяет не только сократить число атрибутов, используемых для обучения классификатора, но и повысить точность получаемых моделей для всех БД, представленных в эксперименте. Более того, разрабатываемые подходы оказались эффективнее метода главных компонент, применение которого приводит к снижению точности распознавания.

При сравнении алгоритмических схем filter и wrapper было выявлено, что первый подход позволяет получить лучшие результаты в смысле точности решения, а то время как второй существенно сокращает число признаков, используемых классификатором.

В заключение отметим, что в данной работе описываются подходы, позволяющие осуществлять автоматический отбор информативных признаков из БД. Представленные алгоритмические схемы предлагается использовать в качестве основы для реализации модулей интеллектуальных диалоговых систем. В рамках проведенного исследования была продемонстрирована высокая эффективность разработанных подходов при решении задач распознавания эмоций человека по речи.

В дальнейшем планируется применить описанные методы для решения задач идентификации пользователя ИДС и определения его пола по речи. Кроме того, для повышения качества решения поставленной задачи целесообразным является привлечение более точных классификаторов и поиск других эффективных эвристических оптимизационных процедур, их реализация и исследование с целью дальнейшей модификации, кооперации и прочего.

Литература

1.     Boersma P. Praat, a system for doing phonetics by computer. Glot international, 2002, no. 5 (9/10), pp. 341–345.

2.     Eyben F., Wöllmer M., and Schuller B. Opensmile: the munich versatile and fast opensource audio feature extractor. Proc. of the Intern. Conf. on Multimedia, 2010, ACM, pp. 1459–1462.

3.     Specht D.F. Probabilistic neural networks. Neural networks, 1990, vol. 3, no. 1, pp. 109–118.

4.     Kohavi R., John G.H. Wrappers for feature subset selection. Artificial Intelligence-97, 1997, pp. 273–324.

5.     Zitzler E., Thiele L. Multiobjective evolutionary algo­rithms: A comparative case study and the strength Pareto approach. Evolutionary Computation, IEEE Transactions on, 1999, vol. 3, no. 4, pp. 257–271.

6.     Daridi F., Kharma N., and Salik J. Parameterless genetic algorithms: review and innovation. IEEE Canadian Review, 2004, vol. 47, pp. 19–23.

7.     Sergienko R., Semenkin E. Competitive cooperation for strategy adaptation in coevolutionary genetic algorithm for con­strained optimization. IEEE Congress on Evolutionary Compu­tation, 2010, pp. 1–6.

8.     Burkhardt F., Paeschke A., Rolfes M., Sendlmeier W.F., and Weiss B. A database of german emotional speech. In Interspeech, 2005, pp. 1517–1520.

9.     Haq S., Jackson P. Machine Audition: Principles, Algo­rithms and Systems, chapter Multimodal Emotion Recognition. IGI Global, Hershey PA, Aug. 2010, pp. 398–423.

10.  Grimm M., Kroschel K., and Narayanan S. The vera am mittag german audio-visual emotional speech database. In Multi­media and Expo, IEEE Intern. Conf. on, IEEE, 2008, pp. 865–868.

References

1.  Praat B.P. A system for doing phonetics by computer. Glot International. 2002, no. 5 (9/10), pp. 341–345.

2.  Eyben F., Wöllmer M., Schuller B. Opensmile: the munich versatile and fast opensource audio feature extractor.
Proc. of the Intern. Conf. on Multimedia. ACM Publ., 2010, pp. 1459–1462.

3.  Specht D.F. Probabilistic neural networks. Neural Networks. 1990, vol. 3, no. 1, pp. 109–118.

4.  Kohavi R., John G.H. Wrappers for feature subset selection. Artificial Intelligence-97. 1997, pp. 273–324.

5.  Zitzler E., Thiele L. Multiobjective evolutionary algorithms: A comparative case study and the strength Pareto
approach. IEEE Transactions on Evolutionary Computation, 1999, vol. 3, no. 4, pp. 257–271.

6.  Daridi F., Kharma N., Salik J. Parameterless genetic algorithms: review and innovation.  IEEE Canadian Review.
2004, vol. 47, pp. 19–23.

7.  Sergienko R., Semenkin E. Competitive cooperation for strategy adaptation in coevolutionary genetic algorithm for
constrained optimization. IEEE Congress on Evolutionary Computation. 2010, pp. 1–6.

8.  Burkhardt F., Paeschke A., Rolfes M., Sendlmeier W.F., Weiss B. A database of german emotional speech.
Interspeech. 2005, pp. 1517–1520.

9.  Haq S., Jackson P. Machine audition: Principles, Algorithms and Systems, chapter Multimodal Emotion Recognition.
IGI Global. Hershey PA, Aug. 2010, pp. 398–423.

10.  Grimm M., Kroschel K., Narayanan S. The vera am mittag german audio-visual emotional speech database. IEEE Int.
Conf. on Multimedia and Expo. 2008, pp. 865–868.


Permanent link:
http://swsys.ru/index.php?page=article&id=3909&lang=en
Print version
Full issue in PDF (6.61Mb)
Download the cover in PDF (0.95Мб)
The article was published in issue no. № 4, 2014 [ pp. 127-131 ]

Back to the list of articles