« Et merde ! » ou comment faire rentrer une émotion dans un Algorithme

La tendance actuelle est au rapprochement entre l’homme et la machine. Nous demandons, ou demanderons dans un futur proche, à nos machines non seulement de comprendre les actions que nous voulons effectuer de manière automatique mais également de comprendre nos états d’âmes, désirs ou émotions.

Sur ce dernier point l’un des axes de recherche de l’affective computing [1] s’attache à la modélisation et la reconnaissance des émotions humaines par la machine. Les modalités utilisables pour la reconnaissance sont multiples : images [2], conductivité de la peau [3], voix [4].

La reconnaissance d’émotions (colère, joie, tristesse, etc) ne peut être traitée avec des méthodes algorithmiques classiques du fait du très grand nombre de dimensions entrant en jeu et doit faire appel à des méthodes d’apprentissage statistiques (machine learning).

Comment ça marche ?

Afin de permettre à la machine de reconnaitre des émotions il est nécessaire de lui fournir en entrée des observations. Ces observations, qui doivent être fournies en nombre suffisant et être représentatives, permettront à la machine « d’apprendre ». Le point important lors de toute tâche d’apprentissage est le choix des descripteurs à prendre en compte. Nous entendons par descripteur un ensemble de paramètres permettant de caractériser un concept (ici une émotion). Ce choix implique une connaissance soit du métier dans le contexte de l’entreprise soit du phénomène à analyser.

Dans notre cas le caractère subjectif d’une émotion complique tâche. Le choix des descripteurs, bien que crucial, se révèle éminemment complexe car il implique une forme de consensus sur la manière dont une émotion est exprimée. Les théories issues des analyses acoustiques et psychologiques nous orientent cependant vers les descripteurs suivants :

  • L’énergie émise lors du processus de vocalisation
  • L’intensité de la voix
  • La fréquence fondamentale (F0)
  • Les descripteurs traduisant non pas la fréquence réelle du son mais celle perçue par l’oreille humaine (le plus souvent basé sur les Mel-frequency cepstral coefficients)

Une fois les descripteurs de base choisis la méthode classique consiste à découper le signal vocal en segments de très petite taille (en général 10 millisecondes) et à calculer une série d’indicateurs statistiques à partir des données extraites (minimum, maximum, moyenne, médiane, etc).

Par exemple si le segment vocal à analyser dure 1 seconde il y aura 100 segments a partir desquels seront calculés l’énergie, la fréquence fondamentale, etc et sur lesquels il sera possible de réaliser les statistiques.

Lorsque l’ensemble des descripteurs du phénomène émotionnel est calculé un vecteur de valeurs (généralement plusieurs milliers d’élément) est constitué. Ce vecteur est sensé représenter de manière suffisamment complète les éléments décrivant une émotion exprimée vocalement. Ces informations constituent l’ensemble d’entrainement (train set).

Les vecteurs sont par la suite transmis en entrée d’un classifier (un SVM [5] par exemple). Le but de ce classifier sera dans un premier temps de déterminer, dans un espace continu, la frontière séparant les différentes classes d’émotion. Une fois le niveau de séparation jugé suffisants le résultat de cet entrainement fourni un modèle. Le modèle est par la suite utilisé pour fournir des prédictions (dans notre cas « colère », « joie », « tristesse ») lorsque nous fournissons en entrée un nouveau segment vocal.

illu-machine-learning

Les performances des modèles de prédiction des émotions se situent aujourd’hui à environ 80% de réponse correctes lorsqu’il s’agit de prédire si une émotion est plutôt négative ou positive. Les performances chutent très rapidement lorsque des classes plus fines sont introduites (tristesse versus ennui par exemple).

Références :

[1] R.W. Picard (1997), “Affective Computing,” MIT Press, Cambridge, 1997

[2] Cohen, I.: Facial Expression Recognition from Video Sequences, MS Thesis, Univ. of Illinois at Urbana-Champaign, Dept. of Electrical Engg. (2000)

[3] Kim J, André E (2008) Emotion recognition based on physiological changes in music listening. IEEE Trans Pattern Anal Mach Intell 30(12):2067–2083. doi:10.1109/TPAMI.2008.26

[4] B. Schuller, G. Rigoll and M. Lang, “Hidden Markov model-based speech emotion recognition,” Acoustics, Speech, and Signal Processing, 2003. Proceedings. (ICASSP ‘03). 2003 IEEE International Conference on, 2003, pp. II-1-4 vol.2. doi: 10.1109/ICASSP.2003.1202279

[5] Vapnik V. (1998). The Nature of Statistical Learning Theory, Springer.

Article réalisé par Christophe VAUDABLE :

Issu du monde de la recherche et passé depuis quelques années dans le monde de l’entreprise je suis aujourd’hui data scientist. Mon activité se concentre sur la conception de modèles prédictifs et d’études liées à la veille concurrentielle. Je suis également enseignant au seins de différents cursus (ENSAI, MBA ESG, EPITECH) liés à la data et à la modélisation statistiques.

Logo_Linkedin_petit

Laisser un commentaire