Procesado de habla y audio en interfaces multimodales
Climent Nadeu
En el contexto de la interacción persona-maquina, resulta cada vez mas importante que los ordenadores se adapten a las necesidades humanas, formando parte de la comunicación entre las personas y requiriendo la menor atención explícita posible por parte de los usuarios. Una de las implicaciones de este hecho es la necesidad de interfaces de usuario multimodales, con capacidades perceptivas robustas y que utilizen sensores no intrusivos.
En el centro TALP se trabaja en un conjunto de sistemas de analisis de escena acústica con un cierto número de funcionalidades perceptivas y cognitivas, investigando en las tecnologías de procesado de habla y audio que las posibilitan: identificación de locutor, reconocimiento de habla, localización y separación de fuentes acústicas, detección y clasificación de sonidos, etc.
El contexto de aplicación es el de la sala inteligente construida recientemente en nuestro edificio D5, equipada con prestaciones de audio y vídeo, y que se orienta a actividades docentes del tipo presentación o clase seminario. Nuestro trabajo enfocado en profundizar en el planteamiento multimodal, en concreto la integración de las modalidades de audio y video, aprovechando la colaboración ya existente con el Grupo de Procesado de Imagen del departamento TSC. Esta investigación se realiza actualmente en el contexto del proyecto integrado europeo CHIL y el proyecto CICyT ACESCA.