Reconocimiento automático de locutor
Francisco Javier Hernando
El desarrollo de tecnologías capaces de reconocer de forma automática a una persona mediante su voz ha experimentado un creciente interés en los últimos años debido a sus múltiples aplicaciones: controles de acceso, transacciones financieras y comerciales, indexación de audio de reuniones y de programas de radio y televisión, e investigación policial Este área de investigación incluye tanto identificar o verificar la identidad de los locutores como, dada una señal con varios locutores, encontrar las fronteras de separación entre ellos (segmentación del locutor).
La señal de voz depende de las características físicas y emocionales del locutor como son las dimensiones de las cuerdas y el trato vocal, el estado de salud, el estado de ánimo, los hábitos lingüísticos. Además, hay que tener en cuenta el entorno en el que se produce la señal de voz ya que las condiciones del entorno pueden distorsionar la señal. Los sistemas que han obtenido los mejores resultados hasta la fecha usan parámetros denominados de bajo nivel que son, el tono, las magnitudes espectrales, las frecuencias de los formantes Aun así, se sabe que características de alto nivel como el dialecto, el léxico, la entonación, la duración son capaces de discriminar a los locutores.
En el centro TALP se siguen básicamente las siguientes líneas de trabajo:
Identificación y verificación del locutor con parámetros de alto y bajo nivel.
- Identificación y verificación del locutor con parámetros de alto y bajo nivel
- Combinación de parámetros de alto y bajo nivel.
- Robustez de los sistemas al entorno
- Segmentación del locutor.
- Reconocimiento multimodal de las personas.
- Combinación de varias modalidades: voz, caras, iris, huellas dactilares, ...