Processat de la parla i àudio en interfícies multimodals

Climent Nadeu 
 
En el context de la interpretació persona –màquina, resulta cada cop més important que els ordinadors s’adaptin a les necessitats humanes, formant part de la comunicació entre les persones i requerint la menor atenció explícita possible per part dels usuaris. Una de les implicacions d’aquest fet és la necessitat d’interfícies d’usuaris multimodals, amb capacitats perceptives robustes i que utilitzen sensors no intrusius.Al centre TALP es treballa en un conjunt de sistemes d’anàlisi d’escena acústica amb un cert número de funcionalitats perceptives i cognitives, investigant en les tecnologies de processat de la parla i àudio que les possibiliten: identificació del locutor, reconeixement de la parla, localització i separació de fonts acústiques, detecció i classificació de sons, etc.
 
El context d’aplicació és el de la sala intel·ligent construïda recentment al nostre edifici D5, equipada amb prestacions d’àudio i vídeo, i que s’orienta a activitats docents del tipus representació o classe seminari. El nostre treball enfocat en profunditzar en el plantejament multimodal, en concret la integració de les modalitats d’àudio i vídeo, aprofitant la col·laboració ja existent amb el grup de Processat d’Imatge del departament de TSC. Aquesta investigació es realitza actualment en el context del projecte integrat europeu CHIL i el projecte CICyT ACESCA.