Reconeixement automàtic de locutor
Francisco Javier Hernando
El desenvolupament de tecnologies capaces de reconèixer de forma automàtica a una persona mitjançant la seva veu ha experimentat un creixent interés en els darrers anys degut a les seves múltiples aplicacions: controls d’accès, transaccions financeres i comercials, indexació d’àudio de reunions i de programes de ràdio i televisió, investigació policial. Aquesta àrea d’investigació inclou tant identificar o verificar la identitat dels locutors com, donat un senyal amb diversos locutors, trobar les fronteres de separació entre ells (segmentació del locutor).
El senyal de veu depèn de les característiques físiques i emocionals del locutor com són les dimensions de les cordes i el tracte vocal, l’estat de salut, l’estat d’ànim, els hàbits lingüístics. A més a més, s’ha de tenir en compte l’entorn en el què es produeix el senyal de veu ja que les condicions de l’entorn poden distorsionar el senyal. Els sistemes que han obtingut millors resultats fins la data fan servir paràmetres denominats de baix nivell que són, el to, les magnituds espectrals, les freqüències dels formants. Encara així, se sap que característiques d’alt nivell com el dialecte, el lèxic, l’entonació, la duració són capaces de discriminar locutors.
Al centre TALP es segueixen bàsicament les següents línies de treball:
- Identificació i verificació del locutor amb paràmetres d’alt i baix nivell
- Combinació de paràmetres de alt i baix nivell
- Robustesa dels sistemes a l’entorn
- Segmentació del locutor
- Reconeixement multimoidal de les persones
- Combinació de diverses modalitats: veu, cares, iris, empreptes dactilars