SpeechCon Catalan


La Universitat Politècnica de Catalunya (UPC) i Applied Tecnologies on Language and Speech (ATLAS) han enregistrat i processat una gran base de dades oral dins d'aquest projecte finançat per la Generalitat de Catalunya.

El corpus conté la veu de 550 persones, cadascuna enregistrada en 1 sessió, d'on aproximadament la meitat seran dones i la meitat homes. Una sessió consisteix d'unes 291 locucions llegides i d'un màxim de 30 més de parla espontània enregistrades amb 4 micròfons mitjançant una plataforma mòbil.


Definició del contingut de la base de dades

Una sessió consisteix d'unes 291 locucions llegides i un màxim de 30 més d'espontànies. La següent taula mostra els continguts de cada locució:

Indentificador del corpusIdentificador de la locucióContingut del corpus
Informació de cal·libració
_ (guió baix)01 -06 Enregistraments de soroll:
    distància mitjana: 01=pos mig, 02=pos esquerra, 03=pos dreta
    llarga distància: 04=pos mig, 05=pos esquerra, 06=pos dreta
N01Enregistrament de la "paraula de silenci"
Locucions de parla espontània lliure
F01 -305 minuts (temps de la sessió) de parla espontània lliure, locucions de context ric (explicar una història)Un nombre variable de temes espontanis d'un total de 30
Locucions espontànies induïdes
E D1 -D3 3 dates 17 locucions espontànies induïdes
ET1 -T2 2 temps
EP1-P33 noms propis
EC1 -C22 noms de ciutats
EL11 seqüències de lletres
EQ1 -Q22 respostes de preguntes
EN1 -N33 números de telèfon
EO11 idioma
Parla llegida
S01 -3030 frases riques fonèticament
W01 -055 paraules riques fonèticament
Paraules (llegides) bàsiques 31 paraules i frases generals, 208 aplicacions paraules i frases específiques
CI1 -I44 dígits aïllats31 paraules i frases generals
CB11 seqüència de dígits aïllats
CC1 -C44 seqüència de dígits connectats
CE11 número de telèfon
CN1 -N3 3 nombres naturals
CM11 quantitat de diners
CT1 -T2 2 frases de temps
T1: analògic, T2: digital
CD1 -D33 dates
D1: analògica, D2: data relativa i general, D3: digital
CL1 -L33 seqüències de lletres
CP11 noms propis
CO1 - O22 noms de ciutat o de carrer
CQ1 - Q22 preguntes
CK1 - K22 caràcters especials del teclat
CW11 adreces web
CW2 1 adreces d'email
Y01 -99Sinònims de paraules del nucli
101 -85Comandes bàsiques IVRTotal de 208 paraules i frases per sessió d'un total de 453.
2 01 -40Paraules per navegació
301 -22Edició
401 -57Control de sortida
501 -70Missatges i Navegació per internet
601 -33Funcions de l'organitzador
701 -39Encaminament
801 -12Automoció
901 -95Àudio i Vídeo


Informants

El nombre d'informants és de 550 i cada un enregistra 1 sessió. Els informants han estat seleccionats seguint el criteri:

  • Equilibri entre dialectes. El mapa mostra les quatre 4 regions dialectals definides en aquest projecte. Un mínim de 97 informants per regió és obligatori.
  • Equilibri pel que fa al sexe.
  • Equilibri pel que fa a l'edat. Tres grups d'edat 16-30, 31-45, 46-60 estan igualment representats a la base de dades.


Figura 3. Dialectes de Catalunya

Regió#Homes#Dones
CENTRAL113132
NORD-OCCIDENTAL4955
GIRONI4755
TORTOSI5247

Numero de trucades rebudes per cada regió

EdatHomesDonesPercentatge del total
15-3014516656.5%
31-45848530.7%
46-6023319.8%
mes de 60972.9%
TOTAL261289100.0%

Distribució dels informants per grups d'edat y gènere

Condicions d'enregistrament

S'han definint 5 ambients:

  • Oficina: Una oficina, és a dir, una habitació on la gent treballa amb escriptoris, normalment o probablement amb un ordinador. No haurien de tenir lloc reunions a l'oficina durant els enregistraments.
  • Entreteniment (ambient domèstic): Sala d'estar, és a dir, una habitació amb alguns mobles i llocs on la gent hi pot seure. Una taula, un televisor o algun equip de so hi haurien de ser presents. Enlloc d'una sala d'estar, una habitació d'hotel també és possible.
  • Cotxe: Vehicle per 4 o 5 passatgers
  • Lloc public: Un vestíbul gran o espai obert. El vestíbul hauria de tenir almenys 3 parets i un sostre; amb gent més o menys ocupada però no massa silenciosa. Un espai obert no té parets i tampoc un sostre tancat. Evidentment, pot estar delimitat per les parets dels edificis del voltant. En aquest cas, un màxim de 2 parets poden estar a menys de 2 metres. Això permet fer enregistraments al racó format per 2 edificis. En tots el casos, els arbres, les botigues petites, un espai obert on prendre el cafè, el tràfic així com també una vorera, són possibles.

La taula següent mostra la distribució dels informants en els escenaris:

Escenari Total
Oficina200
Entreteniment75
Llocs públics200
Cotxe7


Distribució dels informants en els escenaris

EntornHomesDonesTotal
Oficina86114200
Lloc d'esbarjo264975
Lloc públic11585200
Cotxe344175

Distribució de trucades per entorn de gravació

Formats dels fitxers de veu

Al cotxe es graven quatre canals d'àudio d'alta qualitat mitjançant una plataforma mòbil. Les dades s'emmagatzemen en seqüències de 16 bits sense compressió i utilitzant una freqüència de mostreig de 16 kHz.

Cada registre s'emmagatzema en un fitxer separat. Cada fitxer de veu té un fitxer d'etiquetes SAM associat on hi ha una descripció de la freqüència de mostreig, la quantificació i el número de bytes per mostra, entre d'altres. A més, també hi ha informació relativa al nivell de soroll ambient en el moment de l'enregistrament i del valor de la relació senyal-soroll del fitxer de veu.

Lloc i plataforma d'enregistrament

La plataforma d'enregistrament consisteix en un ordinador portàtil que usa un slot PCMCIA com a interfície per a l'equipament d'àudio. Com a sistema operatiu s'usa Windows XP; la targeta de so en depèn. La UPC ha desenvolupat un programari d'enregistrament específic per a aquest projecte. És possible enregistrar fins a quatre micròfons de manera simultània.

Els micròfons utilitzats depenen de l'ambient on es realitza l'enregistrament: Oficina, entreteniment, cotxe o lloc públic. Cadascun d'aquests ambients d'enregistrament té les seves característiques de soroll, nombre i tipus de micròfons a ser enregistrats simultàniament i posició de la plataforma d'enregistrament i dels micròfons.

Des del punt de vista de les configuracions, els ambients d'oficina i d'entreteniment són tractats de la mateixa manera. Així, es distingeixen 4 configuracions diferents del maquinari:

Escenari Curta distància Mitja distància Llarga distància
oficina, entretenimentSennheiser ME 104 Nokia Lavalier HDC-6DSennheiser ME 64 -Mikrofonbau Haun MBNM-550 E-L
llocs publicsSennheiser ME 104 Nokia Lavalier HDC-6DSennheiser ME 64 Mikrofonbau Haun MBNM-550 E-L -
cotxeSennheiser ME 104 Nokia Lavalier HDC-6DAKG Q400 Mk3 T Peiker ME15/V520-1-

 Posicions dels micròfons en relació als escenaris d'enregistrament


La següent figura dóna una visió general de les posicions de muntatge. La posició de 'curta distància' es posarà el micròfon ME104 a 2 cm de la boca, i el HDC-6D fa 10 cm.


Posicions pel muntatge dels micròfons


Entre tots els escenaris d'enregistrament, els micròfons de 'mitja distància' i 'llarga distància' estan encarats a l'informant. La persona enregistrada s'asseu a una cadira durant tota la sessió. Els dos micròfons de 'curta distància' estan muntats sobre el mateix informant i els micròfons de 'mitja' i 'llarga distància' estan situats a una alçada mitja de 1.2 metres, permetent una desviació de 50 cm. Pel que fa a les propietats de reverberació d'un lloc, la posició dels informants relativa a objectes reflectors, com les parets, és important. Les etiquetes de posició diferencien en categories aquestes posicions de forma genèrica. Per cada lloc d'enregistrament i posició específica, la resposta impulsional de l'habitació és mesurada. Per cada sessió, un nivell de soroll és mesurat.

El procediment d'enregistrament està completament supervisat per un operador. El procediment per una sessió es fa de la següent manera:

  1. Desconnectar l'equip de la font d'alimentació
  2. Introduir la informació: sexe, edat, codi de l'informant i dialecte
  3. Ajustar els amplificadors segons el nivell de la veu de l'informant. La posició dels amplificadors es manté fixa durant tota la sessió
  4. Mesurar el nivell de soroll i introduir el valor al sistema d'enregistrament.
  5. Començar els enregistraments. L'informant ha de contestar o llegir allò que apareix a la pantalla
  6. L'operador comprova els enregistraments, les mesures de SNR i les formes d'ona del senyal de veu. Pitjant una tecla es pot mostrar de nou el mateix text i repetir-ne l'enregistrament, mentre que pitjant una altra tecla es mostra i s'enregistra un nou text.
  7. Al final dels enregistraments, l'operador els desa.

Transcripció

La transcripció la ha dut a terme l'empresa ATLAS. Està inclosa en aquesta base de dades i la característica principal és que és ortogràfica i lèxica amb alguns detalls que representen sorolls audibles (veu i no-veu) presents en els corresponents senyals d'àudio. Les marques extres contingudes en la transcripció ajuden a interpretar el text de la frase. Les transcripcions es fan en dos passos: un primer pas en el qual es transcriuen les paraules i un segon pas on s'afegeixen els detalls addicionals.

Les marques extres s'utilitzen per a males pronunciacions, paraules inintelligibles i sorolls. Els símbols pels sorolls són:

[fil]: Pausa sonora.
Aquests sons es poden modelar bé en un model de pauses sonores en reconeixedors de veu. Alguns exemples son: uh, um, er, ah, mm.
[spk]: Soroll d'informant.
Tots els sorolls i sons fets per l'informant i que no formen part del text preparat com soroll de llavis, tossir, aclariment de la gola, clicks amb la llengua, respiració sorollosa, riures,...
[sta]: Soroll estacionari
Aquesta categoria conté sorolls de fons que no són intermitents i tenen un espectre d'amplitud més o menys estable. En són exemples el soroll de cotxe, soroll de carrer, soroll de canal, GSM, veus de fons, soroll de fons de llocs públics, ....
[int]: Soroll intermitent
Aquesta categoria conté sorolls de naturalesa intermitent. Aquests sorolls típicament ocorren una vegada (cop de porta) o tenen pauses (ring del telèfon), o canvien el seu espectre amb el temps (música). En són exemples: música, veu de fons, nen plorant, telèfon sonant, cop de porta, campana timbre, paper arrugat, converses creuades.

La base de dades es transcriu mitjançant el programari UPCRevBD.v1, desenvolupat a la UPC. Un 1% de les transcripcions es transcriu dues vegades per a detectar errors. La base de dades final ha estat supervisada i validada per un organisme extern independent.


Informació lèxica i fonètica

La documentació inclou un lexicon. El fitxer amb el lexicon és una llista ordenada alfabèticament de les diferents partícules lèxiques (essencialment paraules en el nostre cas) que ocorren en el corpus amb la corresponent informació de pronunciació. Cada paraula diferent té una entrada diferent. Com que el lexicon es deriva del corpus, usa la mateixa codificació alfabètica per a caràcters especials i accentuats com en les transcripcions (ISO-8859). El fitxer inclou també un recompte de freqüència d'aparició per a cada entrada en el lexicon.

Després de la fase de transcripció es genera un lexicon que conté totes les paraules que apareixen en el "LBO:" (una aparició per paraula) ordenades alfabèticament, el seu número d'aparicions, i la seva transcripció fonètica. Les paraules apareixen en el lexicon exactament igual que en la transcripció. Les marques de sorolls, fragments i paraules mal pronunciades no apareixen en el lexicon. El lexicon no conté majúscules.

El programari SEGRE, desenvolupat a la UPC, s'utilitza per a transcriure fonèticament les paraules amb la notació SAMPA. El lexicon es transcriu automàticament. El noms propis i noms d'empreses es faran manualment.

Mostra de veu

Des d'aquí pots baixar el fitxer de veu

Mostra de fitxer de dades

Fitxer d'etiquetes ASCII SAM del fitxer de veu.

Paraules d'aplicació

Es poden trobar aquí.

Disponibilitat

La base de dades és pública.
Fitxer de documentació i resultats

Informació: asunciongps.tsc.upc.es