SpeechDat CAR Catalan

The Universitat Politècnica de Catalunya (UPC) and Applied Tecnologies on Language and Speech (ATLAS) have recorded and processed a large oral database inside this project, funded by the Generalitat de Catalunya.

This database contains the recordings of 600 different sessions made with 300 informants. Each session consists of 119 read phrases and other spontaneous phrases that have been recorded using 4 microphones installed in cars.

La Universitat Politècnica de Catalunya (UPC) i Applied Tecnologies on Language and Speech (ATLAS) han enregistrat i processat una gran base de dades oral dins d'aquest projecte finançat per la Generalitat de Catalunya.

Aquesta base de dades comprèn els enregistraments de 600 sessions diferents fetes a partir de 300 informants. Una sessió consisteix en 119 locucions llegides i altres d'espontànies, que han estat gravades mitjançant quatre micròfons instal·lats en cotxes.

Definició del contingut de la base de dadeesDatabase contents definition

Cada sessió consisteix en l'enregistrament de 119 locucions llegides i 10 més d'espontànies. Aquestes últimes només són pronunciades en les últimes 200 sessions. La següent taula mostra el contingut de cada locució:

# Item	Contingut del corpus
2	paraules clau d'activació de sistemes per veu
1	seqüència de 10 dígits aïllats
1	número de full (4+ dígits)	7 dígits connectats
1	número de telèfon espontani (9-11 dígits)
3	números de telèfon llegits
1	número de targeta de crèdit (16 dígits)
1	codi PIN (6 dígits)
1	data espontània (aniversari)	3 dates
1	data llegida
1	expressió de data relativa o general
2	frase per a word spotting mitjançant paraules d'aplicació
4	dígit aïllat
1	nom espontani	7 paraules lletrejades
1	lletreig de ciutat
4	paraula real/nom
1	seqüència de lletres per cobertura
1	quantitat de diners
1	numero natural
1	nom espontani	7 noms d'una llista d'access
1	ciutat (espontània)
2	ciutats de les més comunes
2	empreses de les més comunes
1	nom/cognom
9	frases fonèticament riques
1	hora del dia (espontàniea)	2 frases d'hores
1	frase d'hora (amb paraules)	2 frases d'hores
4	paraules fonèticament riques
13	paraules d'aplicació per telèfon mòbil	67 paraules d'aplicació
22	paraules clau de funcions IVR
32	paraules clau de productes de cotxe
2	paraules clau adicionals dependents de llenguatge
10	textos de parla espontània

Informants

El nombre d'informants és de 300 i cada un enregistra dues sessions. Els informants han estat seleccionats mitjançant el següent criteri:

Equilibri entre dialectes. S'ha gravat el català oriental (Nord-Occidental i Tortosí) i el català occidental (Central i Gironí)
Equilibri pel que fa al sexe.
Equilibri pel que fa a l'edat. Tres grups d'edat 16-30, 31-45, 46-60 han estat igualment representats a la base de dades.

Figura 3. Dialectes de Catalunya

Regió	Numero d'informants	Numero de sessions	Numero de sessions (%)
NORTH_WEST	70	140	23.3%
CENTRAL	231	460	76.7%
	301	600	100%

Numero de trucades rebudes per cada regió

Grups d'edat	Homes		Dones		Percentatge del total
Grups d'edat	Informants	Sessions	Informants	Sessions	Informants	Sessions
18-30	79	157	101	201	59.8%	59.6%
31-45	42	84	34	68	25.2%	25.3%
46-60	19	38	26	52	15%	15.1%
TOTAL	140	279	161	321	100%	100%

Distribució dels informants per grups d'edat y gènere

Format dels fitxers de veu

Al cotxe es graven quatre canals d'àudio d'alta qualitat mitjançant una plataforma mòbil. Les dades s'emmagatzemen en seqüències de 16 bits sense compressió i utilitzant una freqüència de mostreig de 16 kHz.

Cada registre s'emmagatzema en un fitxer separat. Cada fitxer de veu té un fitxer d'etiquetes SAM associat.

Lloc i plataforma d'enregistrament

La plataforma d'enregistrament consisteix en un ordinador portàtil que usa un slot PCMCIA com a interfície per a l'equipament d'àudio. Com a sistema operatiu s'usa Windows XP; la targeta de so en depèn. La UPC ha desenvolupat un programari d'enregistrament específic per a aquest projecte. És possible enregistrar fins a quatre micròfons de manera simultània.

Per a l'enregistrament al cotxe s'han utilitzat quatre micròfons: dos de parla propera (mans lliures) i dos de parla llunyana. Són els següents:

Sennheiser ME104
Nokia Lavalier HDC-6D
AKG Q400 Mk3 T
Peiker ME15/V520-1

Els dos primers micròfons són de parla propera i es col·loquen sobre l'informant mateix, mentre que els altres dos són de parla llunyana i s'instal·len a prop del retrovisor interior del cotxe.

El procediment d'enregistrament està completament supervisat per un operador. El procediment per una sessió es fa de la següent manera:

Desconnectar l'equip de la font d'alimentació
Introduir les dades: sexe, edat, codi de l'informant i dialecte
Ajustar els amplificadors segons el nivell de la veu de l'informant. La posició dels amplificadors es manté fixa durant tota la sessió
Començar els enregistraments. L'informant ha de contestar o llegir allò que apareix a la pantalla
L'operador comprova els enregistraments, les mesures de SNR i les formes d'ona del senyal de veu. Pitjant una tecla es pot mostrar de nou el mateix text i repetir-ne l'enregistrament, mentre que pitjant una altra tecla es mostra i s'enregistra un nou text.
Al final dels enregistraments, l'operador els desa

Condicions d'enregistrament

Hi ha definides 7 condicions d'ambient. Cada ambient està igualment representat a la base de dades final.

cotxe aturat amb el motor en marxa
cotxe en tràfic urbà
cotxe en tràfic urbà, amb condicions sorolloses
cotxe circulant a baixa velocitat en condicions de carretera rugosa -> carretera, fora de carreteres urbanes
cotxe circulant a baixa velocitat en condicions de carretera rugosa -> carretera, amb condicions sorolloses
cotxe circulant a alta velocitat en condicions de bona carretera (asfalt llis) -> autopista

A més, s'ha recopilat altra informació durant els enregistraments:

Condicions meteorològiques: pluja, cel clar, vent, etc...
Accessoris utilitzats durant els enregistraments: neteja parabrises, ventilació, ventilador, radio
Estat de funcionament del ventilador: apagat, baix, mitjà, alt

Entorn	Sessions	Percentage (%)
Aturat	134	22.3
Ciutat	139	23.2
Ciutat amb soroll	33	5.5
Velocitat reuida	167	27.8
Velocitat reduida amb soroll	30	5
Velocitat moderada	97	16.2
Total	600	100

Distribució de trucades per entorn de gravació

Transcripció

La transcripció la ha dut a terme l'empresa ATLAS. Està inclosa en aquesta base de dades i la característica principal és que és ortogràfica i lèxica amb alguns detalls que representen sorolls audibles (veu i no-veu) presents en els corresponents senyals d'àudio. Les marques extres contingudes en la transcripció ajuden a interpretar el text de la frase. Les transcripcions es fan en dos passos: un primer pas en el qual es transcriuen les paraules i un segon pas on s'afegeixen els detalls addicionals.

Les marques extres s'utilitzen per a males pronunciacions, paraules inintelligibles i sorolls. Els símbols pels sorolls són:

[fil]: Pausa sonora.: Aquests sons es poden modelar bé en un model de pauses sonores en reconeixedors de veu. Alguns exemples son: uh, um, er, ah, mm.
[spk]: Soroll d'informant.: Tots els sorolls i sons fets per l'informant i que no formen part del text preparat com soroll de llavis, tossir, aclariment de la gola, clicks amb la llengua, respiració sorollosa, riures,...
[sta]: Soroll estacionari: Aquesta categoria conté sorolls de fons que no són intermitents i tenen un espectre d'amplitud més o menys estable. En són exemples el soroll de cotxe, soroll de carrer, soroll de canal, GSM, veus de fons, soroll de fons de llocs públics, ....
[int]: Soroll intermitent: Aquesta categoria conté sorolls de naturalesa intermitent. Aquests sorolls típicament ocorren una vegada (cop de porta) o tenen pauses (ring del telèfon), o canvien el seu espectre amb el temps (música). En són exemples: música, veu de fons, nen plorant, telèfon sonant, cop de porta, campana timbre, paper arrugat, converses creuades.

La base de dades es transcriu mitjançant el programari UPCRevBD.v1, desenvolupat a la UPC. Un 1% de les transcripcions es transcriu dues vegades per a detectar errors. La base de dades final ha estat supervisada i validada per un organisme extern independent.

Informació lèxica i fonètica

La documentació inclou un lexicon. El fitxer amb el lexicon és una llista ordenada alfabèticament de les diferents partícules lèxiques (essencialment paraules en el nostre cas) que ocorren en el corpus amb la corresponent informació de pronunciació. Cada paraula diferent té una entrada diferent. Com que el lexicon es deriva del corpus, usa la mateixa codificació alfabètica per a caràcters especials i accentuats com en les transcripcions (ISO-8859). El fitxer inclou també un recompte de freqüència d'aparició per a cada entrada en el lexicon.

Després de la fase de transcripció es genera un lexicon que conté totes les paraules que apareixen en el "LBO:" (una aparició per paraula) ordenades alfabèticament, el seu número d'aparicions, i la seva transcripció fonètica. Les paraules apareixen en el lexicon exactament igual que en la transcripció. Les marques de sorolls, fragments i paraules mal pronunciades no apareixen en el lexicon. El lexicon no conté majúscules.

El programari SEGRE, desenvolupat a la UPC, s'utilitza per a transcriure fonèticament les paraules amb la notació SAMPA. El lexicon es transcriu automàticament. El noms propis i noms d'empreses es faran manualment.

Mostra de veu

Des d'aquí pots baixar el fitxer de veu (Encara no disponible).

Mostra de fitxers de dades

Fitxer d'etiquetes ASCII SAM del fitxer de veu (Encara no disponible).

Paraules d'aplicació

Es poden trobar aquí.

Disponibilitat

La base de dades és pública.
Fitxer de documentació i resultats

Informació: asunciongps.tsc.upc.es

Search form

You are here