The Universitat Politècnica de Catalunya (UPC) and Applied Tecnologies on Language and Speech (ATLAS) have recorded and processed a large oral database inside this project, funded by the Generalitat de Catalunya.
This database contains the recordings of 600 different sessions made with 300 informants. Each session consists of 119 read phrases and other spontaneous phrases that have been recorded using 4 microphones installed in cars.
Aquesta base de dades comprèn els enregistraments de 600 sessions diferents fetes a partir de 300 informants. Una sessió consisteix en 119 locucions llegides i altres d'espontànies, que han estat gravades mitjançant quatre micròfons instal·lats en cotxes.
Cada sessió consisteix en l'enregistrament de 119 locucions llegides i 10 més d'espontànies. Aquestes últimes només són pronunciades en les últimes 200 sessions. La següent taula mostra el contingut de cada locució:
# Item | Contingut del corpus | |
---|---|---|
2 | paraules clau d'activació de sistemes per veu | |
1 | seqüència de 10 dígits aïllats | |
1 | número de full (4+ dígits) | 7 dígits connectats |
1 | número de telèfon espontani (9-11 dígits) | |
3 | números de telèfon llegits | |
1 | número de targeta de crèdit (16 dígits) | |
1 | codi PIN (6 dígits) | |
1 | data espontània (aniversari) | 3 dates |
1 | data llegida | |
1 | expressió de data relativa o general | |
2 | frase per a word spotting mitjançant paraules d'aplicació | |
4 | dígit aïllat | |
1 | nom espontani | 7 paraules lletrejades |
1 | lletreig de ciutat | |
4 | paraula real/nom | |
1 | seqüència de lletres per cobertura | |
1 | quantitat de diners | |
1 | numero natural | |
1 | nom espontani | 7 noms d'una llista d'access |
1 | ciutat (espontània) | |
2 | ciutats de les més comunes | |
2 | empreses de les més comunes | |
1 | nom/cognom | |
9 | frases fonèticament riques | |
1 | hora del dia (espontàniea) | 2 frases d'hores |
1 | frase d'hora (amb paraules) | |
4 | paraules fonèticament riques | |
13 | paraules d'aplicació per telèfon mòbil | 67 paraules d'aplicació |
22 | paraules clau de funcions IVR | |
32 | paraules clau de productes de cotxe | |
2 | paraules clau adicionals dependents de llenguatge | |
10 | textos de parla espontània |
El nombre d'informants és de 300 i cada un enregistra dues sessions. Els informants han estat seleccionats mitjançant el següent criteri:
Figura 3. Dialectes de Catalunya
Regió | Numero d'informants | Numero de sessions | Numero de sessions (%) |
---|---|---|---|
NORTH_WEST | 70 | 140 | 23.3% |
CENTRAL | 231 | 460 | 76.7% |
301 | 600 | 100% |
Numero de trucades rebudes per cada regió
Grups d'edat | Homes | Dones | Percentatge del total | |||
---|---|---|---|---|---|---|
Informants | Sessions | Informants | Sessions | Informants | Sessions | |
18-30 | 79 | 157 | 101 | 201 | 59.8% | 59.6% |
31-45 | 42 | 84 | 34 | 68 | 25.2% | 25.3% |
46-60 | 19 | 38 | 26 | 52 | 15% | 15.1% |
TOTAL | 140 | 279 | 161 | 321 | 100% | 100% |
Distribució dels informants per grups d'edat y gènere
Al cotxe es graven quatre canals d'àudio d'alta qualitat mitjançant una plataforma mòbil. Les dades s'emmagatzemen en seqüències de 16 bits sense compressió i utilitzant una freqüència de mostreig de 16 kHz.
Cada registre s'emmagatzema en un fitxer separat. Cada fitxer de veu té un fitxer d'etiquetes SAM associat.
La plataforma d'enregistrament consisteix en un ordinador portàtil que usa un slot PCMCIA com a interfície per a l'equipament d'àudio. Com a sistema operatiu s'usa Windows XP; la targeta de so en depèn. La UPC ha desenvolupat un programari d'enregistrament específic per a aquest projecte. És possible enregistrar fins a quatre micròfons de manera simultània.
Per a l'enregistrament al cotxe s'han utilitzat quatre micròfons: dos de parla propera (mans lliures) i dos de parla llunyana. Són els següents:
Els dos primers micròfons són de parla propera i es col·loquen sobre l'informant mateix, mentre que els altres dos són de parla llunyana i s'instal·len a prop del retrovisor interior del cotxe.
El procediment d'enregistrament està completament supervisat per un operador. El procediment per una sessió es fa de la següent manera:
Hi ha definides 7 condicions d'ambient. Cada ambient està igualment representat a la base de dades final.
A més, s'ha recopilat altra informació durant els enregistraments:
Entorn | Sessions | Percentage (%) |
---|---|---|
Aturat | 134 | 22.3 |
Ciutat | 139 | 23.2 |
Ciutat amb soroll | 33 | 5.5 |
Velocitat reuida | 167 | 27.8 |
Velocitat reduida amb soroll | 30 | 5 |
Velocitat moderada | 97 | 16.2 |
Total | 600 | 100 |
Distribució de trucades per entorn de gravació
La transcripció la ha dut a terme l'empresa ATLAS. Està inclosa en aquesta base de dades i la característica principal és que és ortogràfica i lèxica amb alguns detalls que representen sorolls audibles (veu i no-veu) presents en els corresponents senyals d'àudio. Les marques extres contingudes en la transcripció ajuden a interpretar el text de la frase. Les transcripcions es fan en dos passos: un primer pas en el qual es transcriuen les paraules i un segon pas on s'afegeixen els detalls addicionals.
Les marques extres s'utilitzen per a males pronunciacions, paraules inintelligibles i sorolls. Els símbols pels sorolls són:
La base de dades es transcriu mitjançant el programari UPCRevBD.v1, desenvolupat a la UPC. Un 1% de les transcripcions es transcriu dues vegades per a detectar errors. La base de dades final ha estat supervisada i validada per un organisme extern independent.
La documentació inclou un lexicon. El fitxer amb el lexicon és una llista ordenada alfabèticament de les diferents partícules lèxiques (essencialment paraules en el nostre cas) que ocorren en el corpus amb la corresponent informació de pronunciació. Cada paraula diferent té una entrada diferent. Com que el lexicon es deriva del corpus, usa la mateixa codificació alfabètica per a caràcters especials i accentuats com en les transcripcions (ISO-8859). El fitxer inclou també un recompte de freqüència d'aparició per a cada entrada en el lexicon.
Després de la fase de transcripció es genera un lexicon que conté totes les paraules que apareixen en el "LBO:" (una aparició per paraula) ordenades alfabèticament, el seu número d'aparicions, i la seva transcripció fonètica. Les paraules apareixen en el lexicon exactament igual que en la transcripció. Les marques de sorolls, fragments i paraules mal pronunciades no apareixen en el lexicon. El lexicon no conté majúscules.
El programari SEGRE, desenvolupat a la UPC, s'utilitza per a transcriure fonèticament les paraules amb la notació SAMPA. El lexicon es transcriu automàticament. El noms propis i noms d'empreses es faran manualment.
Des d'aquí pots baixar el fitxer de veu (Encara no disponible).
Fitxer d'etiquetes ASCII SAM del fitxer de veu (Encara no disponible).
Es poden trobar aquí.
La base de dades és pública.
Fitxer de documentació i resultats
Informació: asunciongps.tsc.upc.es
Copyright © 2017 - Designed by Madstudio