4.4.1 Inglese

Il database TIMIT è stato creato a scopo di ricerca sotto la sponsorizzazione del Defense Advanced Research Projects Agency - Information Science and Technology Office (DARPA-ISTO). Al progetto hanno lavorato Massachusetts Institute of Technology (MIT), Stanford Research Institute (SRI), Texas Instruments (TI) e National Institute of Standards anf Technology (NIST) creando il CD-ROM da noi usato.

TIMIT contiene 10 frasi provvenienti da 630 parlatori, per un totale di 6300 frasi. Esse sono suddivise tra gli 8 più importanti dialetti presenti negli Stati Uniti. Come dialetto si intende l'area geografica in cui un parlatore ha vissuto i primi anni della sua infanzia. (Tabella 4.2)
Ogni parlatore pronuncia 10 frasi così suddivise:


Table 4.2: Divisione in dialetti
Dialetto Maschi   Femmine   Totale  
1 (New England) 31 (63%) 18 (27%) 49 (8%)
2 (Northern) 71 (70%) 31 (30%) 102 (16%)
3 (North Midland) 79 (67%) 23 (23%) 102 (16%)
4 (South Midland) 69 (69%) 31 (31%) 100 (16%)
5 (Southern) 62 (63%) 36 (37%) 98 (16%)
6 (Città New York) 30 (65%) 16 (35%) 46 (7%)
7 (Western) 74 (74%) 26 (26%) 100 (16%)
8 (Army Brat) 22 (67%) 11 (33%) 33 (5%)
Totale 438 (70%) 192 (30%) 630 (100%)


Le frasi di tipo dialettale, contrassegnate con SA, sono costruite per far prevalere le caratteristiche dialettali di un determinato parlatore. Le frasi foneticamente diverse, invece, sono composte da quei fonemi più difficili da trovare nella lingua comune e sono più difficili da riconoscere correttamente. Le frasi di tipo SX, foneticamente compatte, sono invece fatte per dare la più elevata diversità fonetica. Questo migliora l'addestramento perché, dando al riconoscitore frasi con composizione fonetica molto diversa, esso si addatterà meglio a discriminare tra i vari fonemi.

Table 4.3: Composizione frasi in TIMIT
Tipo di frase   N frasi N parlatori per frase Totale Frasi/Parlatore
Dialettale (SA) 2 630 1260 2
Diverse (SX) 450 7 3150 5
Compatte (SI) 1890 1 1890 3
Totale   2342   6300 10


La tabella (4.3) illustra la composizione delle varie frasi del database. I parlatori sono poi ulteriormente divisi in due sottoinsiemi, uno di addestramento e uno di test. L'insieme di addestramento comprende 462 parlatori per un totale di 4620 frasi, mentre quello di test è composto da 168 parlatori che pronunciano 1680 frasi. Nei nostri esperimenti si è deciso di eliminare le frasi dialettali (SA) poichè, essendo tutte uguali, avrebbero portato ad una polarizzazione del modello sui fonemi presenti in esse, e un miglioramento dei risultati in fase di test. Il miglioramento si sarebbe ottenuto per il fatto che su 10 frasi di una parlatore di test, due di esse, sarebbero state di tipo SA, perciò quasi sicuramente riconosciute in modo migliore rispetto alle altre. A seguito di tale modifica, le frasi di training da noi utilizzate sono 3696 mentre quelle di test sono 1344.
Stefano Scanzio 2007-10-16