8.2.1 Esperimento di validazione della tecnica

Per testare la validità della tecnica e validare la scelta dell'errore quadratico medio come misura di vicinanza ad un parlatore, si è deciso di compiere il seguente esperimento.

Si è addestrata una LIN per ognuno dei quattro parlatori del database italiano DB-Micro con 285 frasi di train. Esse rappresentano i modelli di ognuno dei parlatori. Utilizzando le frasi di test dello stesso database si sono addestrate quattro LIN per ogni parlatore con rispettivamente 50, 100, 200 e 300 frasi.

Per il riconoscimento si sono invece utilizzate le ultime 10 frasi di test di ogni parlatore. I parametri utilizzati per l'addestramento sono:

Per ogni parlatore è stato compiuto il run-forward delle LIN addestrate con le frasi di test per quel parlatore e il run-forward dei modelli di ognuno dei quattro parlatori, utilizzando le ultime 10 frasi di test di quel parlatore. Delle uscite ottenute è stato calcolato l'errore quadratico medio, pattern per pattern, tra ogni LIN addestrata con le frasi di test del parlatore e i modelli dei parlatori. Dei quattro errori quadratici medi ottenuti ad ogni pattern, si è scelto quello minore come rappresentante del parlatore riconosciuto.

I risultati riportati in tabella (8.2), rappresentano la percentuale di riconoscimento del parlatore, ottenuta analizzando il numero di pattern assegnati ai vari parlatori rispetto al numero di pattern totali.

Table 8.2: Percentuale di riconoscimento del parlatore, utilizzando la strategia di scelta della LIN avente uscite con errore quadratico medio minore, addestrando i modelli con 50, 100, 200, 300 frasi
50 FRASI DM MA MG RI 100 FRASI DM MA MG RI
Assegnate DM 28.37 0.22 1.59 4.67 Assegnate DM 63.73 0.00 0.54 13.57
Assegnate MA 71.63 99.67 97.60 95.33 Assegnate MA 36.27 100.0 97.84 85.39
Assegnate MG 0.00 0.11 0.81 0.00 Assegnate MG 0.00 0.00 1.62 0.00
Assegnate RI 0.00 0.00 0.00 0.00 Assegnate RI 0.00 0.00 0.00 1.04

200 FRASI DM MA MG RI 300 FRASI DM MA MG RI
Assegnate DM 97.73 0.00 0.00 26.29 Assegnate DM 100.0 0.00 0.00 20.33
Assegnate MA 2.27 100.0 93.81 48.08 Assegnate MA 0.00 100.0 75.41 16.43
Assegnate MG 0.00 0.00 6.19 0.00 Assegnate MG 0.00 0.00 24.59 0.00
Assegnate RI 0.00 0.00 0.00 25.63 Assegnate RI 0.00 0.00 0.00 63.23


I risultati mostrano chiaramente che, per generare una LIN che possa fornire delle uscite valide, al fine di confrontarle con i modelli che rappresentano i parlatori, servono un numero elevato di frasi di training. Con 300 frasi non si riesce ad ottenere ancora un risultato preciso. Il modello di MA risulta essere il più forte e dopo 300 frasi solo il modello del parlatore MG non riesce a rispondere in modo corretto. Questo è un sintomo che le LIN addestrate con le frasi di test, non hanno ancora raggiunto la convergenza. Con ottima probabilità, aumentando le epoche di addestramento da 5 a 10, i risultati migliorerebbero ancora di molto.

Come si vede, l'errore quadratico medio tra le uscite delle LIN riferite ai parlatori e l'ingresso da fornire alla rete SI al fine di ottenere il target, è una buona misura di distanza tra i parlatori.

Stefano Scanzio 2007-10-16