7.2.2 Esperimenti compiuti sul database inglese

Gli esperimenti sul database inglese TIMIT sono stati compiuti per testare la tecnica dell'interpolazione in una situazione maggiormente critica, cioè con poche frasi di adattamento, e con un numero maggiore di parlatori.

In TIMIT sono presenti 10 frasi per ogni parlatore, da cui sono state eliminate le 2 frasi di tipo SA di origine dialettale. L'esperimento è stato compiuto adattando i modelli SD con la prima frase di ognuno dei 168 parlatori di test. Le rimanenti 7 frasi di test di ogni parlatore, sono state utilizzate per ricavare la percentuale di riconoscimento al variare del coefficiente di interpolazione.

Il modello AD è stato addestrato in modo migliore rispetto a quanto avvenuto per l'italiano, in cui erano presenti solamente 4 parlatori. Per addestrarlo si sono utilizzate tutte le frasi di training del database inglese, ad eccezione di quelle di tipo SA, per un totale di 3696 frasi suddivise in 462 parlatori e 10 epoche di addestramento.

Gli esperimenti sono stati eseguiti con 1 e 10 epoche di addestramento dei modelli SD, eseguendo l'interpolazione di tutta la rete e di J-LIN. LIN non è stata analizzata, perchè i suoi risultati sono inferiori rispetto alle prestazioni delle altre due tecniche.

Ottenuti i risultati per ognuno dei 168 parlatori di test, se ne è fatta la media, riportandola in tabella (7.8) e nel grafico (7.10):


Table 7.8: Interpolazione di tutta la rete e di una J-LIN adattate all'ambiente e al parlatore con 1 e 10 epoche
TECNICA 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
TUTTA-1 EPOCA 59.31 60.36 61.14 61.25 61.22 60.82 59.93 58.44 56.75 54.33 49.63
TUTTA-10 EPOCHE 59.31 60.39 61.29 61.63 61.47 60.78 59.71 58.43 56.22 52.58 46.70
J-LIN-1 EPOCA 56.25 57.27 57.74 57.67 57.36 56.76 56.02 55.20 54.29 53.06 52.02
J-LIN-10 EPOCHE 56.25 57.30 57.88 58.06 57.98 57.39 56.86 56.05 55.18 54.30 52.97


Figure 7.10: Interpolazione di tutta la rete e di una J-LIN adattate all'ambiente e al parlatore con 1 e 10 epoche
Image GRAus-int

In tabella (7.8) sono riportati, in grassetto, i valori del coefficiente di interpolazione $\lambda $ per cui si sono ottenuti risultati migliori. In grafico (7.10), invece, le tre rette orizzontali rappresentano rispettivamente la percentuale di riconoscimento della rete SI, di tutta la rete adattata all'ambiente e di una J-LIN adattata all'ambiente.

Bisogna subito notare che i valori dei coefficienti di interpolazione ottimi, riportati in tabella (7.8) in grassetto, non sono valori assoluti, ma mediati tra i vari parlatori.

Analizzando i risultati si vede come l'interpolazione di tutta la rete e di J-LIN offrano i risultati migliori, rispetto alle reti adattate e alla rete SI. Nel caso dell'interpolazione di tutta la rete, l'aumento è più consistente (2.32%) rispetto all'interpolazione di J-LIN (1.81%). Questa minor efficienza di J-LIN è da attribuire alla maggior diversità dei valori ottimi dei coefficienti di interpolazione $\lambda $ tra i 168 parlatori di test.

Come livello assoluto di percentuale di riconoscimento, l'interpolazione di tutta la rete è migliore rispetto all'interpolazione di J-LIN. Questa riduzione della qualità di J-LIN è dovuta dalla minor qualità della rete adattata all'ambiente. Infatti tra l'adattamento di tutta la rete e l'adattamento del solo livello J-LIN esiste una differenza del 3.06%. Questo comportamento non è presente nell'italiano perchè le due reti adattate all'ambiente non offrono una buona percentuale di riconoscimento, perchè addestrate solo con il materiale provveniente da tre parlatori.

Analizzando il $\lambda $ ottimo per ognuno dei 168 parlatori, si nota come esso non sia una costante, ma vari notevolmente da parlatore a parlatore. Da uno studio della distribuzione dei $\lambda $ ottimi si sono ricavati i risultati di tabella (7.9).


Table 7.9: Distribuzione dei coefficienti di interpolazione $\lambda $ ottimi per i 168 parlatori di test
TECNICA 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
TUTTA-1 EPOCA 13 23 32 30 26 23 13 8 0 0 0
in percentuale 7.7 13.7 19.1 17.9 15.5 13.7 7.7 4.8 0 0 0
TUTTA-10 EPOCHE 10 20 37 35 36 15 9 5 1 0 0
in percentuale 6.0 11.9 22.0 20.8 21.4 8.9 5.4 3.0 0.6 0 0
J-LIN-1 EPOCA 27 32 32 25 15 10 9 6 9 1 2
in percentuale 16.1 19.1 19.1 14.9 8.9 6.0 5.4 3.6 5.4 0.6 1.2
J-LIN-10 EPOCHE 21 25 36 25 21 15 6 4 9 4 2
in percentuale 12.5 14.9 21.4 14.9 12.5 8.9 3.6 2.4 5.4 2.4 1.2


Nella tecnica J-LIN, i coefficienti di interpolazione sono distribuiti con maggior regolarità. Prendendo un coefficiente di interpolazione medio, esso porterà un guadagno minore rispetto al interpolazione di tutta la rete, in cui la distribuzione è maggiormente concentrata su alcuni valori di $\lambda $. Anche nell'interpolazione di tutta, la rete la perdita di prestazioni nel prendere un coefficiente di interpolazione medio è molto elevata.

Per quantizzarla si è deciso di andare a ricavare per ogni parlatore la percentuale di riconoscimento corrispondente al $\lambda $ ottimo e di farne la media con quella ricavata per gli altri parlatori. Si è così ottenuta una percentuale di riconoscimento teorica, che corrisponde al massimo risultato ottinibile, conoscendo il valore ottimo della costante di interpolazione $\lambda $.


Table 7.10: Miglioramento massimo teorico ottenibile dalla tecnica di interpolazione dei pesi
TECNICA Teorica Con $\lambda $ fisso Miglioramento Miglioramento teorico
ottenibile rispetto AD
TUTTA-1 EPOCA 62.81% 61.25% 1.56% 3.50%
TUTTA-10 EPOCHE 62.98% 61.63% 1.35% 3.67%
J-LIN-1 EPOCA 59.61% 57.74% 1.87% 3.36%
J-LIN-10 EPOCHE 59.96% 58.06% 1.90% 3.71%


Dai risultati visibili in tabella (7.10) si nota come i miglioramenti ottenibili dall'interpolazione di J-LIN sono maggiori, questo perchè la distribuzione dei coefficienti di interpolazione di J-LIN è meno concentrata su alcuni $\lambda $ rispetto alla distribuzione dei coefficienti di interpolazione di tutta la rete. La percentuale teorica assoluta di riconoscimento rimane maggiore per l'interpolazione di tutta la rete, mentre quella relativa, ottenuta facendo la differenza tra la percentuale di riconoscimento teorica e la percentuale di riconoscimento delle reti adattate all'ambiente, è paragonabile per le due tecniche, in modo coerente con i risultati ottenuti con il database italiano.

Riuscendo a stimare il valore di $\lambda $ in base al parlatore, si potrebbero ottenere ancora sensibili miglioramenti. Purtroppo per fare studi in questo campo servirebbe un database con molti parlatori e molte frasi per parlatore, non in nostro possesso.

Stefano Scanzio 2007-10-16