Subsections


7.2.1 Esperimenti compiuti sul database italiano

I primi esperimenti sono stati effettuati sul database italiano, poiché sono presenti 1200 frasi di addestramento per ogni parlatore. Questo ha permesso di studiare l'interpolazione nella sua completezza, analizzandone anche il comportamento per un numero elevato di frasi. Con questi esperimenti si intende anche vedere quale sia la tecnica che fornisce i risultati migliori tra l'adattamento di tutta la rete, di LIN o di J-LIN.

Nella prima parte di questi esperimenti si è deciso di adattare i modelli SD con 10 epoche. Questo per permettere ai modelli di raggiungere la convergenza che, nel caso dell'algoritmo di back-propagation, avviene per successive approssimazioni. In questo modo è stato analizzato con più precisione il comportamento della tecnica di interpolazione. Fare un addestramento su 10 epoche è un procedimento molto lungo, quindi si sono ripetuti gli esperimenti con una singola epoca di addestramento dei modelli SD. I tempi vengono così ridotti di 10 volte, permettendo di utilizzare questa tecnica in un'applicazione funzionante in tempo reale.

Per gli esperimenti è stato utilizzato il parlatore DM per l'addestramento della rete SD, mentre i parlatori MA, MG, e RI per eseguire l'adattamento al canale. I modelli adattati al canale (AD), sono stati addestrati sempre con 10 epoche e con le 3600 frasi di training appartenenti ai parlatori MA, MG e RI. Si è deciso di utilizzare 10 epoche, poichè l'adattamento al canale è un procedimento che può essere eseguito in modo batch, in fase di preparazione dell'applicazione per il riconoscimento. Non essendoci perciò grossi vincoli temporali, si è pensato di addestrare la rete AD nel modo più accurato possibile.

7.2.1.1 Adattamento preciso della rete SD

In questo esperimento si intende analizzare la tecnica dell'interpolazione dei pesi nella situazione migliore, cioè quella in cui anche i modelli SD sono in covergenza. Con il termine ``convergenza'' si intende che un'ulteriore epoca di addestramento con le stesse frasi, non porta miglioramenti nelle percentuali di riconoscimento della rete. Si sono perciò utilizzate 10 epoche di addestramento, per essere sicuri di trovarsi in una situazione di convergenza.

Sono stati compiuti esperimenti interpolando l'intera rete, delle LIN e delle J-LIN. Nell'addestramento delle tre tecniche sono state utilizzate 1, 2, 3, 4, 5, 7, 10, 30, 50, 100, 300, 600, 900 e 1200 frasi di training del parlatore DM.


Table 7.1: Interpolazione di una rete adattata all'ambiente e di una rete adattata al parlatore con 10 epoche, al variare del numero di frasi di adattamento al parlatore e al variare del coefficiente di interpolazione $\lambda $
FRASI 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
1 65.47 69.37 72.07 73.44 74.86 74.95 74.30 74.62 74.15 73.21 71.46
2 65.47 69.71 71.94 73.53 74.95 74.99 74.65 75.25 74.71 73.81 72.83
3 65.47 69.50 72.16 73.57 75.33 75.25 74.90 75.12 74.58 73.55 73.21
4 65.47 69.54 71.99 72.72 74.47 74.30 74.90 74.30 74.75 72.73 71.83
5 65.47 69.11 72.07 72.97 74.73 74.99 74.77 74.73 75.18 73.98 73.13
7 65.47 68.90 71.99 73.19 74.99 75.46 76.36 76.10 75.93 75.40 74.80
10 65.47 68.94 70.83 72.84 73.70 73.32 74.39 73.27 73.33 72.39 71.10
30 65.47 68.64 70.96 72.80 74.56 75.50 76.10 76.28 76.32 76.16 75.47
50 65.47 68.73 70.57 72.97 74.09 75.89 76.66 76.40 76.45 75.85 75.56
100 65.47 68.90 71.47 73.53 75.46 76.32 77.05 77.22 77.26 77.43 76.40
300 65.47 68.51 71.86 75.33 76.23 77.61 78.76 79.02 78.55 79.62 78.94
600 65.47 69.03 72.84 76.23 77.82 79.11 79.02 80.14 81.04 81.64 81.00
900 65.47 69.11 72.76 76.36 78.04 78.55 79.54 80.69 81.55 81.34 81.34
1200 65.47 70.10 73.92 77.09 78.59 80.27 82.02 83.87 84.38 84.98 84.86


Figure 7.3: Interpolazione di una rete adattata all'ambiente e di una rete adattata al parlatore con 10 epoche, al variare del numero di frasi di adattamento al parlatore e al variare del coefficiente di interpolazione $\lambda $
Image GRAita_si_10


Table 7.2: Interpolazione di una LIN adattata all'ambiente e di una LIN adattata al parlatore con 10 epoche, al variare del numero di frasi di adattamento al parlatore e al variare del coefficiente di interpolazione $\lambda $
FRASI 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
1 65.16 67.23 69.07 71.04 72.42 73.20 72.73 72.52 72.95 70.85 68.57
2 65.16 67.35 69.20 71.34 72.51 72.90 73.51 72.43 72.17 70.41 68.77
3 65.16 67.31 69.28 70.70 73.07 73.07 73.68 73.46 73.12 72.14 69.90
4 65.16 67.10 69.20 71.09 72.16 73.41 73.38 73.16 72.56 71.71 69.60
5 65.16 67.40 69.84 71.51 72.64 73.93 74.02 73.89 73.51 72.31 70.76
7 65.16 67.65 69.58 71.51 72.54 73.28 73.84 74.58 74.06 73.72 71.92
10 65.16 67.18 69.28 71.56 73.02 73.92 74.61 74.45 74.88 74.11 73.30
30 65.16 67.35 69.41 71.56 73.44 74.66 75.96 76.43 75.27 75.53 75.11
50 65.16 67.61 69.20 71.30 72.93 75.13 76.09 76.30 76.17 76.43 75.84
100 65.16 67.53 69.03 71.34 72.54 74.65 76.68 77.58 77.98 77.51 77.03
300 65.16 66.88 69.33 71.69 73.96 74.69 76.92 77.65 78.35 78.82 78.84
600 65.16 67.57 69.11 70.48 72.89 75.20 76.92 77.95 78.98 79.54 79.06
900 65.16 67.40 69.50 71.81 73.70 75.68 77.43 78.98 80.09 79.88 80.91
1200 65.16 67.96 69.37 72.03 74.60 76.83 77.73 78.72 80.14 80.74 80.87


Figure 7.4: Interpolazione di una LIN adattata all'ambiente e di una LIN adattata al parlatore con 10 epoche, al variare del numero di frasi di adattamento al parlatore e al variare del coefficiente di interpolazione $\lambda $
Image GRAita_lin_10


Table 7.3: Interpolazione di una J-LIN adattata all'ambiente e di una J-LIN adattata al parlatore con 10 epoche, al variare del numero di frasi di adattamento al parlatore e al variare del coefficiente di interpolazione $\lambda $
FRASI 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
1 67.78 70.06 71.91 73.08 74.49 74.19 74.54 73.98 72.70 71.33 68.83
2 67.78 70.58 71.87 74.11 74.58 74.75 75.61 75.74 74.42 72.45 70.16
3 67.78 70.58 72.00 73.42 75.10 75.27 75.78 75.70 74.29 73.13 70.98
4 67.78 70.45 71.53 73.29 74.62 75.23 75.87 74.88 74.41 73.48 71.42
5 67.78 70.19 72.00 73.51 74.62 75.14 75.05 75.14 75.11 74.26 72.54
7 67.78 70.10 72.42 73.28 75.52 75.86 76.42 76.90 76.34 76.30 75.02
10 67.78 69.89 71.53 72.65 73.63 74.06 74.58 74.71 73.68 72.74 71.63
30 67.78 70.49 72.25 73.50 75.21 75.99 76.76 76.98 77.45 77.85 77.61
50 67.78 70.37 72.64 73.97 74.80 76.16 76.85 77.94 77.63 78.45 77.81
100 67.78 70.32 72.59 74.05 75.30 76.93 77.66 78.69 78.87 79.23 79.01
300 67.78 70.49 71.91 74.14 75.73 77.15 77.66 78.35 79.38 78.78 79.17
600 67.78 70.18 72.25 74.14 75.43 76.72 77.71 78.65 79.38 79.17 80.03
900 67.78 70.15 72.16 73.66 74.87 75.73 76.80 77.69 78.95 78.74 78.91
1200 67.78 70.45 72.64 74.26 75.38 76.92 77.69 78.59 79.06 80.05 80.52


Figure 7.5: Interpolazione di una J-LIN adattata all'ambiente e di una J-LIN adattata al parlatore con 10 epoche, al variare del numero di frasi di adattamento al parlatore e al variare del coefficiente di interpolazione $\lambda $
Image GRAita_jlin_10

Nell'eseguire quest'esperimento ci siamo posti tre obiettivi. Verificare quale tra le tre tecniche fornisca risultati migliori. Verificare il comportamento della tecnica di interpolazione dei pesi, con un numero elevato di frasi di addestramento dei modelli SD. Cercare una legge che descriva la variazione del coefficiente di interpolazione ottimo $\lambda $, al variare del numero di frasi di addestramento.

Nelle tabelle (7.1), (7.2) e (7.3) e nei grafici (7.3), (7.4), e (7.5) sono riportati i risultati dell'interpolazione di tutta la rete, di LIN e di J-LIN. Sono stati riportati solo i grafici dell'interpolazione con 1, 5, 10, 50, 100, 300, 600, 900 e 1200 frasi di addestramento del modello SD, per migliorarne la leggibilità.

Osservando i grafici si nota che, per $\lambda=0$, anche aumentando il numero di frasi di addestramento dei modelli SD, la percentuale di riconoscimento rimane costante. Questo comportamento è normale, infatti dalla formula che regola l'interpolazione (7.1), con $\lambda=0$, si ottiene esattamente la rete AD, che rimane costante in tutto l'esperimento. Pur essendo una rete adattata all'ambiente, la percentuale di riconoscimento è inferiore rispetto al 71.60% fornito dalla rete SI, utilizzando le frasi di test del parlatore DM. Questo comportamento è provocato dall'utilizzo di solo tre parlatori (DM, MA e MG) per adattare la rete, che oltre ad essere adattata all'ambiente è anche adattata ai tre parlatori. Il parlatore DM, che non ha mai contribuito ad addestrare la rete AD, viene perciò riconosciuto male.

Nel lato destro del grafico, i punti in cui $\lambda=1$, si nota che la percentuale di riconoscimento sale all'aumentare delle frasi di addestramento. In accordo con la formula (7.1), con $\lambda=1$, si ottengono esattamente i pesi della rete SD, i cui grafici sono noti e studiati accuratamente nel capitolo (5).

Tutti i grafici hanno un comportamento simile. Durante le prime frasi di addestramento hanno un andamento curvilineo con concavità verso il basso, con l'aumentare del numero di frasi di training la concavità si riduce fino ad assumere un andamento monotono crescente.

Come si nota, con poche frasi di addestramento, i valori di $\lambda=0$ e di $\lambda=1$ rappresentano due punti di minimo. Facendo variare il coefficiente di interpolazione $\lambda $, si migliora la qualità del riconoscimento. Esiste un punto di massimo, rappresentato nelle tabelle in grassetto. Quando il numero di frasi di addestramento cresce, il valore del $\lambda $ massimo si sposta sempre più verso 1, finchè con un numero sufficiente di frasi il modello SD è quello che offre i risultati migliori. Il modello SD, infatti, oltre a conglobare le informazioni del parlatore, impara anche quelle riferite all'ambiente.

La linea orizzontale in grassetto del grafico rappresenta la percentuale di riconoscimento che si sarebbe ottenuta utilizzando per il riconosciemento la rete SI.

Il comportamento di questa tecnica è molto particolare: interpolando due reti che separatamente darebbero risultati peggiori rispetto alla rete SI, si riesce ad ottenere una rete che funziona meglio. In pratica si riescono ad unire, in un unica rete, sia i pregi di un adattamento all'ambiente, sia l'informazione acquisita da un adattamento rapido al parlatore.

Analizzando le prestazioni con un'unica frase di adatattamento del modello SD rispetto alla rete SI si vede come la strategia con risultati migliori è l'adattamento di tutta la rete, con un miglioramento del 3.02%. J-LIN si attesta sugli stessi livelli dell'adattamento di tutta la rete, con un miglioramento del 2.94%, mentre LIN va decisamente peggio con un miglioramento solo del 1.60%.

In generale LIN ha prestazioni, con qualsiasi numero di frasi di adattamento, peggiori rispetto a tutte le altre strategie. Per poche frasi di adattamento, fino a 100, J-LIN ha prestazioni spesso migliori, comunque paragonabili all'adattamento di tutta la rete. Con un numero elevato di frasi di addestramento, invece, prevale l'adattamento di tutta la rete. Con tante frasi il $\lambda $ ottimo tende a 1, facendo prevalere il comportamento della rete SD. Come analizzato nel capitolo (5), con molte frasi la tecnica che ottiene risultati migliori è l'adattamento di tutta la rete.

Il comportamento dell'adattamento di tutta la rete è leggermente atipico, rispetto ai risultati forniti da LIN e J-LIN. Il valore del $\lambda $ massimo, anzichè crescere con il numero di frasi di addestramento, non riesce mai ad arrivare a 1 ed ha un andamento piuttosto irregolare. Questo comportamento imprevisto, è dovuto al fatto che non si può applicare la tecnica di interpolazione dei pesi in modo esatto ad un rete a più livelli con funzione di trasferimento dei neuroni non lineare. Interpolando i pesi del livello di ingresso della rete si modifica l'output del primo livello di neuroni. Questo procedimento è consentito nel caso di LIN e J-LIN, poichè si compie un'interpolazione tra neuroni con funzione di trasferimento lineare. Entrambi i modelli da interpolare eseguono una trasformazione sui parametri di ingresso, fornendo valori coerenti con la struttara della rete SI soprastante. Eseguendo l'interpolazione si ottengono valori di peso compresi tra i pesi della rete AD e i pesi della rete SD, che sono ancora un buon input per la rete SI.

Nel caso dell'interpolazione di tutta la rete, invece, il primo livello come i successivi utilizzano una funzione di trasferimento non lineare: la sigmoide. Modificando i pesi tramite l'interpolazione, il valore di uscita dei neuroni del primo livello non sarà più linearmente dipendente dalla trasformazione fatta sui pesi. Il valore che sarà propagato ai livelli successivi avrà un errore dovuto alla non linearità della funzione di trasferimento, che verrà amplificato nei livelli successivi. Fortunatamente quest'errore sarà ridotto perchè le due reti, AD e SD, non sono di molto differenti tra di loro.

Un altro errore è tentare di applicare l'interpolazione dei pesi su una rete a più livelli. Interpolando l'ultimo livello della rete, cambiano anche gli input che quel livello dovrebbe avere dai neuroni sottostanti per funzionare correttamente. Nel caso di una rete a più livelli, per agire correttamente, bisognerebbe compiere l'interpolazione partendo dall'ultimo livello fino al primo, ma ad ogni strato di pesi interpolato bisognerebbe riaddestrare sia la rete AD che SD, al fine di trovare i pesi ottimali dei livelli sottostanti, per ottenere un giusto ingresso al livello appena interpolato. Applicare ricorsivamente dal livello di uscita a quello di ingresso l'interpolazione dei pesi è purtroppo un procedimento molto lungo, sicuramente non applicabile in un'applicazione di adattamento veloce.

Nonstante queste imprecisioni, anche l'interpolazione di tutta la rete fornisce un aumento delle prestazioni apprezzabili. Considerando che questo metodo, con un elevato numero di frasi di addestramento, fornisce i risultati migliori, si è deciso di trattarlo, consapevoli delle imprecisioni create dall'interpolazione.

Figure 7.6: Dipendenza del coefficiente di interpolazione $\lambda $ dal numero di frasi di addestramento per LIN e J-LIN. La curva sul grafico rappresenta l'interpolazione dei punti mediante regressione logaritmica
Image GRAcoefInterp

Quando il sistema di riconoscimento viene utilizzato da un nuovo parlatore, non è possibile rilevare il coefficiente di interpolazione che offre il risultato migliore. Occorre trovare una legge che, a seguito di alcuni paramentri noti durante l'addestramento, possa fornire il coefficiente $\lambda $ da utilizzare. Sia dai grafici che dalle tabelle appare evidente che esso dipende dal numero di frasi di addestramento del modello SD. Con molta probabilità vi è anche una dipendenza dal parlatore. I nostri esperimenti sono stati fatti sul solo parlatore DM del database italiano, quindi, non è stato possibile analizzare se esiste una dipendenza.

Mettendo in ascissa il numero di frasi di addestramento ed in ordinata il coefficiente di interpolazione $\lambda $ (grafico 7.6), si può constatare un andamento di tipo logaritmico, del tipo:

\begin{displaymath}
\lambda = c \cdot {ln}( {n} ) + b
\end{displaymath} (7.3)

dove $n$ rappresenta il numero di frasi di addestramento, mentre $c$ e $b$ sono due costanti da ricavare al fine di minimizzare l'errore compiuto tra l'equazione e i punti reali da interpolare.

Facendo l'interpolazione mediante regressione logaritmica (grafico 7.6), si sono ottenute le seguenti costanti:

Table 7.4: Valori ottenuti per le costanti $c$ e $b$ tramite l'utilizzo della regressione logaritmica ed errore quadratico medio ottenuto
Tecnica Valore c Valore b Errore quadratico medio
LIN 0.065 0.54 0.0039
J-LIN 0.057 0.6 0.0047


Nell'ultima colonna di tabella 7.4() è stato riportato l'errore quadratico medio ottenuto utilizzando la funzione (7.3) come approssimazione dei punti reali.

Come si nota dai grafici (7.6), il valore del coefficiente di interpolazione $\lambda $ è pienamente descrivibile dall'equazione (7.3) commettendo un errore piuttosto basso. Per quanto riguarda l'interpolazione di tutta la rete, invece, non è possibile trovare una formula che permetta di ricavare il valore del coefficiente di interpolazione perchè, come spiegato, la tecnica di interpolazione applicata su tutta la rete è soggetta a degli errori, che rendono irregolare l'andamento del $\lambda $ ottimo.

7.2.1.2 Adattamento veloce della rete SD

Gli stessi esperimenti sono stati ripetuti utilizzando 1 epoca di adattamento per la rete SD. Poichè con un'epoca i modelli SD non sono ancora in convergenza, si pensa che i grafici possano essere meno precisi. Si è ritenuto utile sperimentare l'interpolazione in queste condizioni, perchè sono applicabili direttamente in un'applicazione di riconoscimento funzionante in tempo reale. L'addestramento con 10 epoche, infatti, richiede tempi di esecuzione piuttosto elevati, nell'ordine di due minuti per modello, con una singola frase di addestramento. Nel caso in cui le frasi di addestramento del modello siano più di una, con 1 epoca si può applicare un addestramento incrementale: si utilizza la rete addestrata con le frasi precedenti per addestrala con la nuova frase. Con 10 epoche è impossibile, poichè addestrando solo l'ultima frase, si polarizzerebbe troppo il modello su di essa. Con più epoche l'approccio consigliato è di addestrare tutte le frasi in ordine casuale, con tempi di addestramento proporzionali al numero di frasi.


Table 7.5: Interpolazione di una rete adattata all'ambiente e di una rete adattata al parlatore con 1 epoca, al variare del numero di frasi di adattamento al parlatore e al variare del coefficiente di interpolazione $\lambda $
FRASI 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
1 65.47 69.80 72.07 73.49 74.73 74.99 74.90 74.37 74.37 73.69 71.77
2 65.47 69.71 71.99 73.66 74.69 75.42 75.20 74.67 74.19 73.69 71.98
3 65.47 69.54 72.03 73.87 75.03 75.46 75.50 74.80 74.67 73.98 72.67
4 65.47 69.71 72.29 73.79 75.20 75.55 75.98 75.61 74.97 74.06 72.70
5 65.47 69.58 72.20 73.96 74.99 75.55 75.85 75.57 75.18 74.41 72.79
7 65.47 69.28 72.33 74.35 75.33 76.06 77.01 76.02 76.17 75.61 74.21
10 65.47 69.33 71.94 74.09 75.12 75.68 76.40 76.36 76.52 75.48 74.16
30 65.47 69.80 72.54 74.60 76.15 77.22 78.38 78.76 78.78 78.95 78.02
50 65.47 69.41 72.93 74.65 76.15 77.65 79.11 79.19 79.49 79.21 78.28
100 65.47 69.76 72.46 74.69 76.88 78.85 79.97 80.18 81.08 80.09 79.21
300 65.47 69.41 71.99 74.39 76.23 78.34 79.79 80.35 80.09 79.54 79.71
600 65.47 69.11 71.69 73.66 75.89 77.26 78.59 79.15 79.24 78.81 77.86
900 65.47 69.54 71.39 74.26 75.98 76.45 77.78 77.78 78.29 78.21 77.56
1200 65.47 68.73 72.29 74.13 76.10 76.88 77.86 78.98 78.59 77.82 77.09


Figure 7.7: Interpolazione di una rete adattata all'ambiente e di una rete adattata al parlatore con 1 epoca, al variare del numero di frasi di adattamento al parlatore e al variare del coefficiente di interpolazione $\lambda $
Image GRAita_si_1


Table 7.6: Interpolazione di una LIN adattata all'ambiente e di una LIN adattata al parlatore con 1 epoca, al variare del numero di frasi di adattamento al parlatore e al variare del coefficiente di interpolazione $\lambda $
FRASI 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
1 65.16 67.14 69.24 71.56 73.16 73.58 74.37 74.11 73.21 72.40 70.82
2 65.16 67.61 69.03 71.56 73.11 74.23 74.32 74.84 74.16 73.61 71.29
3 65.16 67.53 69.15 71.86 73.50 73.97 74.54 75.10 73.94 73.70 71.47
4 65.16 67.74 69.28 71.39 72.64 73.84 74.71 75.01 74.37 73.65 71.38
5 65.16 67.31 68.94 71.90 73.63 73.75 74.62 74.97 74.32 73.18 71.51
7 65.16 67.61 68.98 71.69 73.50 74.36 74.06 75.31 74.28 73.99 71.38
10 65.16 67.40 68.94 71.73 73.07 73.88 74.92 74.58 74.58 73.69 72.06
30 65.16 67.40 68.90 71.81 73.28 74.01 75.40 75.96 75.14 74.76 73.22
50 65.16 67.65 69.28 71.90 73.20 74.31 75.52 75.91 76.04 75.19 73.86
100 65.16 67.65 69.54 72.03 74.10 75.17 77.36 77.10 76.17 76.60 75.02
300 65.16 68.38 69.24 72.16 74.00 75.60 77.23 77.19 76.77 76.34 74.76
600 65.16 68.21 69.67 72.03 74.13 75.33 76.07 76.42 76.65 75.35 74.15
900 65.16 68.17 69.33 72.07 74.26 75.68 76.59 77.32 76.68 76.69 74.84
1200 65.16 67.78 69.63 72.67 74.09 75.46 75.98 75.50 76.07 75.04 73.42


Figure 7.8: Interpolazione di una LIN adattata all'ambiente e di una LIN adattata al parlatore con 1 epoca, al variare del numero di frasi di adattamento al parlatore e al variare del coefficiente di interpolazione $\lambda $
Image GRAita_lin_1


Table 7.7: Interpolazione di una J-LIN adattata all'ambiente e di una J-LIN adattata al parlatore con 1 epoca, al variare del numero di frasi di adattamento al parlatore e al variare del coefficiente di interpolazione $\lambda $
FRASI 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
1 67.78 70.41 72.09 74.11 74.67 74.92 75.14 75.27 73.47 73.44 70.86
2 67.78 70.71 72.04 74.32 75.31 75.48 75.74 76.13 75.06 73.70 71.29
3 67.78 70.06 71.70 74.15 75.27 75.10 75.74 76.04 74.68 74.08 71.60
4 67.78 70.45 71.87 74.15 75.05 74.84 75.31 75.83 74.29 73.35 71.47
5 67.78 70.45 72.22 74.02 75.53 75.48 75.57 76.09 74.37 73.65 71.12
7 67.78 70.15 72.09 74.06 75.35 75.35 75.18 76.00 75.48 74.47 72.29
10 67.78 70.67 72.30 73.89 74.92 74.92 75.57 75.10 74.92 73.26 71.73
30 67.78 70.49 71.95 73.46 75.48 75.96 76.26 76.95 76.00 75.19 74.01
50 67.78 70.54 72.09 73.88 75.70 75.82 76.16 77.51 76.99 75.91 74.95
100 67.78 70.58 72.04 73.84 75.26 75.69 76.98 78.31 78.11 77.51 76.70
300 67.78 70.58 71.78 73.41 75.00 76.42 77.32 77.63 78.28 78.15 76.92
600 67.78 70.37 71.69 72.81 74.40 75.13 76.16 76.68 76.47 75.53 75.02
900 67.78 70.06 71.77 72.85 74.36 75.34 76.72 76.95 76.65 75.61 74.16
1200 67.78 69.63 72.16 73.57 74.56 75.46 75.89 76.53 76.20 75.30 74.37


Figure 7.9: Interpolazione di una J-LIN adattata all'ambiente e di una J-LIN adattata al parlatore con 1 epoca, al variare del numero di frasi di adattamento al parlatore e al variare del coefficiente di interpolazione $\lambda $
Image GRAita_jlin_1

Nelle tabelle (7.5), (7.6), (7.7) e nei grafici (7.7), (7.8), (7.9) sono riportati i risultati per l'interpolazione di tutta la rete, di LIN e di J-LIN.

Analizzando l'andamento dei coefficienti di interpolazione in cui la percentuale di riconoscimento è maggiore, riportati nelle tabelle in grassetto, si nota un andamento diverso rispetto all'interpolazione applicata per 10 epoche. Nell'interpolazione di tutta la rete, i coefficienti di interpolazione ottimali, hanno un andamento molto irregolare, anche se si nota un aumento del valore di $\lambda $ ottimo al crescere del numero di frasi di adattamento. Come spiegato la strategia applicata su tutta la rete non può essere un valido metro di misura a causa dell'inapplicabilità, in modo esatto, della tecnica di interpolazione.

Il coefficiente di interpolazione ottimo per LIN e J-LIN rimane praticamente costante a $\lambda=0.7$, all'aumentare del numero di frasi di adattamento. L'addestramento ad 1 epoca non è sufficiente ad ottenere dei modelli SD abbastanza accurati. Un'intepolazione con il modello AD, addestrato in modo robusto con 10 epoche, permette alla rete di ottenere prestazioni migliori rispetto all'utilizzo del solo modello SD. Questo comportamento è anche molto visibile dai grafici, in cui a 1200 frasi si vede che il comportamento non è una curva monotona crescente, come accadeva per 10 epoche.

Se il coefficiente di interpolazione non dipende dal parlatore, questa è una situazione molto favorevole per la realizzazione pratica di questa teoria. Difatti, sapendo già il coefficiente di interpolazione, non esiste più il problema di doverlo approssimare con una funzione, ottendo una semplificazione realizzativa della tecnica.

I grafici mostrano tutti l'andamento tipico della tecnica: una curva con la concavità rivolta verso il basso e con minimi posti in corrispondenza delle reti SD e AD. Si è ottenuto un aumento delle prestazioni, rispetto alla rete SI, del 3.39% nel caso dell'adattamento di tutta la rete, del 2.77% nel caso di LIN e del 3.67% per J-LIN. Con un basso numero di frasi di adattamento, l'addestramento dei modelli SD con una singola epoca, funziona meglio rispetto all'utilizzo di 10 epoche. Anche in questo caso J-LIN risulta essere la tecnica migliore.

Stefano Scanzio 2007-10-16