5.2.1 Riconoscimento in funzione del numero di frasi di addestramento

In questo esperimento sono state addestrate una LIN, una J-LIN, una OLA e la rete SI con rispettivamente 1, 2, 3, 4, 5, 7, 10, 20, 30, 50, 100, 300, 600, 900, 1200 frasi di training del parlatore DM, utilizzando il database italiano DB-BIMICRO. Questo esperimento è stato compiuto al fine di mettere in correlazione il numero di frasi di training di un parlatore, con la capacità di adattarsi delle varie tecnologie descritte nella sezione (5.1). Si intende scoprire quale sia la tecnologia più adatta ad un adattamento veloce, quale invece dia risultati migliori dopo un numero elevato di frasi, se esiste e quale tra questi metodi dia un risultato mediamente migliore.

Per eseguire gli esperimenti si sono utilizzati parametri di addestramento standard, cioè quelli tarati al fine di addestrare una normale rete SI con un numero elevato di frasi.
I parametri usati per l'addestramento sono:

learning rate: 0.0002 per gli archi e 0.00002 per i bias
epoche: 1
batchsize: 10
fabp tollerance: 0.5
ufabp tollerance: 0.6

I risultati dell'esperimento sono riportati in tabella (5.1) e in figura (5.5).

Come si può chiaramente notare, l'addestramento di tutta la rete porta ad un aumento delle performance più costante e, a 1200 frasi, migliore di tutte le altre tecnologie. Si vede che durante le prime 5 frasi le tecnologie LIN e J-LIN oscillano, peggiorando anche del 2.5% i risultati che si avrebbero utilizzando una normale rete SI. Questo comportamento è riconducibile al fatto che, avendo rispettivamente solo 10920 e 1560 pesi da addestrare, queste tecnologie tendono a polarizzarsi immediatamente sulle frasi con cui vengono addestrate peggiorando notevolmente i risultati per le altre. Il comportamento di tutta la rete e di OLA è più costante, ma la crescita in percentuale di riconoscimento è decisamente più lenta. Esse durante le prime frasi si attestano sui valori della rete SI. Questo comportamento in OLA è da attribuirsi al fatto che solo il livello più alto della rete viene modificato, viene perciò permessa solo una lieve correzione alla parte alta della rete, una sorta di bilanciamento. Per l'addestramento di tutta la rete, invece, il numero di pesi è elevato e poche frasi non sono in grado di modificarne il comportamento ne' in positivo ne' in negativo.

Da 7 a 100 frasi di training, J-LIN ha un comportamento decisamente migliore rispetto alle altre tecniche riuscendo quasi a guadagnare il 2.5% rispetto all'addestramento di tutta la rete. Dopo la 50-esima frase c'è una brusca discesa dovuta all'aumento delle insertions, probabilmente provocata dal fatto che la J-LIN compie trasformazioni uguali sia sul frame centrale che sui frames di contesto. Per quanto riguarda la LIN vediamo che fino a 100 frasi cresce, per poi oscillare attorno al 75.00%. È importante notare che la LIN, in nessun punto, offre prestazioni migliori rispetto alla J-LIN. Probabilmente i frames di contesto legati della J-LIN la rendono più adatta ad immagazzinare le informazioni di un parlatore. OLA sembra invece non sufficiente a garantire un buon adattamento al parlatore. Essa segue il comportamento della rete completamente addestrata, ma con risultati molto peggiori.

Table 5.1: Percentuale di riconoscimento al variare del numero di frasi di addestramento del parlatore DM

FRASI	0	1	2	3	4	5	7	10
TUTTA	71.60%	71.43%	71.43%	71.69%	72.11%	72.37%	73.10%	73.49%
OLA	71.60%	71.47%	71.56%	71.26%	71.30%	71.30%	71.26%	72.03%
LIN	71.60%	69.37%	70.31%	71.69%	70.18%	71.81%	72.50%	73.02%
J-LIN	71.60%	69.84%	69.20%	71.69%	70.87%	71.34%	73.66%	75.59%

FRASI	20	30	50	100	300	600	900	1200
TUTTA	74.52%	74.56%	76.45%	76.75%	78.04%	77.31%	78.08%	78.64%
OLA	72.16%	72.24%	73.96%	74.60%	75.29%	75.33%	76.71%	75.25%
LIN	73.14%	73.32%	75.42%	76.53%	75.80%	75.93%	75.25%	73.53%
J-LIN	76.79%	76.92%	78.16%	76.45%	76.15%	76.02%	75.93%	75.85%

**Figure 5.5:** Percentuale di riconoscimento al variare del numero di frasi di addestramento del parlatore DM

Si nota una netta flessione sia di LIN che di J-LIN nelle ultime 300 frasi di training. Questo è dovuto dalla composizione del database italiano, in cui le ultime 420 frasi sono composte da 140 frasi contenenti registrazioni di ore e 280 appartenenti al dominio ferroviario. Questa flessione, non presente nella adattamento di tutta la rete e di OLA, è un ulteriore conferma che LIN e J-LIN tendano a seguire le ultime frasi di addestramento, avendo poca memoria per le altre. Si presume che diminuendo il learning rate e aumentando il numero di epoche di training questo difetto possa scomparire.

Stefano Scanzio 2007-10-16