5.2.2 Variando il learning rate

Questo esperimento utilizza gli stessi parametri del precedente (sezione 5.2.2), con l'unica differenza che è ripetuto con learning-rate diversi: 0.002, 0.0002, 0.00002. Si è voluto verificare in primo luogo quale sia il learning-rate ottimale per le varie tecniche, in secondo luogo quanto possa favorire o meno l'adattamento veloce al parlatore.

Table 5.2: Percentuale di riconoscimento al variare del numero di frasi di addestramento del parlatore DM e del learning rate
TUTTA 0 1 2 3 4 5 7 10
0.002 71.60% 71.73% 70.40% 70.66% 70.57% 71.39% 74.13% 72.80%
0.0002 71.60% 71.43% 71.43% 71.69% 72.11% 72.37% 73.10% 73.49%
0.00002 71.60% 71.69% 71.69% 71.73% 71.73% 71.73% 71.81% 71.73%
  20 30 50 100 300 600 900 1200
0.002 72.59% 74.73% 75.50% 75.20% 79.06% 76.10% 76.45% 77.18%
0.0002 74.52% 74.56% 76.45% 76.75% 78.04% 77.31% 78.08% 78.64%
0.00002 72.16% 72.50% 73.36% 75.16% 75.68% 75.80% 76.75% 76.96%

OLA 0 1 2 3 4 5 7 10
0.002 71.60% 71.69% 72.46% 71.94% 70.74% 71.30% 73.06% 72.33%
0.0002 71.60% 71.47% 71.56% 71.26% 71.30% 71.30% 71.26% 72.03%
0.00002 71.60% 71.51% 71.43% 71.39% 71.47% 71.47% 71.56% 71.51%
  20 30 50 100 300 600 900 1200
0.002 72.11% 72.63% 75.25% 76.32% 76.06% 77.61% 74.05% 74.39%
0.0002 72.16% 72.24% 73.96% 74.60% 75.29% 75.33% 76.71% 75.25%
0.00002 71.47% 71.47% 71.90% 72.76% 73.53% 73.66% 74.52% 74.60%

LIN 0 1 2 3 4 5 7 10
0.002 71.60% 35.05% 40.33% 54.40% 51.74% 50.32% 53.93% 55.60%
0.0002 71.60% 69.37% 70.31% 71.69% 70.18% 71.81% 72.50% 73.02%
0.00002 71.60% 70.53% 71.00% 71.60% 71.73% 71.43% 72.29% 72.33%
  20 30 50 100 300 600 900 1200
0.002 45.47% 44.96% 54.44% 55.38% 63.06% 61.26% 61.30% 68.38%
0.0002 73.14% 73.32% 75.42% 76.53% 75.80% 75.93% 75.25% 73.53%
0.00002 71.60% 73.32% 75.20% 75.29% 76.71% 77.18% 77.69% 76.58%

J-LIN 0 1 2 3 4 5 7 10
0.002 71.60% 62.21% 58.34% 52.94% 65.51% 66.37% 65.89% 59.93%
0.0002 71.60% 69.84% 69.20% 71.69% 70.87% 71.34% 73.66% 75.59%
0.00002 71.60% 71.21% 70.53% 71.51% 71.17% 71.69% 71.99% 71.90%
  20 30 50 100 300 600 900 1200
0.002 63.79% 65.81% 67.10% 72.29% 69.03% 64.52% 68.38% 68.51%
0.0002 76.79% 76.92% 78.16% 76.45% 76.15% 76.02% 75.93% 75.85%
0.00002 73.27% 74.09% 75.59% 76.62% 77.69% 77.52% 77.22% 77.61%


Figure 5.6: Percentuale di riconoscimento al variare del numero di frasi di addestramento del parlatore DM e del learning rate
Image GRAfrasi-lrate

Andando ad analizzare i risultati di tabella (5.2) e dei grafici (5.6) si nota subito che un learning-rate troppo elevato (0.002) provoca effetti dannosi su quasi tutte le tecniche di adattamento analizzate. L'unica a trarne giovamento è la OLA, in cui la maggior parte dei punti con learning-rate di 0.002 si colloca al di sopra dei punti degli altri due esperimenti. Nonostante questo miglioramento OLA rimane al di sotto delle altre tecniche.

Un learning rate elevato provoca oscillazioni pronunciate nei valori della percentuale di riconoscimento portando, nel caso di LIN e J-LIN, a risultati molto peggiori rispetto alla SI. Questo comportamento è imputabile al fatto che vengono compiuti spostamenti sui pesi troppo elevati, che rendono la rete ottima a riconoscere le frasi che sono state appena addestrate, ma la allontanano da un punto di funzionamento medio per ogni tipo di frase. In quelle strategie in cui il numero di pesi è minore, la LIN e la J-LIN, quest'effetto è ancora più evidente.

Un learning-rate minore favorisce un miglioramento progressivo a tutte le tecniche di addattamento. Per quanto riguarda l'adattamento di tutta la rete e la strategia OLA, il learning-rate a 0.00002 porta ad un peggioramento delle prestazioni su qualsiasi numero di frasi di training. Si può notare anche un ritardo del momento in cui le prestazioni della rete adattatata superano quelle della SI: di 16 frasi per l'adattamento di tutta la rete e di 40 frasi per OLA. Nonostante ciò è prevedibile che con l'aumentare del numero di epoche di addestramento la strategia di un learning-rate minore possa essere più efficace. Nel caso di LIN e J-LIN valgono i discorsi fatti in precedenze, con l'aggiunta del fatto che dopo 300 frasi l'esperimento con learning-rate più basso fornisce risultati migliori. Questo dato fornisce un indicazione su come sia più efficiente per queste due tecniche un addestramento con learning-rate basso.

La J-LIN, fino alle 50 frasi, con un learnig-rate di 0.0002, ha un miglioramento molto pronunciato. Nel caso in cui si voglia compiere un adattamento veloce al parlatore, sarebbe possibile utilizzare un learning-rate di 0.0002 per le prime prime 50 frasi, per poi abbassarlo a 0.00002, sfruttando i benefici di entrambe le soluzioni.

Stefano Scanzio 2007-10-16