5.3 Risultati sui quattro parlatori

In questa sezione si intende ripetere l'ultimo esperimento di sezione (5.2.3) anche per i parlatori MA, MG e RI. Molto spesso può capitare, utilizzando solo un esempio per parlatore, di trovarsi in un caso particolare, che offre risultati buoni solo in quella determinata situazione. Oltretutto se i dati sperimentali sono ottenuti con un numero di prove elevato, hanno una validità maggiore e sono più aderenti alla realtà. Anche se sarebbe stato meglio compiere gli esperimenti svolti in precedenza per tutti e quattro i parlatori, motivi di tempo di simulazione hanno sconsigliato questa possibilità. Una valutazione a posteriori, nel caso dia i risultati aspettati, permette in ogni caso di validare tutte le teorie presentate in precenza. Per dare un ordine di grandezza dei tempi richiesti, questo esperimento ha impiegato una settimana e mezza di simulazione su computer con Pentium 3 a 800MHz.

Per l'esperimento sono state addestrate LIN, J-LIN, OLA e tutta la rete con 1, 2, 3, 4, 5, 7, 10, 20, 30, 50, 100, 300, 600, 900 e 1200 frasi di training. Per LIN e J-LIN si è utilizzato un learning rate di 0.00002, mentre per OLA e per l'addestramento di tutta la rete si è utilizzato un learning rate di 0.0002.
Gli altri parametri dell'esperimento sono:

Sono state utilizzate le 400 frasi di test per ogni parlatore per ricavare i risultati. A differenza degli altri esperimenti, non si è utilizzato il valore assoluto della percentuale di riconoscimento, ma un valore relativo ottenuto dalla differenza del dato fornito utilizzando la tecnica di adattamento e quello ottenuto della rete SI. La percentuale di riconoscimento della rete SI, per i quattro parlatori, è riportata nella tabella seguente:

Table 5.5: Percentuale di riconoscimento della rete SI per i vari parlatori
Parlatore Percentuale riconoscimento
DM 71,60%
MA 78.25%
MG 75.12%
RI 76.27%


È interessante osservare come la stessa rete fornisca risultati molto differenti per i vari parlatori. L'adattamento al parlatore nasce proprio dall'esigenza di eliminare questa incapacità della rete di riconoscere in modo adeguato alcuni parlatori, nel nostro caso DM.

In tabella (5.6) sono invece riportati i valori relativi della percentuale di riconoscimento per i quattro parlatori e i quattro modelli, rispetto alla rete SI. I risultati rispecchiano perfettamente quanto descritto nei paragrafi precedenti: il comportamento di J-LIN è vincente nel caso di poche frasi di training, mentre all'aumentare in modo consistente delle frasi è preferibile adattare l'intera rete.

Al fine di ottenere un dato riassuntivo della qualità delle quattro tecniche, si è fatta la media delle tabelle (5.6) ottenendo l'unica tabella (5.7) e il grafico (5.9) che rappresentano, per questo gruppo di parlatori, il comportamento medio delle tecniche analizzate.


Table 5.6: Percentuale di riconoscimento del parlatore al variare del numero di frasi di train, utilizzando gruppi da 10 frasi di test per i quattro parlatori
DM 1 2 3 4 5 7 10
TUTTA -0.26% -0.02% 0.76% -0.45% 0.41% 1.95% 3.19%
OLA 0.17% 1.06% 0.72% 0.33% 0.84% 0.79% -0.12%
LIN -1.78% -1.60% 0.08% -0.53% 0.25% 1.35% 1.48%
J-LIN -1.66% -1.22% 0.34% -0.39% 0.38% 2.22% 3.34%
20 30 50 100 300 600 900 1200
3.40% 2.96% 4.50% 6.44% 8.49% 8.28% 10.85% 11.15%
0.87% 1.43% 2.66% 3.69% 3.99% 4.12% 7.21% 5.75%
1.70% 3.58% 5.86% 6.38% 6.35% 7.46% 6.44% 6.91%
5.57% 6.09% 7.22% 6.88% 7.52% 6.26% 6.65% 6.56%

MA 1 2 3 4 5 7 10
TUTTA 0.39% 2.53% 1.89% 2.49% 1.89% 2.27% 1.59%
OLA 0.56% 0.73% 0.60% 0.86% 0.99% 0.99% 0.86%
LIN -0.17% 0.77% 0.43% 0.04% 0.94% 0.86% 0.77%
J-LIN 0.13% 2.27% 1.59% 1.63% 2.02% 1.33% 1.97%
20 30 50 100 300 600 900 1200
3.05% 2.57% 2.36% 2.27% 2.75% 6.13% 7.12% 6.91%
0.86% 0.30% 0.51% 1.07% -1.03% 1.24% 2.75% 4.29%
2.44% 1.59% 1.63% 2.49% 2.79% 5.75% 5.02% 6.09%
2.75% 2.92% 3.00% 3.13% 3.90% 3.69% 4.72% 5.06%

MG 1 2 3 4 5 7 10
TUTTA 1.20% 2.01% 2.22% 2.22% 1.45% 0.73% 0.38%
OLA 0.08% 0.21% 0.21% 0.21% 0.25% -0.22% 0.64%
LIN 0.30% 1.03% 0.85% 0.94% 0.34% -0.69% 2.40%
J-LIN 1.33% 2.91% 1.54% 0.98% 0.90% 0.55% 2.40%
20 30 50 100 300 600 900 1200
2.40% 1.07% 0.55% -0.60% 1.33% 9.55% 11.95% 12.67%
0.34% 0.17% 3.68% -2.06% -0.99% 1.71% 5.22% 7.19%
0.60% 2.35% 4.54% 1.50% 3.85% 7.49% 8.61% 7.62%
2.48% 2.27% 4.54% 3.42% 6.04% 6.94% 7.71% 8.22%

RI 1 2 3 4 5 7 10
TUTTA 0.00% -0.64% -0.64% 0.69% 0.30% 0.52% 0.22%
OLA -0.25% -0.47% -0.25% 0.05% -0.30% -0.30% -0.68%
LIN -2.14% -1.62% -1.67% -0.81% -0.90% -1.49% -2.01%
J-LIN -1.32% -1.37% -1.75% 0.43% -0.81% 0.22% 0.43%
20 30 50 100 300 600 900 1200
-1.79% -2.18% -3.46% -6.08% 4.89% 6.13% 6.73% 6.73%
-0.94% -1.20% -2.05% -3.64% 0.56% 2.10% 2.79% 2.92%
-2.27% -3.25% -3.64% -4.88% 2.83% 4.33% 5.79% 6.09%
-0.60% -0.17% -0.77% -1.02% 3.73% 4.37% 5.06% 5.36%



Table 5.7: Media della percentuale di riconoscimento, al variare del numero di frasi di addestramento e con gruppi da 10 frasi di test
DM 1 2 3 4 5 7 10
SI 0.33% 0.97% 1.06% 1.24% 1.01% 1.37% 1.35%
OLA 0.14% 0.38% 0.32% 0.36% 0.45% 0.32% 0.18%
LIN -0.95% -0.35% -0.08% -0.09% 0.16% 0.01% 0.66%
J-LIN -0.38% 0.65% 0.43% 0.66% 0.62% 1.08% 2.04%
20 30 50 100 300 600 900 1200
1.77% 1.11% 0.99% 0.51% 4.37% 7.52% 9.16% 9.37%
0.28% 0.18% 1.20% -0.24% 0.63% 2.29% 4.49% 5.04%
0.62% 1.07% 2.10% 1.37% 3.96% 6.26% 6.47% 6.68%
2.55% 2.78% 3.50% 3.10% 5.30% 5.32% 6.04% 6.30%


Figure 5.9: Media della percentuale di riconoscimento, al variare del numero di frasi di addestramento e con gruppi da 10 frasi di test
Image GRAfrasiTuttiParlatori

Tutte le tecniche, eccetto LIN, già dopo due frasi di addestramento forniscono un contributo positivo. Tra le 10 e le 300 frasi J-LIN è sicuramente la soluzione ottimale permettendo di ottenere in quell'intervallo un aumento compreso tra il 2% e il 5%. Nell'intervallo tra 1 e 10 frasi di addestramento non vi è prevalenza di nessuna tecnica sull'altra: l'adattamento di tutta la rete sembra funzionare meglio, ma questo comportamento è dovuto alla resistenza della rete nell'imparare nuove frasi, infatti, fino a 100 frasi, oscilla sempre attorno ad un miglioramento del 1%. Oltre le 300 frasi l'adattamento di tutta la rete fornisce risultati consistenti, riuscendo ad apportare un miglioramento superiore al 9%.

Stefano Scanzio 2007-10-16