5.4 Conclusioni

In questo capitolo sono state analizzate diverse tecniche di adattamento che si collocano nella tipologia della trasformazione del modello. Alcune di esse, il banale adattamento di tutta la rete e LIN cioè una trasformazione lineare degli ingressi, sono già presenti da diversi anni in letteratura. J-LIN e LON, sono invece nate dall'esigenza di essere più adatte all'adattamento rapido al parlatore: di permettere quindi di avere buoni risultati con poche frasi di addestramento. LON ha dimostrato di non essere in grado, facendo una adattamento solamente sull'ultimo strato della rete, di consentire miglioramenti accettabili. Nondimeno essa potrebbe dare un miglioramento se applicata in aggiunta a J-LIN, ma questo renderebbe il procedimento molto lungo: dopo aver adattatto J-LIN, si dovrebbero riapplicare tutte le frasi utilizzate nell'adattamento di J-LIN per addestare OLA. In un addestramento off-line questo modo di agire raddoppierebbe i tempi di esecuzione. Sebbene questi tempi non la rendano inapplicabile, nella pratica, queste tecniche sono utili in un addestramento incrementale, che in questo caso non sarebbe applicabile.

J-LIN ottiene dei risultati molto interessanti. Essa è più adatta a contenere le informazioni di un parlatore, poichè unisce le informazioni dei sei frame di contesto e del frame centrale in un unico blocco. Confrontata con la normale LIN a blocchi di training, utilizzata negli esperimenti, ottiene risultati sempre migliori, fino a 300 frasi. Con un ulteriore aumentare delle frasi LIN supera leggermente (meno dello 0.5%) le prestazioni di J-LIN. Si nota dal grafico (5.9), visto l'andamento quasi parallelo all'asse delle ascisse delle due tecniche dopo le 300 frasi, che entrambe hanno quasi raggiunto un massimo. È perciò ipotizzabile che un ulteriore aumento di frasi di training non porti comunque un aumento delle prestazioni e quindi un miglioramento relativo di LIN rispetto a J-LIN. Un ulteriore aspetto positivo della tecnica J-LIN è la minore occupazione di spazio per la memorizzazione dei pesi, sette volte inferiore a LIN.

Con molte frasi ( $\>$ 300), il tradizionale riadattamento di tutta la rete fornisce risultati significativamente migliori, riuscendo ad aumentare del 9.5% le prestazioni della normale rete SI. Buone prestazioni con diversi svantaggi: il numero di frasi di addestramento deve essere elevato, elevata occupazione di spazio del modello, tempi da addestramento leggermente più elevati.

La scelta tra le varie tecniche, per un applicazione pratica, dipende molto dallo scenario in cui devono essere utilizzate.

In primo luogo, se vi sono molti parlatori che devono utilizzare il sistema di riconoscimento, deve esserci un meccanismo di scelta del modello al fine di associarlo al parlatore giusto. L'identificazione può essere ottenuta in modo automatico (per la tecnologia LIN questo aspetto verrà analizzato in seguito), oppure tramite l'intervento del parlatore che comunica al riconoscitore la sua identità. Nel caso il riconoscitore sia utilizzato da più utenti sarà memorizzato un modello per ogni parlatore, il quale verrà scelto al momento del riconoscimento. Tale modello potrà essere riaddestrato ad ogni utilizzo o rimanere invariato dopo una prima frase di addestramento. In questo caso la scelta più conveniente consiste nell'utilizzo di J-LIN: molto più rapido da addestrare all'arrivo di un nuovo parlatore e minore occupazione di memoria.

Nel caso in cui il riconoscitore sia utilizzato pesantemente da poche persone, può essere invece più conveniente l'addestramento di tutta la rete. Sicuramente questo comporta un estenuante fase iniziale di training, ma i risultati saranno molto più precisi e l'occupazione in memoria dei modelli sarà trascurabile, visto la presenza di pochi parlatori.

Stefano Scanzio 2007-10-16