Subsections
3.3.3 Trasformazione del modello
La tecnica della trasformazione del modello (figura 3.3) consiste nel cercare, con poche frasi, di modificare i parametri che regolano il modello, al fine di renderlo più adatto ad un nuovo parlatore.
Nel seguito verranno descritte queste tecniche per il modello HMM e per il modello neurale.
Figure 3.3:
Tecnica della trasformazione del modello
|
Per quanto riguarda gli HMM, già nel 1991 Lee, Lin e Juang [14] presentarono una tecnica che permetteva di adattare le densità continue dell'Hidden Markov model alle caratteristiche vocali di un nuovo parlatore.
In pratica ad ogni fonema relativo a quel determinato modello, veniva fatto un riadattamento dei parametri di quel modello. I risultati di questa tecnica convergono asintoticamente e lentamente al valore di una rete speaker-dependent. Solo con un adeguato numero di frasi, capaci di coprire i modelli relativi a tutti i fonemi, si riescono ad ottenere risultati buoni.
Recentemente quasi tutte le ricerche si sono focalizzate nel cercare di superare il problema della mancanza di esempi di tutti i fonemi.
Ohkura [15] ha introdotto la tecnica del vector field smoothing in cui viene realizzato un mapping tra tutti i fonemi. Quando per un determinato fonema non esistono dati, questa tecnica permette di dare una stima approssimata al modello per quel fonema.
Il problema della trasformazione del modello nelle reti neurali è molto più complicato rispetto all'HMM.
Nelle reti neurali non esiste un modello separato per ogni fonema, ma è tutto integrato in un unico modello in cui, durante il riconoscimento, ogni fonema compete contro l'altro. Non è perciò possibile compiere un adattamento simile al HMM stimando il valore che potrebbe assumere un fonema mai visto.
Una delle strategie che fornisce risultati migliori è un ulteriore livello, aggiunto agli ingressi della rete, che viene addestrato con le frasi di un nuovo parlatore e ha il compito di compiere una trasformazione lineare sugli ingressi: linear input network. Esso verrà utilizzato nel corso della tesi e se ne parlerà diffusamente più avanti.
Altri metodi lavorano sulla modifica dell'architettura della rete. Hampshire e Waibel [16,17] studiarono un sistema costituito da un limitato numero di reti speaker-dependent i cui output sono combinati con altre reti al fine di produrre un sistema speaker-dependent in grado di funzionare per ogni parlatore.
Esso non fa esplicitamente un adattamento, ma ottiene risultati approssimativamente simili ad una rete speaker-dependent.
Altri metodi prevedono la modifica degli algoritmi di training e di re-training della rete.
Chen [18] ha studiato un metodo di training che permette di far convergere la rete ai minimi globali, in modo più veloce della normale back-propagation. Questo algoritmo permette un addestramento on-line della rete perché evita ai pesi la possibilità di rimanere bloccati in un punto di minimo locale.
Le reti neurali, ogni qualvolta acquisiscono informazioni dai nuovi patterns, tendono a perdere informazioni sui precenti: nella letteratura questo fenomeno prende il nome di catastrofic forgetting.
Questi problemi sono stati discussi esaustivamente da Robins [19] e da Pedreira e Roehl [20] i quali hanno proposto diverse soluzioni.
Stefano Scanzio
2007-10-16