3.3.3 Trasformazione del modello

La tecnica della trasformazione del modello (figura 3.3) consiste nel cercare, con poche frasi, di modificare i parametri che regolano il modello, al fine di renderlo più adatto ad un nuovo parlatore. Nel seguito verranno descritte queste tecniche per il modello HMM e per il modello neurale.

**Figure 3.3:** Tecnica della trasformazione del modello

3.3.3.1 HMM

Per quanto riguarda gli HMM, già nel 1991 Lee, Lin e Juang [14] presentarono una tecnica che permetteva di adattare le densità continue dell'Hidden Markov model alle caratteristiche vocali di un nuovo parlatore. In pratica ad ogni fonema relativo a quel determinato modello, veniva fatto un riadattamento dei parametri di quel modello. I risultati di questa tecnica convergono asintoticamente e lentamente al valore di una rete speaker-dependent. Solo con un adeguato numero di frasi, capaci di coprire i modelli relativi a tutti i fonemi, si riescono ad ottenere risultati buoni.

Recentemente quasi tutte le ricerche si sono focalizzate nel cercare di superare il problema della mancanza di esempi di tutti i fonemi. Ohkura [15] ha introdotto la tecnica del vector field smoothing in cui viene realizzato un mapping tra tutti i fonemi. Quando per un determinato fonema non esistono dati, questa tecnica permette di dare una stima approssimata al modello per quel fonema.

3.3.3.2 Reti neurali

Il problema della trasformazione del modello nelle reti neurali è molto più complicato rispetto all'HMM. Nelle reti neurali non esiste un modello separato per ogni fonema, ma è tutto integrato in un unico modello in cui, durante il riconoscimento, ogni fonema compete contro l'altro. Non è perciò possibile compiere un adattamento simile al HMM stimando il valore che potrebbe assumere un fonema mai visto. Una delle strategie che fornisce risultati migliori è un ulteriore livello, aggiunto agli ingressi della rete, che viene addestrato con le frasi di un nuovo parlatore e ha il compito di compiere una trasformazione lineare sugli ingressi: linear input network. Esso verrà utilizzato nel corso della tesi e se ne parlerà diffusamente più avanti.

Altri metodi lavorano sulla modifica dell'architettura della rete. Hampshire e Waibel [16,17] studiarono un sistema costituito da un limitato numero di reti speaker-dependent i cui output sono combinati con altre reti al fine di produrre un sistema speaker-dependent in grado di funzionare per ogni parlatore. Esso non fa esplicitamente un adattamento, ma ottiene risultati approssimativamente simili ad una rete speaker-dependent.

Altri metodi prevedono la modifica degli algoritmi di training e di re-training della rete. Chen [18] ha studiato un metodo di training che permette di far convergere la rete ai minimi globali, in modo più veloce della normale back-propagation. Questo algoritmo permette un addestramento on-line della rete perché evita ai pesi la possibilità di rimanere bloccati in un punto di minimo locale. Le reti neurali, ogni qualvolta acquisiscono informazioni dai nuovi patterns, tendono a perdere informazioni sui precenti: nella letteratura questo fenomeno prende il nome di catastrofic forgetting. Questi problemi sono stati discussi esaustivamente da Robins [19] e da Pedreira e Roehl [20] i quali hanno proposto diverse soluzioni.

Stefano Scanzio 2007-10-16