3.1 Introduzione

I modelli acustici per il riconoscimento vocale hanno raggiunto un sufficiente livello di maturità che ha permesso loro di essere utilizzati in varie applicazioni reali. Un fattore importante che influenza la qualità di riconoscimento nelle applicazioni reali, consiste nella non coincidenza tra le condizioni in cui è stato effettuato l'addestramento dei modelli e l'ambiente in cui dovranno operare nel mondo reale. Alcuni fattori sono il differente tipo di microfono utilizzato, il canale di trasmissione, il rumore presente nell'ambiente e le differenze vocali tra i vari parlatori.

Questo capitolo sarà focalizzato sui problemi correlati alla compensazione delle differenze tra i vari parlatori. Le recenti tecnologie basate sul Hidden Markov Model (HMM) o sulle reti neutali (ANN) garantiscono una discreta prestazione media su vocabolari di 10000 parole, utilizzando un modello indipendente dal parlatore (SI), ma hanno prestazioni che variano drasticamente da un parlatore ad un altro. Per esempio, esperimenti fatti sull'inglese americano fanno vedere come le prestazioni di riconoscimento varino notevolmente tra individui di origine americana e parlatori inglesi di altre parti del mondo. Esperimenti significativi sono stati fatti con il Wall Street Journal continuous database. Usando le 5000 parole di vocabolario e un modello addestrato con parlatori americani, si è visto che l'errore di riconoscimento delle parole varia dal 5% per gli americani al 20% per gli individui di nazionalità non americana. Questo esperimento spiega come le differenti carettiristiche fonetiche dei vari parlatori in lingua inglese possano far variare drasticamente le pretazioni di un riconoscitore.

I sistemi SI sono addestrati usando una grande quantità di dati provvenienti da un largo numero di parlatori e sono adatti a riconoscere con una prestazione mediamente buona qualsiasi individuo. Questo limita l'accuratezza del modello per ogni singolo parlatore. Parlatori con caratteristiche acustiche differenti rispetto ai dati di addestramento vengono poco rappresentate dai parametri del modello. Le differenze acustiche tra i vari parlatori possono dipendere da:

Il modo più semplice per affrontare queste differenze tra parlatori consiste nell'addestrare un modello differente per ogni nuovo utente. Questi modelli dipendenti dal parlatore (SD), con un'adeguata quantità di dati, danno una qualità molto migliore rispetto ai modelli (SI).

Collezionare una sufficiente quantità di dati di training per ogni singolo parlatore è in molti casi troppo lungo e inaccettabile. Come compromesso, le tecniche di adattamento hanno il compito di modificare un modello già esistente al fine di adattarlo alla voce di un nuovo parlatore e di farne migliorare le prestazioni. Grazie a queste tecniche di adattamento al parlatore si riesce, con poche frasi di una parlatore specifico, ad ottenere risultati comparabili al modello SD.

Sono state realizzate molte tecniche per l'adattamento al parlatore. Esse dipendono da molti fattori: il modello utilizzato dal riconoscitore (HMM, ANN), il motivo per cui il riconoscitore è stato disegnato (riconoscimento del continuo, applicazioni telefoniche,...), i requisiti (real-time, batch,...). Ci sono tre tipi fondamentali di adattamento:

Nel prossimo paragrafo verranno date alcune definizioni sull'adattamento al parlatore, mentre nel paragrafo (3.3) verranno spiegati i tre principali metodi di adattamento.

Stefano Scanzio 2007-10-16