Nella normalizzazione, invece tutti i parlatori vengono normalizzati al fine di risultare simili per il modello. Anche un nuovo parlatore subirà la normalizzazione che tenderà a trasformare le sue caratteristiche vocali in quelle di un parlatore standard, normalizzato.
La normalizzazione è un procedimento che viene di solito compiuto su tutti i modelli perché ne migliora i risultati, nulla vieta di compiere un adattamento, all'arrivo di un nuovo parlatore, al fine di aumentarne ancora le performance.
Nell'approccio unsupervised, invece, il sistema deve riconoscere ciò che il parlatore pronuncia. L'adattamento di tipo unsupervised è di solito preferito perché non richiede interventi da parte dell'utente. Nella realtà le performance di questo metodo sono peggiori quindi, se le esigenze delle applicazioni non lo richiedono, è preferibile utilizzare un adattamento supervised.
In molte applicazioni non vi è la possibilità di raccogliere un set di dati prima di incominciare l'addestramento. In quel caso si utilizza un addestramento di tipo on-line, in cui anche il training deve essere eseguito assieme al riconoscimento. Nella pratica vengono utilizzate le frasi appena riconosciute per compiere l'addestramento. I limiti temporali in questo caso sono ristretti.