3.3.1 Trasformazione degli ingressi

Il metodo di trasformazione degli ingressi (feature) può essere diretto o indiretto (figura 3.1). In un approccio di tipo diretto, l'adattamento degli ingressi è applicato tramite una trasformazione al fine di ridurre le differenze acustiche tra i parlatori, agendo direttamente sulle feature.
Figure 3.1: Tecnica della trasformazione degli input
Image FIGtrasformazione_input
Un vettore delle trasformazioni delle feature è di solito stimato facendo un mapping tra gli ingressi di un nuovo parlatore riferiti ad una frase e gli ingressi corrispondenti ad un parlatore di riferimento per la stessa frase. Esso viene di solito stimato con pochi dati del nuovo parlatore e poi applicato a tutti i sui dati durante il riconoscimento. La tecnica più antica e popolare di questo genere è lo spectral mapping. I primi lavori basati su questa tecnica svolgevano un mapping lineare tra il parlatore di riferimento e il nuovo parlatore ([4]), tecniche recenti portano a fare un mapping lineare a tratti (piecewise linear mapping) ([5,6]) o un mapping non lineare nel caso di reti neurali ottenendo risultati più validi ([7,8,9]).

In un approccio di tipo indiretto, invece, il mapping tra i vari parlatori viene fatto ancora prima, durante la creazione delle features. In questo caso vengono modificati i parametri per la creazione delle features in modo specifico per ogni parlatore. Il sistema di riconoscimento avrà in ingresso feature indipendenti dal parlatore.

Stefano Scanzio 2007-10-16