5.1.3 Output Layer Adaptation (OLA)

Il metodo dell'Output Layer Adaptation (OLA) consiste nell'adattare solo l'ultimo strato della rete neurale SI (figura 5.4). Si è ipotizzato che i primi strati della rete siano dipendenti da ciò che è stato detto. In pratica si è pensato che una filosofia come LIN, che lavora direttamente sui parametri di ingresso, tenda a polarizzarsi riconoscendo già subito bene i fonemi o le parole che sono state dette nelle frasi di training, peggiornado notevolmente le altre. Quando un parlatore nuovo usa le rete esso fornirà un risultato errato. Con ottima probabilità il fonema giusto non avrà una probabilità molto inferiore a quello riconosciuto. Questa tecnica si basa sul principio che un parlatore pronunci un fonema in modo leggermente diverso rispetto ad un altro, comportando un riconoscimento sbagliato da parte della rete. Compito di questa tecnica è di correggere questi errori di inversione di classe. Poichè OLA lavora nello strato più alto della rete, potrebbe essere inadeguata ad adattarsi a parlatori molto differenti dalla media. A tal fine potrebbe essere necessario un training direttamente sui parametri di ingresso.
Figure 5.4: Output Layer Adaptation (OLA)
Image FIGola
Pensiamo ad un parlatore con una voce molto cavernosa, la filosofia LIN, permetterebbe, nei limiti del possibile, di fare da filtro alla voce di questo parlatore, cercando di trasformarla il più vicino possibile a quella di un parlatore medio. Dall'altro lato, se un parlatore avesse una pronuncia particolare e falsata di particolari fonemi, questa tecnica potrebbe permettere di correggere la pronuncia in fase di riconoscimento. OLA ha un particolare pregio: quello di essere molto veloce. Infatti si può fermare l'iterazione dell'algoritmo di back-propagation all'ultimo strato della rete, risparmiando molto tempo di calcolo. Ha il difetto di avere un numero di archi molto maggiore rispetto a LIN a blocchi e a J-LIN: $300 \cdot 315 = 94500$ archi.

Stefano Scanzio 2007-10-16