5.1.2 Joint Linear Input Network Adaptation (J-LIN)

Una LIN normale è composta come si è detto da 10920 pesi. Il numero di pesi è direttamente legato alla quantità di informazioni che una rete può memorizzare. Addestrando infatti tutta la rete, composta da 400702 pesi, si riescono ad ottenere risultati migliori poichè essa sarà in grado di memorizzare un maggior numero di informazioni, che dopo qualche ciclo di addestramento, in una normale strategia LIN, andrebbero perse. Un maggior contenuto informativo e quindi un maggior numero di pesi, crea però una focalizzazione nell'apprendimento. Se è vero, quindi, che all'aumentare dei pesi la precisione della rete migliora, dovranno anche aumentare i patterns di esempio che bisogna fornire alla rete al fine di ottenere risultati accettabili. Nel caso in cui si voglia compiere un adattamento veloce al parlatore, in cui le frasi a disposizione sono poche, una possibile strategia potrebbe consistere nel far diminuire il numero di pesi rappresentanti quel determinato parlatore. Facendo così si ipotizza che le prestazioni generali dell'adattamento saranno inferiori, ma anche che la rete possa convergere più velocemente ad una qualità migliore rispetto al modello SI.

Ogni pattern di ingresso è composto da 7 blocchi da 39 unità con la stessa struttura e le stesse grandezze rappresentate: $E$ , $C_i$ , $\Delta C_i$ , $\Delta \Delta C_i$ , $\Delta E$ , $\Delta \Delta E$. La differenza tra i 7 blocchi consiste nel fatto che i primi tre rappresentano il contesto sinistro, il quarto il contesto centrale e gli ultimi tre quello destro. Questo uguaglianza tra i blocchi ha permesso la separazione in 7 gruppi da 39 elementi, utilizzata per la LIN in sezione (5.1.1). Nell'adattamento al parlatore la LIN ha solo lo scopo di raccogliere le informazioni specifiche del parlatore, nel caso della LIN di sezione (5.1.1) essa tiene traccia di queste caratteristiche in 7 blocchi separati, riferiti ai 7 contesti. Questa ripetizione di informazioni fornisce risultati migliori perché aiuta globalmente la rete a riconoscere meglio, ma non porta nessuna conoscenza in più sul parlatore.

L'idea della Joint Linear Input Network (J-LIN) è quello di legare i 7 blocchi in uno solo, riducendo il numero di pesi da addestrare a 1560. Per relizzare una J-LIN si è deciso di legare i pesi dei 7 archi che, blocco per blocco, occupano la stessa posizione. Costringendoli ad avere lo stesso valore si può memorizzare solo uno di essi, riducendo di 7 volte la dimensione del file dei pesi per la rete. L'unico cosa ancora da analizzare rimane come modificare i pesi della rete durante il training. Per fra ciò analizziamo il comportamento di un qualsiasi peso della rete. Sia $w_2$ il peso preso in considerazione, esso avrà altri 6 pesi legati, uguali, che saranno $w_1$, $w_3$, $w_4$, $w_5$, $w_6$ e $w_7$ (figura 5.3).

Figure 5.3: Legatura dei pesi in una J-LIN
Image FIGlin_unita
A seguito dell'addestramento di un nuovo pattern l'algoritmo di back-propagation apporterà delle modifiche ai pesi della J-LIN al fine di correggerne l'errore. Si avranno dei pesi $w_i(t+1)$ con $ 1 \leq i \leq 7$ diversi. Poichè bisogna ottenere un valore uguale per tutti e 7 pesi, è ragionevole farne la media ed utilizzare il risultato come nuovo peso:
\begin{displaymath}
w_i(t+1)_{new} = \frac{\sum_{i=1}^{7} w_i(t+1)}{7}
\end{displaymath} (5.3)

Estendendo il ragionamento per tutti gli archi presenti nella rete si ottiene la J-LIN.

Stefano Scanzio 2007-10-16