6.1.3 Esperimenti effettuati

Allo scopo di verificare la reale funzionalità della struttura K-LIN sia a livello di riconoscimento del parlatore che a livello di adattamento sono stati eseguiti diversi esperimenti allo scopo di:

confrontare i risultati ottenuti con LIN e J-LIN utilizzando nell'addestramento di entrambe una rete SI e una rete adattata all'ambiente
verificare, avendo addestrato una LIN per parlatore con un numero crescente di frasi, quante frasi servono per ottenere una buona percentuale di riconoscimento del parlatore
verificare quante frasi di addestramento per ogni parlatore servono per addestrare le LIN
verificare le prestazioni in caso di riconoscimento supervised

Gli esperimenti sono stati compiuti con il database italiano DB-Micro. Si sono addestrate 4 LIN con rispettivamente le prime 285 frasi per il parlatore DM, le seconde 285 per il parlatore MA, le terze 285 per il parlatore MG e le quarte 285 per il parlatore RI. Si è utilizzata questa divisione per fare in modo che nessuna LIN fosse addestrata con frasi uguali. Questo rende più difficile il compito della rete neurale, ma rende l'esperimento più attendibile. Sono state utilizzate 285 frasi anzichè 300 solamente perché al parlatore RI mancavano alcune delle 1200 frasi del training-set. I parametri utilizzati nel file di configurazione di NNA per il riconoscimento del parlatore sono:

learning rate: 0.0002 per gli archi e 0.00002 per i bias
epoche: 1
batchsize: epoche
fabp tolerance: OFF
ufabp tolerance: OFF

Mentre i parametri per l'addestramento delle LIN:

learning rate: 0.0002 per gli archi e 0.00002 per i bias
epoche: 10
batchsize: 10
fabp tolerance: 0.5
ufabp tolerance: 0.6

Per il riconoscimento del parlatore è indispensabile un batchsize ad epoche: infatti è utile che il valore dei pesi, $\lambda$ , siano aggiornati solo alla fine delle frasi utilizzate. In pratica ad ogni frame vengono accumulate le variazione dei $\lambda$ stimate dall'algoritmo di back-propagation. Alla fine, le variazioni dei $\lambda$ , sommate, contribuiranno alla scelta del parlatore. Anche i parametri ufabp e fabp tolerance in fase di riconoscimento del parlatore non hanno significato: al fine di trovare la LIN candidata a rappresentare il parlatore, è utile avere i contributi di tutti i frame, anche di quelli riconosciuti bene dalla rete SI.

6.1.3.1 J-LIN o LIN?

Con questo esperimento si intende analizzare la struttura 5-LIN tramite l'utilizzo di LIN e di J-LIN. Si vuole verificare quale tra le due tipologie di trasformazioni sia più indicata al riconoscimento del parlatore.

Il compito di LIN e di J-LIN in questi esperimenti è quello di riuscire a racchiudere nei loro pesi le informazioni che caratterizzano il parlatore. Si è pensato, per una migliore riuscita dell'esperimento, che sarebbe stato opportuno riuscire ad isolare qualsiasi altra fonte di diversità che non sia quella dei parlatori.

**Figure 6.4:** Struttura 5-LIN utilizzata

Una rete SI è addestrata con materiare provveniente da molti parlatori e da molte fonti, al fine di funzionare correttamente con il maggior numero di parlatori, nelle condizioni più svariate. Tuttavia, oltre alla differenza tra i parlatori ne esiste anche una dovuta al canale utilizzato per la raccolta del database (microfono, linea telefonica, scheda di acquisizione, eventuale sottocampionamento, compressione a-law,...). Utilizzando tipi diversi di microfoni o tipi diversi di mezzi di trasmissione (doppino telefonico, rete GSM,...), la rete SI non fornisce sempre risultati buoni. Nel nostro caso le frasi registrate per i quattro parlatori italiani sono state ottenute utilizzando un microfono comune per tutti e come mezzo di trasmissione un PABX aziendale. La rete SI utilizzata non è stata addestrata con frasi provvenienti dallo stesso canale dei 4 parlatori. Effettuando l'addestramento di LIN e di J-LIN con la normale rete SI, l'argoritmo di back-propagation tenderà a correggere al fine di ridurre anche l'impatto del canale sulla qualità del riconoscimento. Si è deciso di trasferire le informazioni riguardanti il canale direttamente sulla rete SI. L'adattamento al canale della rete SI è stato fatto addestrando la rete con tutto il materiale di training dei 4 parlatori (4800 frasi), per 10 epoche. Le LIN e le J-LIN sono state poi addestrate, con le rispettive 285 frasi di ogni parlatore, sia utilizzando una rete SI che una rete adattata al canale.

Una volta addestrate le 4 LIN e le 4 J-LIN, per le 2 condizioni di rete SI e di rete adattata al canale, si è passati alla fase di test.
Sono state caricate nella struttura 5-LIN nel ordine di figura (6.4) ed è stata applicata la seguente procedura:

addestrare con 2 frasi di test del parlatore DM la struttura 5-LIN, lasciando variare solo i pesi riferiti ai $\lambda$
tenere traccia del massimo $\lambda_i$ ottenuto dall'addestramento che ha utilizzato le due 2 frasi
ripetere il punto 1. e 2. per i 200 gruppi di frasi di test del parlatore DM
ripetere i punti 1., 2. e 3. per le frasi dei parlatori MA, MG e RI

Si è scelto di dividere le frasi di test di ogni parlatore in 200 gruppi di sole 2 frasi ciascuno, per mediare i risultati.

Una volta ricavati i valori di $\lambda$ per tutti i gruppi di 2 frasi per ogni parlatore si è proceduto nel calcolare per ogni parlatore la percentuale di frasi che sono state assegnate, in modo corretto, ad esso e quelle assegnate scorrettamente agli altri parlatori. I risultati sono riportati in tabella (6.2).

Table 6.2: Percentuali di riconoscimento del parlatore per LIN e J-LIN con rete SI e rete adattata (ADA)

SI+LIN	DM	MA	MG	RI	ADA+LIN	DM	MA	MG	RI
Assegnate DM	86	0	0	0	Assegnate DM	71.5	0	0	0
Assegnate MA	0	95	1.5	0	Assegnate MA	5.5	99	7	1
Assegnate MG	0	5	98.5	0	Assegnate MG	3	1	93	0.5
Assegnate RI	14	0	0	100	Assegnate RI	20	0	0	98.5

SI+J-LIN	DM	MA	MG	RI	ADA+J-LIN	DM	MA	MG	RI
Assegnate DM	69.5	0	0	0	Assegnate DM	72.5	0	0	0
Assegnate MA	0	95.5	8.5	0	Assegnate MA	10	98.5	14	3.5
Assegnate MG	0	3.5	90	0	Assegnate MG	5.5	1.5	86	1
Assegnate RI	30.5	1	1.5	100	Assegnate RI	12	0	0	95.5

I risultati mostrano chiaramente il buon funzionamento i questa tecnica di riconoscimento del parlatore. Come percentuale non si è mai scesi al di sotto del 70%. Il parlatore DM mostra di essere maggiormente confondibile rispetto agli altri i quali hanno una qualità di riconoscimento sempre maggiore al 95%. In tutte le quattro tipologie di esperimento appare evidende la divisione dei parlatori in due gruppi: (DM,RI) e (MA,MG). In generale, quando una frase del parlatore DM viene riconosciuta in modo erroneo, essa viene assegnata ad RI e lo stesso vale tra i parlatori MA e MG.

Questo comportamento è molto interessante, perchè fa percepire come i valori dei $\lambda$ rappresentino qualcosa che va al di la del semplice riconoscimento di un parlatore, potrebbe anche rappresentare un misura della vicinanza tra i parlatori. Andando ad analizzare l'origine dei dati, infatti, si vede che i parlatori DM e RI sono femmine, mentre MA e MG sono maschi. La struttura 5-LIN ci permetterebbe a priori, cioè senza conoscenze specifiche sul database, di creare una divisione in due gruppi di parlatori. A posteriori si scopre che questi gruppi rappresentano la divisione di sesso tra i parlatore. Nulla vieterebbe di riunire i parlatori più vicini, più confondibili, in un unica LIN.

In questo si otterrebbero delle LIN meno discriminative ma più ''distanti`` tra di loro, quindi con prestazioni migliori come riconoscimento, in questo caso non del parlatore, ma del sesso del parlatore.

La struttura risulta leggermente polarizzata sul parlatore RI, il quale viene riconosciuto in modo migliore (100% in quasi tutti i casi), ma tende a riconoscere per RI anche le frasi del parlatore DM. Questo significa che la rotazione sugli ingressi compiuta da parlatore RI per alcune frasi di DM è migliore. Probabilmente quest'effetto è provocato semplicemente da alcune frasi di test del parlatore DM che sono molto simili a frasi di training del parlatore RI. Questo fatto, unito alla vicinanza tra i due parlatori, con molta probabilità ha provocato la polarizzazione.

Si nota che la rete adattata all'ambiente e la tecnica J-LIN offrono risultati peggiori rispetto alla combinazione LIN+SI. In alcuni casi, infatti, ci sono dei leggeri aumenti delle prestazioni per alcuni parlatori, a discapito di grosse penalizzazioni per gli altri. Per quanto riguarda il peggioramento ottenuto dall'utilizzo di J-LIN anzichè LIN, esso può essere provocato dal minor numero di parametri della struttura J-LIN che riescono a conglobare un minor numero di parametri descrittivi del parlatore.

Le ipotesi fatte sul miglioramento ottenibile utilizzando una rete adattata al canale sono risultate false. La rete adattatata al canale è sicuramente una rete migliore rispetto ad una SI. Le possibili spiegazioni di questo comportamento possono essere attribuite a due fatti:

nel database italiano sono presenti solo quattro parlatori. La rete SI è riuscita ad imparare le frasi dei parlatori facendo compiere alle LIN un compito minore e rendendole quindi più confondibili.
il miglior comportamento della rete adattata porta semplicemente ad una minore efficacia delle LIN

6.1.3.2 Quante frasi per riconoscere il parlatore?

In questo esperimento si è voluto studiare il variare della percentuale di riconoscimento al variare del numero di frasi utilizzate per il riconoscimento stesso.

Si è addestrata una LIN per ciascuno dei quattro parlatori e sono state caricate in una struttura 5-LIN con una procedura uguale a quella descritta nella sezione (6.1.3).

Table 6.3: Percentuali di riconoscimento del parlatore al variare del numero di frasi utilizzate per il riconoscimento

FRASI	1	2	3	4	5	6	7	8	9
Assegnate DM	76.25	87.00	91.04	95.00	95.00	97.02	98.28	98.00	100.0
Assegnate MA	87.25	95.00	97.02	99.00	100.0	100.0	100.0	100.0	100.0
Assegnate MG	93.75	99.00	99.25	99.00	100.0	100.0	100.0	100.0	100.0
Assegnate RI	99.75	100.0	100.0	100.0	100.0	100.0	100.0	100.0	100.0

Per ottenere le percentuali di riconoscimento si sono utilizzate diverse quantità di frasi di test: 1, 2, 3, 4, 5, 6, 7, 8, 9 frasi. Avendo 400 frasi di test per ogni parlatore e utilizzando i diversi insiemi, si sono effettuati 400 esperimenti con 1 frase, 200 esperimenti con 2 frasi, fino ad arrivare a 44 esperimenti con 9 frasi.

**Figure 6.5:** Percentuali di riconoscimento del parlatore al variare del numero di frasi utilizzate per il riconoscimento

Come nell'esperimento precedente, per ogni parlatore e per ogni insieme di frasi di test si è tenuto traccia del numero di esperimenti assegnati al parlatore DM, MA, MG, RI.
I risultati di questi esperimenti sono riportati in tabella (6.3) e nel grafico (6.5).

Si vede in primo luogo che, all'aumentare del numero di frasi di test, la percentuale di riconoscimento aumenta in maniera decisa per ogni parlatore.

Appare evidente che la LIN del parlatore RI funziona meglio rispetto alle altre: essa, con 2 frasi di test, risponde sempre in modo corretto. I parlatori MA e MG offrono dei risultati tra di loro paragonabili, inferiori rispetto a quelli di RI, ma bastano loro 5 frasi per rispondere con una correttezza del 100%. Anche da questi risultati appare evidente come il modello del parlatore DM sia più debole rispetto al modello degli altri, infatti parte con una percentuale di riconoscimento molto bassa del 76% per arrivare solo dopo 9 frasi a raggiungere il 100%.

Si nota come i grafici (6.5) dei vari parlatori tendano ad avere un comportamento esponenziale: bastano poche frasi per avere un aumento notevole delle prestazioni. Nel caso del parlatore DM con il passaggio da 1 a 2 frasi per il riconoscimento si passa dal 76% al 87%. Questo fa presupporre che solo con un determinato numero di frasi di test i valori dei $\lambda$ riescano a fornire un risultato attendibile, nel caso non abbiano sufficienti frasi per portare il modello in convergenza le prestazioni degenerano rapidamente.

Per questo esperimento sono state utilizzate delle LIN adattate con 285 frasi per parlatore, un numero molto elevato, non sempre ottenibile nelle applicazioni reali. L'esperimento successivo serve a verificare quanto il modello possa migliorare in funzione del numero di frase di adattamento.

6.1.3.3 Quante frasi per l'adattamento?

Si pensa che il numero di frasi di adattamento delle LIN possa incidere notevolemente sulle prestazioni del modello 5-LIN. Un'insufficiente quantità di frasi di adattamento porterebbe ad avere modelli non accurati dei parlatori che non sarebbero in grado di fornire la precisione necessaria per discriminare tra i diversi parlatori.

Table 6.4: Percentuale di riconoscimento del parlatore al variare del numero di frasi di train, utilizzando gruppi da 2 frasi di test per i parlatori DM, MA, MG e RI

DM	2	4	6	8	10	12	14	16	18	20	25	30
Ass. DM	14.5	40.5	63.0	51.0	52.5	49.5	47.0	47.0	46.5	54.0	45.0	61.0
Ass. MA	0.5	2.0	3.0	3.5	1.5	3.0	3.0	2.0	4.0	5.0	1.0	0.5
Ass. MG	14.0	9.5	5.0	5.5	3.5	2.5	1.5	1.5	1.0	1.0	1.0	0.0
Ass. RI	71.0	48.0	29.0	40.0	42.5	45.0	48.5	49.5	48.5	40.0	53.0	38.5

MA	2	4	6	8	10	12	14	16	18	20	25	30
Ass. DM	11.5	13.0	14.5	4.5	7.5	2.5	2.0	3.0	2.0	1.0	1.5	1.5
Ass. MA	10.0	14.0	13.5	21.0	20.5	33.5	54.0	43.5	49.0	53.0	51.0	44.0
Ass. MG	45.5	51.5	63.0	68.5	62.0	62.0	40.5	50.0	47.5	44.5	46.0	52.0
Ass. RI	33.0	21.5	9.0	6.0	10.0	2.0	3.5	3.5	1.5	1.5	1.5	2.5

MG	2	4	6	8	10	12	14	16	18	20	25	30
Ass. DM	2.0	1.5	1.0	0.0	0.5	0.0	0.0	0.0	0.0	0.0	0.0	0.0
Ass. MA	2.5	3.5	3.0	3.0	3.0	4.5	3.5	1.0	1.0	2.5	0.5	1.0
Ass. MG	83.5	86.0	93.5	94.0	93.5	93.0	92.5	95.5	95.5	95.5	96.5	99.0
Ass. RI	12.0	9.0	2.5	3.0	3.0	2.5	4.0	3.5	3.5	2.0	3.0	0.0

RI	2	4	6	8	10	12	14	16	18	20	25	30
Ass. DM	7.0	6.5	6.5	1.5	0.5	1.0	0.0	1.5	2.0	1.0	0.0	0.0
Ass. MA	0.5	0.5	0.0	0.0	0.0	0.0	0.0	0.0	0.5	0.5	0.0	0.0
Ass. MG	8.5	10.0	3.0	2.5	1.5	1.5	1.0	0.0	0.5	1.5	0.0	0.5
Ass. RI	84.0	83.0	90.5	96.0	98.0	97.5	99.0	98.5	97.0	97.0	100	99.5

**Figure 6.6:** Percentuale di riconoscimento del parlatore al variare del numero di frasi di train, utilizzando gruppi da 2 frasi di test per i parlatori DM, MA, MG e RI

Table 6.5: Percentuale di riconoscimento del parlatore al variare del numero di frasi di train, utilizzando gruppi da 10 frasi di test per i parlatori DM, MA, MG e RI

DM	2	4	6	8	10	12	14	16	18	20	25	30
Ass. DM	7.5	35.0	77.5	60.0	57.5	52.5	52.5	47.5	45.0	57.5	37.5	70.0
Ass. MA	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
Ass. MG	5.0	2.5	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
Ass. RI	87.5	62.5	22.5	40.0	42.5	47.5	47.5	52.5	55.0	42.5	62.5	30.0

MA	2	4	6	8	10	12	14	16	18	20	25	30
Ass. DM	5.0	7.5	5.0	0.0	2.5	0.0	0.0	0.0	0.0	0.0	0.0	0.0
Ass. MA	0.0	2.5	10.0	12.5	15.0	17.5	57.5	40.0	52.5	47.5	52.5	45.0
Ass. MG	60.0	75.0	85.0	87.5	82.5	82.5	42.5	60.0	47.5	52.5	47.5	55.0
Ass. RI	35.0	15.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0

MG	2	4	6	8	10	12	14	16	18	20	25	30
Ass. DM	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
Ass. MA	0.0	2.5	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
Ass. MG	97.5	97.5	100	100	100	100	100	100	100	100	100	100
Ass. RI	2.5	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0

RI	2	4	6	8	10	12	14	16	18	20	25	30
Ass. DM	0.0	2.5	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
Ass. MA	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
Ass. MG	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
Ass. RI	100	97.5	100	100	100	100	100	100	100	100	100	100

**Figure 6.7:** Percentuale di riconoscimento del parlatore al variare del numero di frasi di train, utilizzando gruppi da 10 frasi di test per i parlatori DM, MA, MG e RI

Sono state utilizzate 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 25, 30 frasi per addestrare le LIN dei quattro parlatori. Per ogni gruppo di quattro LIN si è proceduto al riconoscimento del parlatore con 200 gruppi di 2 frasi e 40 gruppi di 10 frasi. È stata scelta una suddivisione in insiemi di 2 frasi per evitare che i $\lambda$ portassero a dei valori di riconosciemento del 100%. Si è scelto di utilizzare anche una suddivisione in gruppi da 10 frasi, per vedere il comportamento di 5-LIN con un numero di frasi sufficiente a portare il modello a risultati del 100% nel caso di un adattemento con 285 frasi di training per ogni parlatore.

I risultati degli esperimenti sono riportati in tabella (6.4) e nel grafico di figura (6.6) nel caso di gruppi da 2 frasi di test. Il caso con gruppi da 10 frasi di test è invece riportato in tabella (6.5) e in figura (6.7). L'esperimento con gruppi da 10 frasi di test fornisce risultati leggermente migliori rispetto a quello compiuto con 2 frasi, anche se l'andamento dei due grafici è decisamente simile. Si nota come non sempre, all'aumentare del numero di frasi di training, ci sia un corrispondente aumento delle prestazioni.

I grafici mostrano chiaramente come i parlatori DM e MG siano riconosciuti decisamente meglio rispetto a MA e a RI. Questo comportamento denota semplicemente che, con questo numero di frasi di training, i modelli di DM e di MG rispondono meglio rispetto al modello giusto per quel parlatore. Le quattro LIN non hanno ancora raggiunto una convegenza: con l'aumentare del numero di frasi i modelli di DM e di MG aumentano ancora le loro prestazione e non permettono agli altri due modelli di dare risultati migliori del 50%.

Table 6.6: Percentuale di riconoscimento del parlatore con 50, 75, 100, 150 e 200 frasi di train, utilizzando gruppi da 10 frasi di test per i parlatori DM e MA

Frasi DM	50	75	100	150	200	Frasi MA	50	75	100	150	200
Ass. DM	60.0	52.5	87.5	100	95.0	Ass. DM	0.0	0.0	0.0	0.0	0.0
Ass. MA	0.0	0.0	0.0	0.0	0.0	Ass. MA	60.0	87.5	95.0	100	100
Ass. MG	0.0	0.0	0.0	0.0	0.0	Ass. MG	40.0	12.5	5.0	0.0	0.0
Ass. RI	40.0	47.5	12.5	0.0	5.0	Ass. RI	0.0	0.0	0.0	0.0	0.0

Al fine di individuare con esattezza il punto di convergenza dei quattro modelli si è continuato l'esperimento addestrando le LIN con 50, 75, 100, 150 e 200 frasi di training e utilizzando per il riconoscimento 40 gruppi da 10 frasi di test. Per motivi di spazio sono stati riportati in tabella (6.6) solo i risultati di DM e di MA in quanto i parlatori MG e RI forniscono, con questo numero di frasi di addestramento, un risultato molto vicino al 100%.

**Figure 6.8:** Percentuale di riconoscimento del parlatore con 50, 75, 100, 150 e 200 frasi di train, utilizzando gruppi da 10 frasi di test per i parlatori DM, MA, MG e RI

Come previsto, all'aumentare del numero di frasi di training, tutti i modelli raggiungono la convergenza. I modelli di DM e di MA che prima erano più deboli, iniziano a rispondere meglio rispetto ai modelli di MG ed RI. Dopo 150 frasi di training i risultati sono discreti e nessuno modello ha prestazioni inferiori al 87%. Dopo 200 frasi di training tutti i modelli rispondono praticamente sempre correttamente. Una rappresentazione grafica di questi risultati è data nel grafico di figura (6.8).

Stefano Scanzio 2007-10-16