sintesi

some content

riconoscimento

1. Un corpus da usare per il testing dei sistemi rispetto alle loro caratteristiche generali.

2. Corpora per l’addestramento di nuovi sistemi sia da zero che per un eventuale fine-tuning, articolata in dati non trascritti (per i sistemi self-supervised) e in dati trascritti da usare sia per l’ultimo stadio dei sistemi non supervisionati che per addestrare i sistemi supervisionati; a tale scopo è necessario raccogliere ingenti quantità di parlato non trascritto (circa 10.000 ore, equivalenti a poco più di un anno, potrebbero essere sufficienti), da utilizzare seguendo un approccio di autoapprendimento tipico di questi sistemi; al parlato non trascritto si affianca poi una quantità decisamente minore di parlato trascritto accuratamente che viene solitamente utilizzato per completare l’addestramento nella sua quota supervisionata o per raffinare le prestazioni su domini speciali. Il dataset Phoné è stato creato raccogliendo materiale audio pubblico, con lo scopo di essere accessibile da parte di tutta la comunità di ricerca e no profit in generale. Per il momento le fonti principali sono tre: il corpus CLIPS, la biblioteca digitale Librivox e i video presenti su canali Youtube. Il materiale è suddiviso in trascritto (la trascrizione è di tipo ortografica) e non trascritto.

3. Due sistemi ASR, uno basato su un sistema non supervisionato e uno basato su ASR E2E supervisionato, entrambi addestrati da zero con dati in italiano, raccolti e controllati dal consorzio

4. Una infrastruttura per la sintesi vocale basata su tecniche E2E, proposta sia come applicazione pronta all’uso e basata sulla voce di due speaker italiani, uno maschile e uno femminile, sia come codice pronto all’uso e reso utilizzabile anche da persone non esperte, per costruire in proprio nuove voci. In questo lavoro, specificamente dedicato alle risorse orali parleremo del punto 2 e faremo cenno alle scelte progettuali per giungere alla descrizione di quanto indicato nel punto 3. Il dataset descritto nel punto 1, ovviamente è un sottoinsieme di quello che si produce nel lavoro relativo alla creazione del 2.

5. Definizione di metriche e procedure per la valutazione dei modelli/architetture/processi allo stato dell’arte in contesti specifici