Microsoft ir prezentējis jaunu mākslīgā intelekta modeli Vall-E. Tā pamatā ir tehnoloģija EnCodec, par kuru Meta paziņoja 2022. gada oktobrī.
Kas tas ir
Microsoft sauc VALL-E par “neironu kodeku valodas modeli”. Šis mākslīgais intelekts spēj atdarināt jebkuru cilvēka balsi, un tam pietiek noklausīties tikai 3 sekundes no oriģinālās balss. Mākslīgais intelekts sadala informāciju sastāvdaļās un sintezē skaņas variācijas dažādās frāzēs, kā rezultātā tas spēj precīzi atveidot runātāja tembru un emocionālo toni.
Lai apmācītu Vall-E, Microsoft izmantoja 60 000 stundu ilgu sarunu ierakstus, ko ierakstījuši vairāk nekā 7000 reālu cilvēku. Lielākā daļa no tām bija audiogrāmatas no LibriVox bibliotēkas.
Vall-E simulēto balsu piemērus var noklausīties GitHub vietnē.
Microsoft apgalvo, ka Vall-E var izmantot kā teksta pārvēršanas balsī rīku, runas rediģēšanas veidu un audio radīšanas sistēmu, apvienojot to ar citiem ģeneratīviem mākslīgajiem intelektiem.
Avots: Vall-E