Vall-E – Microsoft jaunais mākslīgā intelekta modelis, kas atdarina jebkuru cilvēka balsi, pamatojoties tikai uz 3 sekunžu oriģinālu

Microsoft ir prezentējis jaunu mākslīgā intelekta modeli Vall-E. Tā pamatā ir tehnoloģija EnCodec, par kuru Meta paziņoja 2022. gada oktobrī.

Kas tas ir
Microsoft sauc VALL-E par “neironu kodeku valodas modeli”. Šis mākslīgais intelekts spēj atdarināt jebkuru cilvēka balsi, un tam pietiek noklausīties tikai 3 sekundes no oriģinālās balss. Mākslīgais intelekts sadala informāciju sastāvdaļās un sintezē skaņas variācijas dažādās frāzēs, kā rezultātā tas spēj precīzi atveidot runātāja tembru un emocionālo toni.

Lai apmācītu Vall-E, Microsoft izmantoja 60 000 stundu ilgu sarunu ierakstus, ko ierakstījuši vairāk nekā 7000 reālu cilvēku. Lielākā daļa no tām bija audiogrāmatas no LibriVox bibliotēkas.

Vall-E simulēto balsu piemērus var noklausīties GitHub vietnē.

Microsoft apgalvo, ka Vall-E var izmantot kā teksta pārvēršanas balsī rīku, runas rediģēšanas veidu un audio radīšanas sistēmu, apvienojot to ar citiem ģeneratīviem mākslīgajiem intelektiem.

Avots: Vall-E

Līdzīgas ziņas

Atbildēt

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti kā *

%d bloggers like this:

Spelling error report

The following text will be sent to our editors: