VALL-E : la nouvelle IA de Microsoft qui peut imiter la voix d’une personne

3 secondes : c’est la durée qu’il faut à cette IA pour imiter n’importe quelle voix humaine. Baptisé Vall-e, ce nouvel assistant personnel développé par Microsoft représente une révolution dans le domaine de l’IA. On vous explique tout !

Qu’est-ce que VALL-E ?

VALL-E est un nouveau modèle d’intelligence artificielle qui permet de simuler la voix d’une personne à partir de seulement un échantillon audio de seulement 3 secondes. Plus précisément, il s’agit d’un modèle de langage pour la synthèse vocale. VALL-E a été entraîné sur 60 000 heures de parole en anglais, soit des centaines de fois plus que les systèmes existants. Le plus de ce nouvel outil, est sa capacité à préserver le ton et l’émotion de l’interlocuteur, ce qui rend une imitation encore plus humaine.

L’importance de l’intelligence artificielle

Robots, voitures autonomes, drones, assistants virtuels…
De nos jours, l’intelligence artificielle s’est immiscée dans notre quotidien. C’est pourquoi, celle-ci est actuellement en train de connaître une audience de plus en plus large et risque fortement de se développer dans le futur, renforçant ainsi son statut de « technologie clé de l’avenir ». Par exemple, Microsoft à investi plus de 10 milliards de $ en 2023 sur l’IA.
En effet, une étude publiée par MordorIntelligence en 2020 montre que les dépenses sur le marché mondial de l’IA ont été estimées à 50 milliards de $ avec un TCAC de 31,45 %.
Et comme l’explique Kai-Fu Lee, Informaticien « L’intelligence artificielle va changer le monde plus que tout dans l’histoire de l’humanité. Plus que l’électricité »

La date de sortie de VALL-E

En raison de certaines questions de sécurité et d’éthique auxquelles Microsoft se confronte. VALL-E n’est pas encore accessible au grand public pour l’instant et n’a pas encore de date précise quant à sa sortie. Cependant, la démo de VALL-E, publiée sur GitHub, permet d’observer le fonctionnement de l’IA à l’aide de divers exemples.

VALL-E : Capacités & Limites

VALL-E peut reproduire à la quasi-perfection le timbre de voix d’une personne, en préservant le ton et l’émotion de son locuteur et peut aussi être combiné au modèle textuel GPT3 pour générer des discours en toute autonomie. Pour développer ce “modèle de langage de codecs neuronaux”, l’outil s’appuie sur la technologie EnCodec, un codec audio créé par Meta, basé sur le machine learning. Afin de reproduire les tonalités d’une voix, VALL-E a été entraîné sur la bibliothèque audio LibriLight, 60 000 h de discours en anglais et plus de 7000 locuteurs différents ont ainsi pu alimenter la base de connaissances de VALL-E.

Cependant, VALL-E se retrouve parfois limité et peut de temps en temps mal prononcer, oublier ou doublonner certains mots et aurait beaucoup de mal à apprendre des accents prononcés. Bien que la bibliothèque audio LibriLight soit diversifiée, elle ne suffit pas pour apprendre l’ensemble des accents présents autour du globe. Pour corriger ce biais, VALL-E devra simplement diversifier sa base de connaissances à l’aide de nombreux audios. Dans le futur, les chercheurs de Microsoft s’attendent donc à “améliorer les performances du modèle en matière de style d’expression”.

Enfin, dans une note sur l’éthique, les ingénieurs alertent de possibles détournements : “Puisque VALL-E peut synthétiser la parole en conservant l’identité du locuteur, il peut alors comporter des risques potentiels de mauvaise utilisation, comme l’usurpation de l’identité vocale”.
C’est pour cela qu’avant d’être utilisé publiquement, “les ingénieurs devraient inclure un protocole pour s’assurer que le locuteur approuve l’utilisation de sa voix”.

A l’aube d’une nouvelle ère

En somme, VALL-E représente une véritable révolution grâce à sa capacité à reproduire à la quasi-perfection des voix en peu de temps. Bien qu’il n’en soit qu’à ses débuts, ce nouvel outil présente un fort potentiel à l’avenir. Néanmoins, il reste à voir si des mesures suffisantes seront prises pour empêcher les abus de cette technologie avant sa diffusion à grande échelle.

Si vous avez besoin d’aide pour quoi que ce soit, nous serons heureux de vous aider chez Eanet. Contactez-nous au 01 46 49 10 73 ou sur contact@eanet.fr

Partager
agence Eanet