L’IA vous écoute: la révolution vocale, c'est maintenant

Christophe Charlot Journaliste

Journaliste 31-12-2024, 06:56 Mise à jour le: 31-12-2024, 06:56 Source: Trends-Tendances 8 min. de lecture

Commandes vocales, assistants virtuels, services automatisés, remplacement des call-centers… Depuis les progrès fulgurants de l’IA et de la synthèse vocale, la voix s’impose comme une interface incontournable. Elle redéfinit nos interactions avec la technologie et multiplie les usages. Mais derrière cette révolution se cachent des questions essentielles : éthiques, philosophiques et économiques.

Michael Jackson qui reprend le tube La Isla Bonita de Madonna, 14 ans après sa mort. Elvis Presley qui chante Billie Jean de son ex-roi de la Pop de beau-fils sorti en 1982, soit cinq ans après sa mort. Sur YouTube, les producteurs amateurs armés, de logiciels d’intelligence artificielle, s’en donnent à cœur joie depuis plus d’un an. L’IA capable de singer des voix connues, et de recréer des mélodies à l’envi permet d’ores et déjà de tromper les oreilles les plus averties qui n’ont parfois que la logique des dates pour comprendre que ces chansons n’ont jamais été enregistrées.

Au-delà des prouesses techniques et du fun que ces morceaux “inédits” peuvent procurer aux internautes, se cache toutefois le frémissement de toute une industrie. Après avoir rebondi comme il le pouvait suite au big bang du téléchargement illégal, puis du download légal et enfin au streaming audio, voilà que le secteur mondial de la musique doit affronter un phénomène susceptible de brouiller les cartes de la création. Car ces fausses chansons posent de nombreuses questions : désinformation du public, “droits à la voix” des chanteurs, compositeurs et musiciens…

“La voix ? C’est déjà fini : place à la vidéo !”
Les révolutions se suivent à un rythme effréné. OpenAI, Google et les autres rivalisent d’innovation sur le créneau le plus porteur de la tech. Les annonces de prouesses se suivent et chassent les précédentes. Le lancement de SORA, l’IA d’OpenAI qui génère des vidéos n’a fait parler de lui que quelques jours avant que Grok 2, le nouveau modèle lancé par Elon Musk, ne marque les esprits avec sa capacité à générer des images quasi parfaites, sans véritable limitation éthique.
En fin observateur de l’IA, Laurent Alexandre constate d’ailleurs que “l’on est passé d’un système text only à un système intégrant du texte, du son, de la vidéo. Aujourd’hui, les progrès en matière de génération vidéo sont tels qu’on imagine sans peine qu’elle remplacera même de nombreux cas d’usage de la voix ! On va désormais interroger l’IA sur ce que l’on voit.
À l’avenir, quand on aura un problème de modem, pourquoi appeler un service client en vocal alors qu’en montrant, en vidéo, le modem à l’IA, elle pourra apporter des solutions ?
La dimension vidéo représentera à l’avenir la plupart des cas d’usage. Les progrès actuels de la voix et des interactions audio ne pourraient être qu’une étape. En réalité, je pense que technologiquement, on est déjà à l’étape d’après : la vidéo !”

Créer des musiques, des chansons, des vidéos

Plus encore, l’IA capable de “créer” des musiques (mais aussi des paroles ou clips vidéos) presque à l’infini jette un sérieux pavé dans la mare des professionnels de secteur. Les applications qui permettent d’inventer des chansons (plus ou moins réussies) sur la base de quelques indications demandées (ces fameux prompts) pullulent sur les AppStore et sur le net.

Une étude de la Cisac (Confédération internationale des sociétés d’auteurs et compositeurs), dirigée par Björn Ulvaeus, l’ancien guitariste du groupe ABBA, estime que, d’ici 2028 déjà, les revenus des créateurs dans le monde de la musique diminueront de pas moins de 24%. Et de 21% dans l’audiovisuel. Cela correspond à une perte de 22 milliards d’euros pour l’ensemble du secteur. Alors que dans le même temps, selon l’étude, la valeur des contenus générés par l’intelligence artificielle sera multipliée par 21 d’ici 2028, et passerait donc de 3 à 24 milliards d’euros.

Un solide transfert de valeur qui se traduira inévitablement par des artistes laissés sur le carreau. Et potentiellement, la raréfaction voire la disparition de certains métiers, comme celui de doubleur de film. En effet, la profession craint le remplacement des hommes et femmes qui endossent les voix françaises des acteurs dans les films étrangers. En France, un collectif “Touche pas à ma VF” est ainsi né pour s’opposer à l’usage de l’IA pour doubler les films, alors que les concepteurs de cet technologie jugent l’IA plus parfaite au niveau de la synchro labiale, et cela sans toutefois perdre en émotion.

D’ici 2028 déjà, les revenus des créateurs dans le monde de la musique diminueront de pas moins de 24%. Et de 21% dans l’audiovisuel.

Large présence dans les foyers

Même si des accords viendront partiellement encadrer l’usage de l’IA dans certains domaines du business de la culture, les manifestations en tout genre ne semblent pas pouvoir arrêter un train lancé à vive allure : la commande vocale s’impose dans nos vies depuis déjà un moment.

L’essor des enceintes connectées témoigne de cette tendance : Amazon a vendu plus de 500 millions exemplaires de l’appareil Echo, doté d’Alexa, dans le monde, et Google ou Apple ne sont pas en reste avec leurs propres modèles. Ces assistants vocaux sont déjà partout, intégrés dans nos foyers, nos smartphones, nos voitures. Ils entrent dans la vie de plus en plus de gens, et certainement de la jeune génération qui a pris l’habitude de se parler, en différé, par message vocaux sur WhatsApp ou Instagram et qui n’a donc pas la réticence de “parler à une machine”.

Autrefois cantonnés à des commandes simples, les systèmes de reconnaissance vocale commencent aujourd’hui à être capables de comprendre parfaitement des requêtes complexes, même prononcées dans des conditions imparfaites. Avant, les solutions de reconnaissance de voix restaient assez limitées en termes de compréhension : elles se cantonnaient à des instructions prédéfinies. Et des mots mal prononcés, du bruit ou des accents spécifiques leur posaient problème.

**Les haut-parleurs intelligents** avec assistant d’IA ont déjà envahi de nombreux foyers, rendant bien des services lorsque l’on a les mains encombrées, par exemple. © Getty Images

Progrès des voix de synthèse

Aujourd’hui, l’intelligence artificielle analyse, interprète, répond, puis s’exprime avec une fluidité inattendue grâce aux progrès fulgurants des voix de synthèse. Cette évolution rend la voix d’une machine (presque) aussi naturelle que celle d’un être humain, rendant l’interaction bluffante. Facilitant l’adoption de la technologie par les consommateurs qui deviendront de plus en plus exigeants dans leurs interactions avec les “machines”. Et donc avec les entreprises qui sont derrière.

Il faut dire que les progrès de l’IA générative d’une part, et des technologies de voix synthétiques, d’autre part, ont considérablement étendu le champ des possibles. Et beaucoup d’industriels ont d’ores et déjà saisi la mesure de ce qui se prépare. S’ils n’ont pas déjà implémenté la technologie, ils s’y préparent: distribution, automobile, santé, informatique, éducation, etc.

Au point que chez EY Fabernovel, certains associés prédisent que “la voix sera la prochaine interface homme-machine”. Car cette combinaison de l’intelligence artificielle et de la voix offre nombre d’avantages : gains d’efficacité, nouvelles opportunités business et amélioration de l’expérience client.

“On peut aisément imaginer que les gens préféreront être pris en charge par une IA que par un humain qui tarde à répondre.

Des “call centers” sans humains?

Dans les services clients, par exemple, on voit d’ores et déjà les avantages de faire usage de l’IA vocale. Car dans de trop nombreux cas, l’expérience des clients avec des call centers est mauvaise : temps d’attente trop long, mauvaise compréhension du problème, informations incomplètes, inadaptées ou carrément mauvaises.

“Le métier de la prise en charge d’appels téléphoniques s’apprête à vivre une révolution et une partie va même disparaître, prédit Florent Quinti, associé au start-up studio Hexa qui développe notamment StandardX, une solution de call center automatisée à base d’IA. Aujourd’hui, la technologie est telle que l’on peut aisément imaginer que les gens préféreront être pris en charge par une intelligence artificielle que par un humain qui tarde à répondre ou n’apporte pas correctement de solution.”

Proximus a, par exemple, déjà mis en place un voicebot qui décroche en première ligne lors des appels des clients.

L’IA qui décroche chez Proximus

Proximus a déjà intégré l’intelligence artificielle dans ses services téléphoniques aux clients. Aujourd’hui, lorsqu’un client appelle l’opérateur, c’est une machine qui décroche et pose les premières questions pour cerner le problème. Le voicebot de Proximus est capable de comprendre ce que dit le client, d’analyser sa demande et de résoudre une multitude de problèmes en temps réel. “Cela permet de classifier les questions des clients et de les orienter vers l’agent compétent dans ce domaine”, explique Véronique Marcq, responsable du projet chez Proximus.
Mais ses capacités ne s’arrêtent pas là. “Cette technologie peut, sans intervention humaine, redémarrer un modem à distance, traiter des questions de facturation, fournir des informations sur les coûts mobiles à l’étranger ou encore récupérer un code PIN”, poursuit-elle. Conçu il y a plusieurs années et lancé en 2023, ce voicebot s’appuie sur l’intelligence artificielle classique et générative.Pour Proximus, les avantages sont multiples : une disponibilité 24 heures sur 24, l’absence totale de temps d’attente et une meilleure répartition des tâches entre humains et machines.
“Les opérateurs restent au cœur du service client, mais leur rôle évolue, précise Véronique Marcq. Ils se concentrent sur les questions complexes et n’ont plus à perdre de temps sur des problématiques simples que le voicebot peut résoudre.”Mieux encore, les agents jouent un rôle clé dans l’amélioration continue de l’assistant vocal. “Ils nous aident à enrichir le bot, que ce soit en affinant le vocabulaire ou en partageant des retours d’expérience, comme les expressions utilisées par les clients”, ajoute-t-elle.
Un exemple ? Beaucoup de clients parlent de la “petite boîte qui clignote” pour désigner un modem. Ces ajustements permettent au bot de mieux comprendre et d’interagir de manière plus naturelle. À terme, Proximus envisage d’aller plus loin. Non seulement le voicebot pourrait améliorer ses interactions pour devenir encore plus “humain”, mais il pourrait également passer lui-même des appels. “Si nos systèmes détectent qu’un décodeur doit être remplacé, l’IA pourrait appeler directement le client pour l’en informer”, conclut Véronique Marcq. Une révolution discrète mais profonde dans la relation client.

Commandes vocales à la rescousse

Et, pour Laurent Alexandre, observateur de l’IA depuis des années, “ce qui va disparaître, ce ne sont pas les call centers dont on aura toujours besoin, mais l’humain dans les call centers“. La voix humaine pourra-t-elle, en effet, rivaliser avec des outils moins coûteux, plus rapides et connectés à des IA qui accèdent à bien plus de savoir que n’importe quel humain ?

Mais de manière plus globale, la voix est amenée à transformer pas mal d’interactions dans des situations où taper sur un écran est moins pratique ou pas possible. Dans le quotidien des gens, il est parfois plus facile de demander à son enceinte connectée de lancer un minuteur quand on cuisine, et qu’on a les mains pleines de farine, que de prendre son appareil en main. Pareil pour pas mal de commandes dans la maison connectée.

Il en va de même dans certains environnements professionnels, comme dans les soins de santé, où les commandes vocales pourront rendre de grands services aux infirmières et aux médecins. Pour ces derniers d’ailleurs, Microsoft a développé Dax Copilot, un assistant qui rédige automatiquement des comptes rendus. Dans l’automobile, Volkswagen a pris les devants en intégrant les technologies de ChatGPT dans ses nouveaux modèles. Cela permet au véhicule de répondre aux interrogations de l’automobiliste sur son trajet, les magasins qui se trouvent à proximité, etc.

Nouvelle interface de tous nos logiciels

Le bouleversement touchera aussi les développeurs, pour les applications et tous les softwares. “Cette technologie permet au software de parler, avance Florent Quinti. Avant, un logiciel pouvait analyser des documents ; désormais, il peut écouter, comprendre et répondre. Nous ne nous limitons plus au texte sur un écran. Le logiciel devient un interlocuteur à part entière. L’apport de la voix est tel que, lorsqu’il sera plus pratique d’interagir oralement, on privilégiera ce mode au clavier.”

Notamment dans tous les cas où la saisie manuelle est une contrainte : “Sur mobile, lorsqu’il faut entrer des données complexes, pourquoi taper quand on peut simplement parler ? On peut imaginer cette approche pour les CRM, le support client, la collecte d’informations, ou même l’apprentissage des langues. Les logiciels d’e-learning, par exemple, proposent de véritables conversations, adaptatives, immersives, avec l’apprenant.”

Cette mutation de l’interface homme-machine via la voix ouvre d’immenses perspectives. Elle peut améliorer l’accessibilité pour les personnes malvoyantes et rendre pas mal de services aussi pour les personnes âgées et peu familières des interfaces graphiques. La voix élimine la barrière du texte, là où elle freine l’expérience. Elle peut donc proposer des interactions plus humaines et plus fluides. Mais forcément, elle implique aussi de nouveaux risques et enjeux éthiques et juridiques.

Confidentialité et protection des données

L’adoption massive des interfaces vocales soulève d’importantes questions en matière de confidentialité. Les enregistrements vocaux, même partiels, peuvent révéler des informations sensibles, ou des informations sur l’identité, les émotions, l’état de santé ou la situation géographique de l’utilisateur. Voire des sujets très intimes. Ces données, récoltées en masse, alimentent des bases de connaissances sensibles pour des entreprises ou des plateformes, dont les intentions et le niveau de protection ne sont pas toujours transparents.

Un autre risque réside dans la généralisation d’arnaques. Notamment le deepfake vocal : la capacité de l’IA à imiter des voix humaines de manière réaliste ouvre la porte à l’usurpation d’identité, à la fraude, ou encore à la diffusion de fausses informations par le biais de voix connues. Aujourd’hui avec un minimum de recherches, chaque internaute peut en quelques clics recréer des voix de personnalités connues… ou de proches. Inutile de dresser la liste de toutes les malversations possibles. Comme toujours, derrière chaque technologie se cache le meilleur comme le pire. Autant le savoir…