La guerre des assistants vocaux aura-t-elle lieu?

SONOS VOICE CONTROL Cet assistant vocal propose une expérience plus rapide et plus fluide que la concurrence, et surtout beaucoup plus respectueuse de la vie privée. © PG

Trends Tendances

01-06-2022, 21:00 Mise à jour le: 20-07-2022, 09:38 Source: Newsgate

Le fabricant californien d’enceintes connectées Sonos vient de lancer son propre assistant vocal. Créé par des Français, celui-ci s’apprête à faire de l’ombre à Siri, Alexa ou Google Assistant. D’autant qu’il tacle ses adversaires sur ce qui fait l’essence même de leur business.

C’est dans un quartier branché de Manhattan, à quelques pas de la célèbre High Line, que Sonos a dévoilé sa dernière arme anti-Gafam. Si tous les regards lorgnent la Ray, sa nouvelle barre son d’entrée de gamme, la véritable star du moment n’est pas une enceinte connectée ni un caisson de basses mais un nouvel assistant vocal. Son nom: “Sonos Voice Control”. Sa mission: faciliter l’écoute de votre musique numérique et, accessoirement, préserver votre vie privée… Ses signes distinctifs: il a la voix en anglais de l’acteur Giancarlo Esposito (connu pour son rôle de Gustavo Fring dans Breaking Bad) et a été conçu par des ingénieurs français.

Nous avons adopté une approche différente, plus ciblée, qui ne nécessite pas la transmission ou le stockage de données audio provenant d’un client.” ALICE COUCKE, “HEAD OF MACHINE LEARNING RESEARCH” CHEZ SONOS

L’irruption de cet assistant n’est pas anodine. Dans le monde de la tech, elle est même perçue comme une petite révolution. Et les experts s’accordent sur le fait qu’elle est le résultat d’une stratégie de survie. Car aujourd’hui, la plus grande menace pour Sonos, ce ne sont pas des concurrents comme Bluesound, Bose, Bowers & Wilkins, Denon ou d’autres équipementiers audio, mais plutôt les géants de la tech qui fabriquent des haut-parleurs à commande vocale.

En 2021, pas moins de 186 millions d’enceintes intelligentes ont en effet été livrées dans le monde. Une croissance spectaculaire, puisque ce chiffre atteignait seulement 6,5 millions en 2016. Et qui s’explique notamment par le fait que les enceintes connectées les plus populaires se révèlent sacrément abordables. Actuellement, vous pouvez vous procurer un Amazon Echo, un Google Nest Audio ou un HomePod mini (Apple) pour moins de 100 euros.

Sonos, en revanche, est une marque historiquement plus haut de gamme. Des produits comme l’enceinte Move et la barre son Beam sont vendus respectivement à 399 euros et 499 euros. Seule la petite dernière, la barre son Ray, passe sous le seuil de 299 euros. Et ce n’est pas un hasard. Avec ce produit d’appel, l’entreprise californienne a une stratégie bien rodée: attirer les personnes qui attendent de leur installation audio davantage qu’une simple enceinte intelligente.

En effet, aujourd’hui, une barre son peut offrir davantage qu’une ambiance cinématographique dans le salon. Elle permet aussi d’écouter de la musique via les plateformes de streaming, de gérer vos playlists musicales, de vérifier les dernières infos ou encore de commander une pizza… En lançant son propre assistant vocal, Sonos n’offre pas donc seulement une alternative à Alexa d’Amazon, au Siri d’Apple ou à Google Home. Il tacle ses adversaires sur ce qui fait l’essence même de leur business: la récolte des données.

Indiscrets, les assistants?

“Dis Siri, Hey Google, Bonjour Cortana, Salut Alexa…”, nous sommes de plus en plus nombreux à dialoguer avec nos enceintes connectées. Certaines sont équipées d’un micro intégré, de quoi passer ses appels téléphoniques en mains libres! D’autres sont “intelligentes” et permettent d’utiliser les assistants vocaux de Google, d’Amazon ou d’Apple, ainsi que de piloter la lecture des titres ou le niveau du volume de la voix. Ces majordomes sont prêts à répondre à toutes nos demandes. La lumière à gérer, la météo à annoncer ou encore le meilleur restaurant à réserver…

Pour rappel, les assistants vocaux fonctionnent aujourd’hui tous à peu près de la même façon, c’est-à-dire qu’un mot ou une phrase en particulier réveille l’appareil qui écoute alors la requête de l’utilisateur. Les Gafam profitent de ces interactions pour collecter toujours plus de données personnelles, les enregistrer dans leurs serveurs et analyser ces contenus. Or des données, ça se vend. Votre comportement, votre façon d’être, le type de contenu que vous recherchez, la façon dont vous interagissez avec votre assistant numérique… Commercialement, c’est l’or du 21e siècle. Sans compter que les réponses de Siri, Alexa et consorts s’avèrent parfois biaisées dans le but d’aiguiller les utilisateurs vers une marque ou un produit plutôt qu’un autre. De là à craindre d’être espionné 24 heures sur 24? S’il y a effectivement écoute, en principe, les sons ne sont pas enregistrés en dehors des plages de dialogue avec l’assistant. En principe car, en réalité, les assistants peuvent réagir, de façon erronée, à des stimulus sonores inappropriés. En 2019 d’ailleurs, il a été prouvé qu’Apple avait embauché des centaines de personnes pour analyser des bribes de conversations et enrichir ses algorithmes… Quant aux dialogues “officiels” avec les assistants, ils sont conservés par les plateformes pendant de longs mois.

A votre écoute

Il y a quelques années, Amazon, Apple, Google et même le géant américain de l’informatique Microsoft ont de toute façon admis peu ou prou que certaines conversations d’utilisateurs étaient écoutées afin d’affiner les fonctionnalités offertes par leurs assistants numériques. Bien que l’intelligence artificielle soit au coeur de la technique d’apprentissage des assistants vocaux, l’intervention humaine reste en effet encore nécessaire. L’utilisation des enregistrements vocaux et l’analyse de ceux-ci par des humains contribuent à l’amélioration de l’expérience client. Environ 1% des enregistrements sont utilisés et cette méthode est critique pour améliorer la performance”, admettait Amazon, qui affirme avoir depuis amélioré la sécurité d’Alexa en donnant plus de contrôle aux utilisateurs.

La guerre des assistants vocaux aura-t-elle lieu? — © PG

Rien de tout cela avec Sonos Voice Control. En proposant un service vocal essentiellement centré sur la lecture audio, l’entreprise californienne propose une expérience plus rapide et plus fluide, et surtout beaucoup plus respectueuse de la vie privée. “Amazon, Apple et Google développent des assistants vocaux à usage général, qui ont finalement un objectif très différent: ils veulent répondre à toutes les questions, aborder tous les sujets, confie Alice Coucke, ancienne directrice chez Snips – une start-up française acquise par Sonos en 2019 – et désormais cheffe du machine learning chez Sonos. Pour obtenir une expérience utilisateur satisfaisante, les Gafam sont presque obligés de collecter des données à grande échelle. Nous, nous adoptons une approche différente, plus ciblée, qui ne nécessite pas la transmission ou le stockage de données audio provenant d’un client.”

Un assistant très privé

Contrairement à Amazon, Apple et Google qui transfèrent vos enregistrements – et parfois vos conversations – dans le cloud pour être analysés, Sonos traite toutes les commandes vocales sur l’appareil. L’enregistrement n’est jamais stocké, ni localement, ni dans les serveurs. Seuls les noms de chansons, d’artistes, d’albums, de playlists ou de genres sont envoyés aux différents services musicaux compatibles (comme Apple Music, Deezer ou Tidal, mais pas encore Spotify). L’avantage pour la vie privée est évident, mais ce n’est pas le seul. Grâce au traitement local, la reconnaissance peut aussi se faire plus rapidement, selon Sonos. “Comme il n’y a pas d’allers-retours vers le cloud, on traite chaque fragment de son l’un après l’autre, sans attendre la fin de la phrase. Résultat: on gagne en réactivité”, explique Alice Coucke. En effet, en lançant le mot d’éveil “Hey Sonos”, il suffit d’édicter sa requête (par exemple: “lance ma playlist matinale”) pour que l’enceinte s’exécute en une fraction de seconde. Autre avantage: en utilisant son propre assistant, Sonos permet également d’activer de nouvelles fonctionnalités, comme le transfert d’audio entre les haut-parleurs avec une simple commande vocale. “Vous pouvez par exemple mettre l’enceinte de votre chambre à coucher sur pause et poursuivre l’écoute dans la salle de bain ou le salon. Ou diffuser votre playlist dans toutes les pièces, en mode multiroom“, illustre Alice Coucke.

La voix de son maître

Conçu entre Paris et les Etats-Unis par une équipe de 60 ingénieurs, lancé ce 1er juin, le Sonos Voice Control n’est disponible qu’en anglais américain. Alors que les géants de la tech ont opté pour des voix neutres et généralement féminines, l’entreprise californienne a choisi celle de l’acteur américano- danois Giancarlo Esposito ( photo) vu dans Breaking Bad et The Mandalorian, notamment. Ses réponses ont du style et sont données d’un ton affirmé. Ce n’est pas la première fois qu’un assistant utilise une voix connue (les navigateurs GPS le font depuis plusieurs années), mais cela rajoute du cachet. Notons qu’une version francophone est déjà en préparation. Qui sera la voix française de Sonos? Omar Sy? Edouard Baer? François Damiens? Les paris sont ouverts.

8 milliards

Nombre d’appareils dans le monde qui devraient être animés par un assistant vocal dès 2023. Ils sont 2,5 milliards aujourd’hui.

Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici