Comprendre les vertus et les dangers des assistants vocaux en 9 questions

Extrait de 2001 A Space Odyssey. © Capture d'écran YouTube

L’enceinte intelligente Amazon Echo a pris le monde par surprise et donne le la sur une nouvelle tendance: les assistants vocaux qui vont progressivement s’intégrer dans tous nos appareils et dont nous deviendrons dépendants. Ils imposeront aussi à de multiples métiers d’évoluer… au risque de disparaître.

Après sa séparation d’avec Catherine, Théodore Twombly plonge dans une profonde dépression dont il peine à sortir. Jusqu’au jour où, lumière dans l’obscurité, il trouve du réconfort auprès de Samantha, avec qui il va partager son quotidien. Une histoire qui serait totalement banale si Samantha n’était pas… une intelligence artificielle. Oui, un algorithme intelligent couplé à une interface vocale capable de communiquer et même de ressentir des émotions.

Cette histoire est celle de Her, une comédie romantique imaginée par le réalisateur Spike Jonze et sortie en 2013 avec Scarlett Johansson dans le rôle de la voix. Ce film faisait doucement sourire les sceptiques. Mais aujourd’hui, si la réalité n’a pas encore totalement rattrapé la fiction, du chemin a été parcouru par les géants du Net dans cette direction. Contre toute attente, le petit tube noir Echo, vendu par Amazon et permettant à ses possesseurs de lui adresser vocalement des ordres, rencontre un vif succès. Le géant de l’e-commerce n’a pas communiqué de chiffres. Mais les estimations font état de 5 à 8 millions d’Amazon Echo vendus, essentiellement sur le marché américain. Selon The Economist, l’appareil avait déjà atterri sur les tables de salon de 4 % des foyers américains avant même l’explosion des ventes de Noël 2016.

Lancé en novembre 2014, l’appareil a surpris les observateurs les plus calés. En dehors de toutes les catégories d’appareils connus, Amazon Echo ressemble à une petite enceinte musicale cylindrique. Mais elle offre la particularité d’embarquer un micro relié à de puissants algorithmes dans le cloud, donnant ainsi vie à une assistante virtuelle qui rend de nombreux services et qu’Amazon a baptisée Alexa. Il est ainsi possible d’interroger Alexa, posée au coeur du salon, pour trouver le resto japonais le plus proche, avoir la météo, lui demander des dernières infos ou commander le dernier livre de Marc Levy.

Pour l’instant, les usages restent relativement limités et Echo/Alexa ne fonctionne bien qu’en anglais, pas encore en français ni en néerlandais. Mais c’est déjà ” une énorme surprise technologique “, soutient Laurent Alexandre, observateur avisé du développement de l’intelligence artificielle. ” Personne n’a cru à Amazon Echo et pourtant aujourd’hui, l’appareil rencontre un vrai succès. ” D’ailleurs, pas plus tard qu’au mois de janvier, Alexa était au centre de toutes les attentions au CES (Consumer Electronic Show) de Las Vegas. Des tas de fabricants ont annoncé son intégration au coeur de leurs appareils et produits : Huawei dans son Mate 9, Ford dans son système d’entertainment, Ion dans ses haut-parleurs, Whirlpool dans ses machines à laver, ses fours et ses réfrigérateurs… Une vraie course pour le ” tout vocal “..

1. On en parle depuis longtemps… Qu’est-ce qui change ?

La reconnaissance vocale n’est pas neuve. Depuis des années, elle intéresse les acteurs technologiques. Déjà à l’époque de Lernout & Hauspie, dans les années 1990 en Belgique, la voix nourrissait de nombreux espoirs. Et cela fait des années qu’Apple et Microsoft ont intégré des fonctionnalités de reconnaissance vocale à leurs produits. Sans que jamais la voix ne parvienne à s’imposer. Pourtant, aujourd’hui, elle redevient une tendance prometteuse.

Selon la grande prêtresse américaine du Web Mary Meeker, la voix va bouleverser les interfaces informatiques. Pourquoi ? D’abord, elle mentionne la précision de la reconnaissance, passée de 70 % en 2010 à 90 % en 2016. Il est en effet loin le temps où, pour qu’un logiciel puisse retranscrire vos propos, vous deviez l’entraîner de longues heures durant. Microsoft a par ailleurs déclaré en octobre 2016 avoir réalisé une performance ” historique ” dans ce créneau : son système de reconnais- sance vocale – anglophone – retranscrit les conversations aussi bien qu’une sténo le ferait. De plus, ce qui change par rapport aux annonces faites voici 15 ou 20 ans, c’est l’environnement de la reconnaissance vocale.

La voix de son maître ? Echo-Alexa, d'Amazon, écoute et répond.
La voix de son maître ? Echo-Alexa, d’Amazon, écoute et répond.© PG

Aujourd’hui, vos ordres sont envoyés dans le cloud, où de puissants algorithmes intelligents peuvent les décortiquer, les interpréter et, sur base des données disponibles sur la toile, apporter les réponses -vocales- les plus précises et adaptées possible. Grâce à la percée du machine learning (le fait que les machines sont capables d’apprendre seules), cela devient possible sans qu’il faille encore prédéfinir des règles comme par le passé. La combinaison de la reconnaissance vocale, des technologies web et cloud, des algorithmes, du machine learning et de l’intelligence artificielle ont sensiblement changé la donne.

2. Pourquoi les géants d’internet se battent sur ce créneau ?

Les géants du Net déploient de lourds efforts et dépensent des sommes colossales pour imposer leurs assistants virtuels vocaux. Apple, Google, Microsoft, Facebook et leurs homologues chinois investissent massivement pour développer la R&D en matière d’intelligence artificielle et de reconnaissance vocale et racheter les start-up prometteuses du créneau. On parle en milliards de dollars.

A Redmond, chez Microsoft, ” pas moins de 5.000 personnes travaillent exclusivement dans le domaine de la reconnaissance et de l’intelligence artificielle, avance Bruno Schroder, national technology officer de Microsoft Belux. C’est essentiel pour l’avenir de la technologie “. Pourquoi ? ” La conversation va transformer totalement les interactions avec l’informatique, prédit Bruno Schroder. Le grand public ne s’en rend pas encore vraiment compte mais c’est une véritable révolution car cela va rendre la technologie tout à fait invisible. Cela change l’accès à l’information – qui ne passera plus par un navigateur – et aux services. Il s’agit d’une révolution tout aussi importante que l’arrivée du Web. La voix est la plateforme technologique du futur. Cela implique une réelle disruption des grands acteurs. Aucun ne peut passer à côté. ” Car si la voix s’impose, au moins en partie, des pans entiers du business de ces géants subiront de véritables transformations : potentiellement, le Windows que l’on connaît disparaîtra. Les liens sponsorisés, qui font la fortune de Google, n’ont plus de raison d’être et de nouvelles activités (et leurs revenus) s’imposeront. Bref, la crainte, c’est que la voix redistribue les cartes entre les GAFA et bouleverse totalement les équilibres actuels.

La percée inattendue d’Amazon avec Alexa a de quoi inquiéter Google et Apple. Aucun ne veut risquer de manquer le train de la prochaine révolution. Or, la voix, avec son intelligence artificielle, ” représente l’une des plus grosses batailles industrielles à venir, prévient Laurent Alexandre. La taille de l’enjeu est énorme et se compte en centaines de milliards de dollars. Les assistants qui répondent sans écran deviendront le premier secteur industriel de 2030. Il s’agit de supplanter le téléphone et cela va mobiliser toutes les forces des fabricants et des géants du Net. ” Bruno Schroder, de Microsoft, abonde en ce sens lorsqu’il soutient que ” dans cinq ans, la plateforme de développement chez nous ne sera plus Windows mais Cortana. La voix va faire disparaître les OS. ” C’est dire la révolution qu’ils s’attendent à subir !

3. Quels métiers ce nouveau tsunami va-t-il frapper ?

Dans un monde où la plupart des contacts informatiques passent par la commande vocale, des tas de métiers vont disparaître ou muter. On pense en premier lieu au monde du graphisme online, de l’optimisation de navigation et de la création d’applis, qui perdront de leur intérêt puisque l’écran sera moins utilisé. ” Il va totalement falloir revoir la manière dont on partage du contenu en ligne, analyse Alexandre De Saedeleer, COO de l’agence Tapptic. Il va falloir veiller à ce qu’il soit adapté à la lecture vocale et donc le découper de manière très différente. ” De même, certains s’attendent à ce que les utilisateurs ne téléchargent même plus d’applis à l’avenir et laissent leur assistant se charger de leur remonter, depuis le cloud, l’information qu’une appli aurait partagée.

D’ailleurs, c’est la direction que prend Amazon aujourd’hui en permettant aux firmes de développer des solutions vocales (skills) autour d’Echo et d’Alexa. Près de 7.000 services sont déjà disponibles : de la commande d’un chauffeur Uber à la commande de vos lampes connectées Philips en passant par la lecture de SMS, les grandes marques s’invitent sur Alexa. Un écosystème très proche de celui des boutiques d’applications est en train de naître.

Plus encore, c’est tout ” le business model du web qui sera disrupté “, prédit Bruno Schroder de Microsoft. Quel sens garderont les liens sponsorisés sur des écrans ? le pay per click ? l’affichage de bannières ? Hugues Rey, le patron d’Havas en Belgique, s’attend lui aussi à une forte évolution de son secteur dans le cadre d’un environnement vocal. ” Tout le business model de la publicité en ligne devra s’adapter, confirme-t-il. La voix représente une alternative majeure au lien sponsorisé et au bannering. Cela ne signifie pas que la pub disparaîtra mais elle devra évoluer et sera d’autant plus liée à la performance. Les recherches vocales seront monétisées d’une manière ou d’une autre. Et des solutions que l’on n’imagine pas encore aujourd’hui se développeront. C’est un sujet sérieux pour les annonceurs qui doivent se projeter et réfléchir à des solutions vocales pour piloter un outil extraordinaire en termes d’accès vers eux et leurs produits. ”

Comprendre les vertus et les dangers des assistants vocaux en 9 questions
© iStock

Pour Laurent Alexandre, le bouleversement ne se cantonne pas aux seuls métiers liés au Web : ” Tout le conseil va être impacté. Avec des capteurs sur le corps, l’humain recevra des conseils médicaux d’une intelligence artificielle. Et dans 15 ans, des intelligences répondront à des questions qu’on pose actuellement à un avocat. Cela va toucher plein de secteurs et causera des frictions violentes car la reconversion de certains métiers risque de poser de vrais problèmes.”

4. La mort de l’écran et du clavier ?

Si des micros et une intelligence artificielle deviennent les points de contact vers le Web, cela relègue-t-il le clavier d’ordinateur et l’écran de notre smartphone au musée des gadgets technologiques ? ” Non, répond Alexandre De Saedeleer. Le smartphone n’a pas totalement remplacé l’ordinateur et le vocal ne remplacera pas totalement l’écran et le clavier. Mais la voix va prendre une place de plus en plus importante. ” Dans un premier temps, assez maladroite. La reconnaissance vocale dans le téléphone, par exemple, a rebuté pas mal d’utilisateurs dubitatifs. Mais aujourd’hui déjà, Siri, l’assistant de la marque à la pomme, répondrait à plus de 2 milliards de requêtes par semaine, selon The Economist. Et 20 % des recherches Google sur les appareils Android se feraient de manière vocale.

D’après la start-up VoiceLabs, 33 millions d’appareils essentiellement vocaux seront installés chez les consommateurs en 2017. On peut avoir du mal à y croire car ” en Europe, l’adoption de cette technologie reste assez faible, analyse Alexandre De Saedeleer. Les gens ont peur d’être pris pour des fous. Ce n’est pas entré dans les moeurs. Mais il en va très différemment aux Etats-Unis et en Asie, où les habitants n’hésitent plus à parler à leurs appareils plutôt que de taper sur un écran. ” L’arrivée d’Echo et de ses clones pourrait largement populariser la tendance.

Si aujourd’hui, une partie des recherches vocales donnent encore des résultats sur l’écran Google du smartphone, l’étape suivante consistera, bien sûr, à répondre vocalement aux requêtes. Via le téléphone, la montre connectée, l’enceinte dans la maison ou tout autre appareil communicant. Il serait tout à fait pensable d’avoir un badge miniature (ou un collier) connecté qui capte les commandes et y répond. Inévitablement, cela se traduira par une (nette ? ) diminution de l’usage de l’écran. C’est mathématique. Ce qui ne mène pas forcément à la disparition de ce dernier : ” Dans des tas de situations, vous ne voulez pas d’un assistant qui répond haut et fort à des questions, insiste Brice Le Blévennec, CEO d’Emakina. Au cinéma, au bureau ou dans une bibliothèque, les gens ne voudront pas qu’une voix dévoile haut et fort les détails de leur agenda “

5. Mon assistant sera-t-il chinois ?

Le monde occidental garde majoritairement les yeux rivés sur les nouveautés américaines en matière d’intelligence artificielle et de reconnaissance vocale. Ainsi, les geeks de nos régions attendent les progrès de Cortana de Microsoft, Alexa d’Amazon, Siri d’Apple et Assistant de Google. Mais les mastodontes chinois du Net déploient, eux aussi, des sommes colossales pour sortir des technologies et outils de pointe. Avec en guise de pionnier, Baidu, le Google chinois. Dès 2014, la firme n’a cessé d’investir sur le créneau et a débauché de chez Google Adrew Ng, l’une des plus grandes stars de l’intelligence artificielle. En 2015, Baidu a présenté un robot capable de réaliser de la traduction instantanée et aujourd’hui, sa solution Speed Speech 2 ferait de Baidu l’un des acteurs les plus avancés en reconnaissance vocale. Des études des universités de Stanford et Washington constatent que Speed Speech 2 commet 20,4 % moins d’erreurs que les humains en anglais et 63,8 % moins d’erreurs que les humains en mandarin ! Si pour l’instant, les géants chinois du Net restent cantonnés aux frontières de l’Empire du milieu (où ils ont encore de larges potentiels de croissance), nul doute qu’ils débarqueront tôt ou tard en Europe où, il faut l’admettre, les alternatives se font rares.

6. A quoi servira la reconnaissance vocale dans votre vie ?

Couplée à l’intelligence artificielle, la reconnaissance vocale franchit de nouvelles frontières et laisse entrevoir des possibilités vertigineuses. Cela se matérialise déjà par des appareils comme Amazon Echo ou Google Home. Mais ce qui se dessine, c’est la naissance d’assistants vocaux virtuels qui interviendront à différents moments de nos vies pour nous porter secours ou assistance. Déplacer un rendez-vous dans son agenda, commander une nouvelle casserole pour la cuisine, réserver des billets d’avions, etc., deviendront à moyen terme des tâches gérées par une simple commande vocale.

Aujourd’hui déjà, il est possible, via Amazon Echo ou Google Home, d’obtenir des réponses à des questions, de se faire lire l’actualité, de passer commande (sur Amazon), de réserver un taxi ou se faire livrer une pizza. Mais à terme, ces assistants virtuels (encore gadgets pour le moment) prendront une place de plus en plus importante dans nos vies. Au point d’en devenir dépendants comme on l’est aujourd’hui avec son smartphone. Ils deviendront notre point central d’accès au Web et aux services liés. ” On entre dans une ère où les plateformes conversationnelles vont prendre le dessus, prédit Bruno Schroder. Il s’agira de la nouvelle base sur laquelle toute l’informatique va se déployer. C’est un énorme changement. ”

Comprendre les vertus et les dangers des assistants vocaux en 9 questions
© TT

Avec toujours plus d’intelligence, ces assistants joueront le rôle des secrétaires d’antan et anticiperont nos besoins. Ils suggéreront de partir à temps pour un rendez-vous, vu la circulation et les conditions climatiques. Ils vous proposeront d’appeler ou d’envoyer un SMS à votre conjoint puisque vous quittez le bureau trop tard. Ils vous avertiront qu’ils allument le chauffage à votre domicile. C’est également à eux que vous adresserez toutes les recherches que vous faites aujourd’hui sur Google. Ils effectueront aussi automatiquement les paiements des factures que vous recevez par e-mail et vous discuterez avec eux de la situation financière de votre ménage. Les assistants vous donneront des conseils financiers, juridiques ou médicaux (de base). Bref, votre voix pourrait bien servir à commander l’ensemble de votre vie, du frigo à la voiture.

7. Et en Belgique ?

” On n’en est vraiment qu’au tout début, admet Alexandre De Saedeleer, de l’agence Tapptic. Nous n’avons pas encore de projet ambitieux pour des clients, mais avec les plus avancés d’entre eux, nous élaborons des prototypes pour comprendre l’impact de cette technologie. On ne leur conseille pas encore d’investir des millions d’euros car ce n’est pas un domaine mature. Mais on les aide à expérimenter pour être prêts. ”

Reste que certains, même en Belgique, ont déjà déployé des fonctionnalités vocales. Belfius, par exemple, permet à ses utilisateurs de consulter leur solde et réaliser des paiements grâce à Siri d’Apple. Une initiative lancée en décembre qui ne ” donne pas encore des chiffres gigantesques, admet Geert Van Mol, chief digital officer de Belfius. Mais le but, à ce stade, n’est pas de faire du volume mais d’être présent, de tester et montrer qu’on se prépare pour les évolutions technologiques. On ignore encore si la voix peut s’imposer. Mais si c’est le cas, nous aurons pris de l’avance. ” A en croire le – trop optimiste ? – consultant américain Brian Roemmele, cité par le site Financial Brand, d’ici 10 ans, 50 % des interactions bancaires passeront par des appareils vocaux. Rien que cela.

8. Un risque pour notre vie privée ?

Au Texas, une mère de famille s’est étonnée de voir arriver, un matin, une maison de poupée en provenance d’Amazon. Elle n’avait rien commandé. Après réflexion, elle s’est rendu compte que sa fille avait eu une discussion avec Echo-Alexa… laquelle avait involontairement ordonné de passer commande d’une maison de poupée.

Alexa écoute-t-elle tout ? Enregistre- t-elle ce qui se passe au domicile de ses utilisateurs ? C’est ce qu’a pensé la police de l’Arkansas qui, pour tenter de résoudre un meurtre, a demandé à Amazon l’accès aux enregistrements. Ce que le géant de l’e-commerce s’est refusé à partager. Amazon a tout de même précisé qu’Echo écoute passivement tout ce qui se passe à six mètres à la ronde, mais ne commence à enregistrer qu’une fois que le système a été ” interpellé ” : l’usager doit faire précéder sa demande ou sa question orale par ” Alexa ” afin de ” réveiller ” l’enceinte. Ces ordres vocaux sont alors envoyés dans le cloud où ils sont traités puis stockés.

Pour améliorer leur intelligence artificielle, les géants du Net doivent ” nourrir la bête “. Donc, a priori, la vie privée des utilisateurs n’est pas surveillée en permanence. Reste que ces appareils pourraient facilement devenir la proie de hackers qui en prendraient le contrôle et donc, pourraient vous surveiller.

9. Quels sont encore les freins au tout vocal ?

La reconnaissance de la voix elle-même n’est plus un frein majeur en anglais ou en chinois, langues dans lesquelles Google, Baidu ont réalisé des avancées phénoménales. Mais en français ou en néerlandais, elle doit encore être améliorée sensiblement pour arriver à de véritables conversations.

Ensuite, la machine devra améliorer la compréhension des accents et des prononciations particulières. Sans oublier la compréhension dans des situations bruyantes, où des ” parasites ” peuvent se révéler perturbants. Pour le moment, ces situations courantes posent encore souci. Aujourd’hui, Amazon Echo, placé dans votre salon, obéit à vos ordres, mais aussi à ceux de vos enfants, sans faire la distinction. L’appareil ne distingue pas les différentes voix. Ennuyeux. Mais les milliards de la Sillicon Valley se chargeront de régler ces problèmes dans les mois et années qui viennent. Les assistants virtuels finiront par parvenir à distinguer les voix des différents utilisateurs. Sans doute que les géants du Web parviendront, grâce à l’intelligence artificielle, à faire de l’assistance vocale une expérience si fluide, rapide et efficace que les utilisateurs auront intérêt à se passer de leur clavier et que même les plus sceptiques franchiront le pas.

“C’est ridicule d’imaginer que l’usage des commandes vocales va se généraliser”

“C’est toujours plus simple d’utiliser un clavier.”© BELGAIMAGE

CEO de l’agence Emakina, Brice Le Blévennec n’est pas le dernier des geeks. Accro aux gadgets en tous genres et aux nouvelles technologies, l’homme connaît la reconnaissance vocale depuis des années. Par contre, il ne croit pas du tout à la nouvelle ère du tout vocal : “C’est un hype du moment et cela ne prendra pas. Pour l’instant, même Amazon Echo reste une vaste blague. C’est toujours plus simple d’utiliser un clavier. Et je pense que c’est ridicule d’imaginer que cela va se généraliser. Pour moi, cela restera marginal. Au volant peut-être. Quoique… On conduira sans doute sans les mains avant cela. L’usage d’Amazon Echo, ce sera pour commander de la poudre à lessiver, pour lancer de la musique, … mais c’est tout.”

“Je crois cela pour plusieurs raisons. D’abord, parce qu’en vocal, tout devient public. Les gens vont-ils vraiment vouloir que les détails de leur agenda ou de leur compte en banque soit communiqués à haute voix ? Même dans leur maison ? Par ailleurs, dans la plupart des cas, il sera toujours plus simple d’utiliser un clavier ou un écran tactile que de parler à un assistant qui ne comprend pas toujours ce qu’on lui dit. Même avec une qualité conversationnelle, ce ne sera pas aussi pratique et discret qu’un écran tactile. Par ailleurs, les gens téléphonent de moins en moins. Le SMS et le messaging prennent de plus en plus d’ampleur. La voix, en général, perd du terrain.”

” Tout le ‘business model’ de la publicité en ligne devra s’adapter. La voix représente une alternative majeure au lien sponsorisé et au ‘bannering’. ” Hughes Rey (Havas Belgique)

Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici

Partner Content