Siri : la reconnaissance vocale peut enfin décoller

© Reuters

Après des années de sommeil, l’iPhone 4S a réveillé la reconnaissance vocale. Aujourd’hui au point, elle ne demande qu’à surprendre les utilisateurs. Un contexte favorable devrait accélérer sa montée en puissance.

La reconnaissance vocale va-t-elle enfin sortir d’un usage réservé aux professionnels et aux geeks ? Dans le sillage du buzz déclenché par la sortie de l’iPhone 4S, qui fait de son assistant personnel à commande vocale, Siri, un des grands arguments de vente du téléphone, d’autres systèmes sortent de l’ombre, et s’apprêtent à révolutionner nos usages de l’informatique. Les signes annonciateurs de la tendance.

Apple la rend désirable

Il y a des signes qui ne trompent pas. Quand Apple s’empare d’une technologie, il y a de grandes chances qu’elle devienne grand public. Dans la série “Apple n’a rien inventé mais les technologies lui doivent tout”, grâce à son génie du timing, du marketing et de la conception de produits, je demande la reconnaissance vocale. Siri est un système permettant à l’utilisateur de “dialoguer” avec l’iPhone, en langage naturel, pour lui demander par exemple le temps qu’il fait dans telle ville, de noter un rendez-vous demain à 15h, ou d’envoyer un SMS dicté à son meilleur ami. Le téléphone fournit une réponse orale et écrite, et exécute les ordres. Siri s’interface pour cela avec une partie des applications du téléphone et effectue des recherches sur internet et dans des bases de données. On est loin du serveur vocal obtus qui ne comprend rien à vos réponses et donne envie de se taper la tête contre les murs.

Cela fait longtemps qu’Android propose la reconnaissance vocale, pour dicter des messages ou faire des recherches sur Google. La dernière version de Windows Phone le fait aussi. Mais cela n’a jamais soulevé le même enthousiasme. Apple est là pour simplifier la technologie, la “repackager”, et donner envie aux gens de l’avoir chez eux. Il la rend désirable. La preuve : Siri a déjà dynamisé l’adoption d’une application concurrente, Vlingo.

Kinect : après le geste, la voix

Un autre acteur s’apprête à populariser la commande vocale. C’est Microsoft, avec Kinect. A priori on peut lui faire confiance, puisqu’il a déjà réussi à vendre au grand public une nouvelle façon d’interagir avec la machine : le mouvement du corps, sans autre périphérique. Fin novembre, une mise à jour de Kinect proposera de nouvelles fonctionnalités pour la console Xbox 360. Sa nouvelle interface graphique, directement inspirée de celle de Windows Phone et de Windows 8, est contrôlable par la traditionnelle manette, par le mouvement, ou par la voix. C’est la même interface qui sert aux trois systèmes. Les commandes vocales serviront à naviguer dans le menu du Xbox Live, ainsi que dans certaines applications comme Dailymotion, Allociné ou Canal+.

Là où on voit déjà l’influence de Siri, c’est que malgré la bonne exécution et le côté pratique du système (isolation des bruits d’ambiance, reconnaissance de n’importe quelle voix…), on attend désormais beaucoup plus d’une interface vocale. On voudrait lui parler en langage naturel au lieu de prononcer les mots qui apparaissent à l’écran. Pouvoir discuter avec des personnages dans un jeu vidéo.

Certains jeux comme Kinect Sports 2 intègrent des commandes vocales, mais elles sont basiques (ex : demander à changer de fer au golf). D’autres (Ghost Recon, Mass Effect 3) promettent une intégration plus poussée, en 2012. La recherche vocale sur Bing est également sur les rails.

La technologie de reconnaissance elle-même est prête

Il existe aujourd’hui de nombreuses applications très efficaces selon l’avis des spécialistes, comme Nuance ou Dragon Go. Les modèles statistiques et probabilistes sur lesquels ils reposent sont désormais au point. Ils sont précis, les marges d’erreur sont faibles et les lexiques comportent des milliards de mots. En outre, plus on les utilise, plus ils s’améliorent.

Les technologies pour la propulser aussi

Au-delà de la reconnaissance en elle-même, les ingrédients dont avaient besoin les interfaces vocales sont désormais à portée d’ordinateur. Le cloud computing permet de bénéficier d’une énorme puissance de calcul sans l’emporter avec soi ; la 3G (bientôt la 4G), les smartphones et les tablettes permettent d’être toujours connecté. C’est grâce à cela que Siri fonctionne : sans connexion, le système ne peut rien faire. Chaque requête passe par les serveurs d’Apple, qui les “comprennent”, cherchent la réponse appropriée et l’envoient sur le terminal.

Par ailleurs, la recherche sur l’intelligence artificielle a fait des progrès conséquents, comme on a pu le voir lorsqu’un ordinateur d’IBM a battu ses adversaires humains lors d’un jeu de questions-réponses. Certaines applications sont petit à petit industrialisées. Intelligence artificielle + reconnaissance et synthèse vocales, c’est le cocktail magique : celui qui fait passer les robots de la fiction à la réalité.

La géolocalisation, accessible à tous via les smartphones, permet quant à elle de fournir du contexte, permettant aux algorithmes de mieux interpréter les requêtes exprimées par l’utilisateur.

Enfin, le domaine informatique le plus prometteur aujourd’hui est la recherche concernant les nouvelles interfaces hommes-machines. Une première révolution a été celle du tactile, mais ce n’est que le début : pilotage par la gestuelle, par la pensée, informatique contextuelle… Ces domaines bénéficient d’importants investissements en R&D.

Raphaële Karayan, L’Expansion.com

Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici

Partner Content