Xbox One, Siri, Glass... : les limites des commandes vocales

"OK Glass, take a picture", "Xbox, regarder la télé", "Siri, quel est le meilleur restaurant de la ville ?" : Pendant longtemps nos interactions avec les machines passaient par nos mains. Avec l'amélioration de la reconnaissance vocale, les constructeurs comme Google, Microsoft ou encore Apple, comptent bien démocratiser l'usage par la parole. Pourtant des limites techniques et sociales perdurent, transformant régulièrement toute tentative en gadget inutile.

La commande vocale est loin d'être une technologie récente. Les premières recherches sur la question sont apparues dans les laboratoires dès les années 50. Néanmoins, malgré une idée qui a plus de soixante ans au compteur, les usages commencent à réellement se démocratiser depuis moins d'une dizaine d'années, notamment avec l'arrivée de Siri sur iPhone 4S et des Google Glass. Alors que les appareils ne reconnaissaient que des phrases simples, les systèmes peuvent désormais répondre à des questions plus complexes et apprendre à mieux renseigner leurs utilisateurs en fonction de leurs habitudes.

Les limites techniques de la commande vocale

Bien qu'en soixante ans la reconnaissance vocale se soit améliorée, des limites techniques perdurent. Dès lors, les lunettes Google Glass ne répondent aujourd'hui qu'aux ordres en anglais avec un bon accent. Même si à terme d'autres langues devraient être supportées, les lunettes ne sont pour l'instant pas simples à contrôler pour un français avec un excellent niveau d'anglais, mais qui n'aurait pas un bon accent.

Parallèlement, selon Microsoft, la Xbox One devrait ranger la télécommande au placard, tout pouvant être désormais piloté par la voix. Cela restera de la théorie pour le moment. Selon nos premiers tests, même si la fonction est très intéressante, elle n'est pas encore totalement au point. Régulièrement, il faut se répéter pour se faire comprendre et même si la reconnaissance s'améliore, d'autres limites perdureront.

L'interface homme-machine via les mains reste efficace

Dans une maison avec les enfants qui dorment à quelques mètres du salon ou un appartement mal insonorisée, il est difficile de répéter à sa Xbox One que l'on souhaite regarder la télévision. Ce constat de taille en forme de porte ouverte est imparable : la commande vocale engendre une nuisance sonore et il n'est pas toujours possible de l'utiliser. De même quand les constructeurs de télévision décident de mettre en place des systèmes de reconnaissance vocale pour changer de chaînes, ils sont rarement utilisés par le consommateur final. En effet, il reste plus pratique et surtout plus rapide de cliquer sur les boutons de sa télécommande. Même constat pour Siri dont la rapidité est incontestable, mais la recherche via l'écran tactile reste souvent plus efficace. Dès lors, les commandes vocales sont réellement pratiques quand on ne peut pas utiliser ses mains, au volant par exemple, ou lorsque l'on cherche une recette de cuisine sur Internet avec de la farine par-dessus les oreilles. Dans les cas, où les doigts sont libres, elle devient vite un gadget dont on se passe.

La commande vocale juste pour dire oui ou non

Que l'interaction soit tactile via un écran du même nom, digitale en tapant sur un clavier ou vocale grâce au micro, elle requiert toujours une action humaine. Or les constructeurs ont surtout intérêt à aller vers des évolutions où l'interaction volontaire n'est plus nécessaire et l'automatisation de prime. Conséquences de ces nouvelles voies rendues possibles par toutes les données collectées sur notre vie quotidienne, nos produits savent maintenant répondre à nos besoins avant que nous ne les formulions.

Par exemple, la fonction Google Now sur les smartphones Android est aujourd'hui capable de donner des informations avant même que les utilisateurs ne les recherchent. Du côté de la télévision, la vraie révolution arrivera quand les postes seront en mesure de proposer eux-mêmes de changer de chaîne, car la série que l'on ne manque jamais commence à être diffusée. Ce jour-là, la commande vocale sera peut-être utile simplement pour dire oui ou non. A côté, la reconnaissance vocale, elle, sera utilisée en permanence pour nous écouter, savoir qui nous sommes et ce que nous voulons. Encore faudra-t-il que nous l’acceptions. Mais ce ne devrait pas être difficile, c'est même parfois déjà le cas.

Les commentaires sont fermés

Suivez-nous
tiktok
d'heure en heure
d'heure en heure
Faire défiler vers le haut