Obtenir que votre téléviseur vous comprenne mieux

Anonim

Une nouvelle étude de l'Université de Waterloo a permis d'améliorer les capacités de compréhension des requêtes vocales des plateformes de divertissement à domicile.

La recherche, en collaboration avec l'Université du Maryland et Comcast Applied AI Research Lab, utilise la technologie de l'intelligence artificielle (IA) pour réaliser les interactions vocales les plus naturelles avec les téléviseurs à ce jour.

"Aujourd'hui, nous avons pris l'habitude de parler à des agents intelligents qui font notre offre - de Siri sur un téléphone portable à Alexa chez nous. Pourquoi ne devrions-nous pas pouvoir faire la même chose avec les téléviseurs?" a demandé Jimmy Lin, professeur à l'Université de Waterloo et titulaire de la chaire David R. Cheriton de l'École d'informatique David R. Cheriton.

"Le Xfinity X1 de Comcast vise précisément à faire cela: la plate-forme est dotée d'une télécommande vocale qui accepte les requêtes vocales. Votre souhait est sa commande: dites à votre téléviseur de changer de chaîne, prévoir."

En s'attaquant au problème complexe de la compréhension des requêtes vocales, les chercheurs ont eu l'idée de tirer parti de la toute dernière technologie IA - une technique connue sous le nom de réseaux neuronaux récurrents hiérarchiques - pour mieux modéliser le contexte et améliorer la précision du système.

En janvier 2018, le nouveau modèle de réseau neuronal des chercheurs a été déployé en production pour répondre aux questions des utilisateurs en direct. Contrairement au système précédent, qui contenait environ 8% de requêtes, le nouveau modèle traite de manière appropriée la plupart des requêtes très compliquées, améliorant ainsi considérablement l'expérience utilisateur.

"Si un téléspectateur demande" Chicago Fire ", qui désigne à la fois une série dramatique et une équipe de football, le système est capable de déchiffrer ce que vous voulez vraiment", a déclaré Lin. "La particularité de cette approche réside dans le fait que nous tirons parti du contexte, comme les émissions précédemment regardées et les chaînes favorites, pour personnaliser les résultats, augmentant ainsi la précision."

Les chercheurs ont commencé à développer un modèle encore plus riche. L'intuition est qu'en analysant les requêtes sous plusieurs angles, le système peut mieux comprendre ce que dit le spectateur.

Le document, Multi-Task Learning avec réseaux de neurones pour la compréhension de la plate-forme de compréhension de la voix, a été présenté lors de la 24ème conférence internationale ACM SIGKDD sur la découverte des connaissances et le data mining au Royaume-Uni. La recherche a été entreprise par Jinfeng Rao, un doctorat. Diplômé de l'Université du Maryland, son conseiller Lin et son mentor Ferhan Ture, chercheur au Comcast Applied AI Research Lab.

menu
menu