Utiliser des techniques d'apprentissage en profondeur pour localiser les activités humaines potentielles dans les vidéos

Anonim

Lorsqu'un policier commence à lever la main dans la circulation, les conducteurs humains se rendent compte que le policier est sur le point de leur demander d'arrêter. Mais les ordinateurs ont plus de mal à déterminer les prochaines actions probables des gens en fonction de leur comportement actuel. Maintenant, une équipe de chercheurs et de collègues de A * STAR a mis au point un détecteur capable de détecter les actions humaines dans les vidéos, presque en temps réel.

Selon Hongyuan Zhu, informaticien à l’Institut pour la recherche sur les infocommences d’A * STAR, qui a dirigé l’étude, la technologie d’analyse d’image devra mieux comprendre les intentions humaines si elle doit être utilisée dans un large éventail d’applications. Les voitures sans conducteur doivent pouvoir détecter les policiers et interpréter leurs actions rapidement et avec précision, pour une conduite sûre, explique-t-il. Des systèmes autonomes peuvent également être formés pour identifier les activités suspectes telles que la lutte, le vol ou la chute d'objets dangereux, et pour alerter les agents de sécurité.

Les ordinateurs sont déjà extrêmement efficaces pour détecter des objets dans des images statiques, grâce à des techniques d’apprentissage approfondi, qui utilisent des réseaux neuronaux artificiels pour traiter des informations d’images complexes. Mais les vidéos avec des objets en mouvement sont plus difficiles. "Comprendre les actions humaines dans les vidéos est une étape nécessaire pour construire des machines plus intelligentes et plus conviviales", explique Zhu.

Les méthodes précédentes pour localiser les actions humaines potentielles dans les vidéos n'utilisaient pas de cadres d'apprentissage approfondi et étaient lentes et sujettes aux erreurs, dit Zhu. Pour y remédier, le détecteur YoTube de l’équipe combine deux types de réseaux de neurones en parallèle: un réseau de neurones statiques, déjà éprouvé dans le traitement des images fixes, et un réseau neuronal récurrent, généralement utilisé pour le traitement des données.. «Notre méthode est la première à permettre la détection et le suivi en un seul pipeline d'apprentissage en profondeur», explique Zhu.

L'équipe a testé YoTube sur plus de 3 000 vidéos couramment utilisées dans des expériences de vision par ordinateur. Ils signalent que les détecteurs à la fine pointe de la technologie ont été plus performants qu’en détectant les actions humaines potentielles d’environ 20% pour les vidéos présentant des activités quotidiennes et environ 6% pour les vidéos sportives. Le détecteur fait parfois des erreurs si les personnes dans la vidéo sont petites ou si beaucoup de personnes sont en arrière-plan. Néanmoins, Zhu dit: "Nous avons démontré que nous pouvons détecter la plupart des régions d'action humaines potentielles de manière presque en temps réel."

menu
menu