Les scientifiques améliorent la méthode d'apprentissage en profondeur pour les réseaux de neurones

Anonim

Des chercheurs de l'Institut des systèmes de cyber-intelligence de l'Université nucléaire de recherche nationale MEPhI (Russie) ont récemment développé un nouveau modèle d'apprentissage pour la machine Boltzmann restreinte (un réseau neuronal) qui optimise les processus d'encodage sémantique, de visualisation et de reconnaissance de données. Les résultats de cette recherche sont publiés dans la revue Optical Memory and Neural Networks.

Aujourd'hui, les réseaux de neurones profonds avec différentes architectures, tels que les réseaux convolutifs, récurrents et à autoencodeur, deviennent un domaine de recherche de plus en plus populaire. Un certain nombre de sociétés de haute technologie, notamment Microsoft et Google, utilisent des réseaux de neurones profonds pour concevoir des systèmes intelligents.

Dans les systèmes d'apprentissage en profondeur, les processus de sélection et de configuration des fonctionnalités sont automatisés, ce qui signifie que les réseaux peuvent choisir entre eux-mêmes les algorithmes les plus efficaces pour l'extraction des caractéristiques hiérarchiques. L'apprentissage en profondeur se caractérise par l'apprentissage à l'aide de grands échantillons en utilisant un seul algorithme d'optimisation. Les algorithmes d'optimisation typiques configurent les paramètres de toutes les opérations simultanément et évaluent efficacement l'effet de chaque paramètre de réseau neuronal sur l'erreur à l'aide de la méthode dite de backpropagation.

"La capacité des réseaux de neurones à apprendre par eux-mêmes est l'une de leurs propriétés les plus intrigantes", explique Vladimir Golovko, professeur à l'Institut des systèmes de cyber-intelligence du MEPhI. "Tout comme les systèmes biologiques, les réseaux de neurones peuvent se modéliser en cherchant à développer le meilleur modèle de comportement possible."

En 2006, Geoffrey Hinton a publié un document de recherche sur les réseaux neuronaux pré-formation. Il a déclaré que les réseaux neuronaux multicouches pouvaient être pré-formés en s'entraînant une couche à la fois avec l'aide de la machine Boltzmann restreinte, puis en les ajustant à l'aide de la propagation inverse. Ces réseaux ont été nommés réseaux de croyances profondes, ou DBN.

Golovko a analysé les principaux problèmes et paradigmes de l'apprentissage machine profond et a proposé une nouvelle méthode d'apprentissage pour la machine Boltzmann restreinte. Le chercheur a démontré que la règle classique de formation de ce réseau neuronal est un cas particulier de la méthode qu'il a développée.

"Les scientifiques américains Minsky et Papert ont montré une fois que du point de vue de la classification des motifs, le perceptron monocouche avec la fonction d'activation du seuil forme une surface de séparation linéaire, raison pour laquelle il ne peut résoudre le problème" exclusif ". c'est noté. "Cela a conduit à des conclusions pessimistes sur le développement ultérieur des réseaux de neurones. Cependant, la dernière affirmation n’est vraie que pour un perceptron monocouche avec un seuil ou une fonction d’activation continue monotone, par exemple une fonction sigmoïde. fonction, le perceptron monocouche peut résoudre le problème «exclusif ou», car il peut diviser l'aire des uns et des zéros en classes à l'aide de deux lignes droites. "

La recherche a également impliqué une analyse des perspectives d'utilisation des réseaux de neurones profonds pour la compression, la visualisation et la reconnaissance des données. De plus, Golovko a également suggéré une nouvelle approche de la mise en œuvre du codage sémantique, ou hachage, basée sur l’utilisation de réseaux neuronaux auto-associatifs profonds.

Selon l'auteur, cette méthode d'apprentissage en profondeur peut être très utile pour la formation des réseaux neuronaux des moteurs de recherche, car elle améliorera la vitesse de recherche d'images pertinentes.

Ces résultats ont une grande valeur pratique: ils ont déjà trouvé une application dans les domaines de la vision par ordinateur, de la reconnaissance de la parole et de la bioinformatique.

menu
menu