En Bref

Fondé2004
Dates De Renouvellement2008, 2012
Membres38
PartisansGeoffrey Hinton Céline and Jacques Lamarre Un donateur anonyme
Les PartenairesFondation Neuro Canada
Facebook
Inria
Disciplines
Informatique, y compris intelligence artificielle et apprentissage automatique; neuroscience; bioinformatique et biologie computationnelle

Comment mieux comprendre l’intelligence et créer des machines intelligentes?

Les ordinateurs sont plus rapides et puissants que jamais. Mais ils n’arrivent toujours pas à réfléchir comme un être humain. Le programme Apprentissage automatique, apprentissage biologique (anciennement connu sous le nom ‘Calcul neuronal et perception adaptative’) révolutionne le domaine de l’intelligence artificielle et crée des ordinateurs qui réfléchissent davantage comme nous – ils reconnaissent des visages, comprennent ce qui se passe dans une photo ou une vidéo et comprennent la véritable signification du langage. Comme résultat, nous aurons des ordinateurs puissants et intelligents capables de tout faire, comme de tenir une conversation informelle ou bien de dégager un sens de bases de données d’information massives

Notre approche singulière

Le programme de l’ICRA a bouleversé le domaine de l’intelligence artificielle par la création d’une technique appelée l’« apprentissage profond » qui est maintenant couramment utilisée par des géants de l’Internet, comme Google et Facebook. Il y a dix ans, l’ICRA a relevé le défi de soutenir des chercheurs qui voulaient raviver l’intérêt pour les réseaux neuronaux, une technique informatique inspirée par le cerveau humain. Par la mise en lien d’informaticiens, de biologistes, de neuroscientifiques, de psychologues et d’autres, l’ICRA a favorisé de riches collaborations qui ont grandement stimulé la recherche en intelligence artificielle.

unsupervised_icml2012_cat_and_face
Comment Google voit-il votre chat et vous-même? Ces « stimulations optimales » pour des visages de chats et d’humains découlent de l’entraînement d’un réseau d’apprentissage profond à l’aide de plus de dix millions d’images

Pourquoi ces recherches importent-elles?

Grâce à une plus grande puissance de traitement et à la disponibilité de grands ensembles de données, les ordinateurs sont plus puissants et utiles. Toutefois, les ordinateurs rencontrent encore des obstacles quand ils tentent d’interagir avec les humains et le monde réel, y compris des tâches quotidiennes comme de comprendre la parole écrite et orale, la reconnaissance de visage et d’objets ou, encore plus intéressant, répondre à des questions sur toutes sortes de documents, communiquer avec les humains ou utiliser le raisonnement pour la résolution de problèmes.

Des ordinateurs mieux à même de comprendre le monde réel et d’y apprendre des choses pourraient révolutionner la médecine, l’industrie, les transports et notre vie quotidienne. Déjà les chercheurs de l’ICRA ont recours à l’apprentissage profond pour repérer des facteurs génétiques en jeu dans des troubles comme l’autisme. Bientôt, les ordinateurs pourraient apprendre à conduire en toute sécurité des voitures et des camions, ou détecter le premier indice d’une épidémie majeure à partir des dossiers de santé publique ou d’affichages sur Facebook. En outre, les ordinateurs pourraient apprendre à mieux interagir avec les gens. Parler à un ordinateur pourrait devenir aussi facile que de parler à une autre personne.

Les boursiers et les conseillers de l’ICRA œuvrent dans le domaine de l’intelligence artificielle au sein des plus grandes entreprises technologiques, y compris Google, Facebook et Baidu. Les techniques d’apprentissage profond ont déjà révolutionné la compréhension d’images et la reconnaissance de la parole, et continuent à établir des records par rapport à des références en intelligence artificielle, comme ImageNet 1000.

En profondeur

Le programme a pour objectif fondamental de comprendre les principes qui sous-tendent l’intelligence naturelle et artificielle, et d’élucider les mécanismes par lesquels l’apprentissage peut susciter l’émergence de l’intelligence. Les travaux misent sur la recherche sur les réseaux neuronaux artificiels qui a commencé dans les années 1950 quand des chercheurs ont créé des ordinateurs aptes à réagir à un entraînement par l’ajustement de l’activation de neurones artificiels jusqu’à ce que le système ait appris à réagir adéquatement à une forme.

Mais après un regain d’intérêt dans les années 1980, la méthode a été largement abandonnée et remplacée par d’autres formes d’apprentissage automatique.

Toutefois, Geoff Hinton, chercheur à l’Université de Toronto, trouvait que les réseaux neuronaux étaient encore prometteurs et a réuni des chercheurs du même avis au sein du programme de l’ICRA.

Le problème inhérent des méthodes traditionnelles de reconnaissance des formes est qu’il fallait que des ingénieurs conçoivent manuellement des algorithmes pour extraire les caractéristiques adéquates des ensembles de données que pouvaient ensuite traiter des algorithmes d’apprentissage automatique traditionnels.

Par opposition, les systèmes d’apprentissage profond créés par Hinton et d’autres se composent de couches d’étapes non linéaires, que l’on peut chacune entraîner, où chaque couche prend les extrants de la couche précédente et y ajoute un niveau d’abstraction. Les représentations plus abstraites de données ont tendance à être plus utiles, car elles représentent un plus grand contenu sémantique qui est dissocié des détails de bas niveau des données. En travaillant ensemble, ces couches peuvent apprendre une tâche entière, des données brutes à la classification finale.

deep.network
Un réseau d’apprentissage profond intègre de l’information brute, comme les valeurs de pixels individuels, à partir de la couche supérieure d’intrants et traite cette information à travers deux couches cachées ou plus, et chaque couche ajoute un niveau d’abstraction supplémentaire

Les découvertes récentes en apprentissage profond ne sont que les premiers morceaux du casse-tête. Le prochain défi est de mettre au point des processus d’apprentissage non supervisé puissants qui peuvent tirer profit des grandes quantités de données qui n’ont pas été étiquetées au préalable par des humains. Ce type d’apprentissage est similaire à l’apprentissage humain où les gens apprennent à reconnaître des formes dans leur enfance et, plus tard, apprennent le nom des objets et des concepts qu’ils reconnaissent maintenant.

Malgré les avancées, même les animaux les plus simples traitent et perçoivent mieux l’information que les ordinateurs actuels. Le programme a cerné un certain nombre de défis à relever qui pourraient tous transformer le domaine de l’intelligence artificielle.

  • Démêler les facteurs sous-jacents de la variation

Les données complexes découlent de la riche interaction entre de nombreuses sources. Ces facteurs interagissent dans une toile complexe qui peut compliquer des tâches associées à l’intelligence artificielle, comme la classification des objets. Si nous pouvions cerner et dissocier ces facteurs, nous aurions pratiquement résolu le problème de l’apprentissage. L’approche la plus robuste pour l’apprentissage des attributs est de dissocier le plus grand nombre de facteurs possibles, en écartant aussi peu d’information sur les données que possible.

  • Le défi de la mise à l’échelle

La vitesse de traitement continue à s’améliorer, tout comme la taille des ensembles de données disponibles pour l’entraînement. Toutefois, même si les ordinateurs sont presque aussi bons que les humains à des tâches comme la reconnaissance d’objets communs dans des images ordinaires, d’autres problèmes, comme la compréhension des scènes, l’apprentissage par renforcement ou la compréhension du langage naturel en sont encore à leurs débuts. Pour que les ordinateurs s’approchent de la véritable intelligence artificielle, ils devront être capables de composer avec un nombre beaucoup plus grand de paramètres que ce que peuvent faire les modèles du jour.

  • Le défi du raisonnement

Les algorithmes d’apprentissage profond actuels sont efficaces pour compiler des connaissances en des représentations utiles, et en des fonctions décisionnelles ou prédictives, mais pas pour faire des déductions générales et s’adapter rapidement à de nouvelles observations. Le défi est d’avoir recours à l’apprentissage profond pour réaliser des inférences séquentielles – tirer des conclusions d’après des prémisses ou des observations, par une séquence d’étapes de raisonnement. La recherche sur l’extraction de la sémantique de textes en langage naturel pourrait offrir une réponse à cette question. Le sens d’un document peut tenir à un ensemble de faits ou d’hypothèses articulé de manière logique, et des techniques qui permettent le traitement du langage naturel pourraient aussi se révéler utiles pour la capacité de raisonnement général.

Articles notables

Hinton, G. E., Osindero, S. and Teh, Y. (2006). “A fast learning algorithm for deep belief nets.” Neural Computation, 18, pp 1527-1554. [pdf]

Y. Bengio and P. Lamblin and D. Popovici and H. Larochelle, “Greedy Layer-Wise Training of Deep Networks,” Neural Information Processing Systems Proceedings (2006)

Salakhutdinov, R. and Hinton, G., “Learning a Nonlinear Embedding by Preserving Class Neighbourhood Structure,” Proceedings of the Eleventh International Conference on Artificial Intelligence and Statistics, 412-419 (2007)

Graves, A., Mohamed, A., Hinton, G. E., “Speech Recognition with Deep Recurrent Neural Networks,” 39th International Conference on Acoustics, Speech and Signal Processing, Vancouver (2013)

Yann LeCun, Yoshua Bengio and Geoffrey Hinton. (2015). “Deep Learning.” Nature, 521, pp 436–444. [abstract]

 

Fellows et Conseillers

Photo of Yoshua Bengio

Yoshua Bengio

Codirecteur du programme

Yoshua Bengio se penche actuellement sur diverses questions fondamentales, notamment : apprentissage profond, géométrie de la généralisation dans des espaces à dimensionnalité élevée, algorithmes d'apprentissage d'inspiration biologique et applications complexes de…

Read More >

Photo of Yann LeCun

Yann LeCun

Codirecteur du programme

Parmi les intérêts de recherche de Yann LeCun, notons les modèles computationnels et biologiques de l’apprentissage et de la perception. Il vise notamment à comprendre les principes de l’apprentissage cérébral…

Read More >

Diplômé

Francis Bach

Boursier principal

Inria

France

Aaron Courville

Boursier

Université de Montréal

Canada

Nando de Freitas

Boursier principal

Université d’Oxford

Royaume-Uni

James DiCarlo

Boursier associé

Massachusetts Institute of Technology

États-Unis

Rob Fergus

Boursier principal

Université de New York

États-Unis

David J. Fleet

Boursier principal

Université de Toronto

Canada

Brendan J. Frey

Boursier principal

Université de Toronto

Canada

Surya Ganguli

Boursier associé

Université Stanford

États-Unis

Zaid Harchaoui

Boursier associé

Inria

France

Aapo Johannes Hyvärinen

Boursier associé

Informaticien

Finlande

Hugo Larochelle

Boursier

Université de Sherbrooke

Canada

Honglak Lee

Boursier associé

Université du Michigan

Christopher Manning

Boursier associé

Université Stanford

États-Unis

Roland Memisevic

Boursier

Université de Montréal

Canada

Andrew Ng

Boursier associé

Université Stanford

États-Unis

Bruno Olshausen

Boursier principal

Université de la Californie à Berkeley

États-Unis

Joëlle Pineau

Boursière principale

Université McGill

Canada

Blake Richards

Boursier associé

Université de Toronto

Canada

Ruslan Salakhutdinov

Boursier

Université de Toronto

Canada

Mark Schmidt

Boursier associé

Université de la Colombie-Britannique

Canada

Eero Simoncelli

Boursier associé

Université de New York

États-Unis

Josef Sivic

Boursier principal

Inria

France

Richard Sutton

Boursier associé

Université de l'Alberta

Antonio Torralba

Boursier associé

Massachusetts Institute of Technology

États-Unis

Pascal Vincent

Boursier associé

Université de Montréal

Canada

Yair Weiss

Boursier principal

Université hébraïque de Jérusalem

Israël

Max Welling

Boursier principal

Université d’Amsterdam

Pays-Bas

Christopher K.I. Williams

Boursier associé

Université d'Édimbourg

Royaume-Uni

Richard Zemel

Boursier principal

Université de Toronto

Canada

Conseillers

Léon Bottou

Conseiller

Facebook AI Research

France

Geoffrey Hinton

Conseiller

Google, Université de Toronto

Canada

Pietro Perona

Conseiller

California Institute of Technology

États-Unis

Bernhard Schölkopf

Président du comité consultatif

Institut Max-Planck sur les systèmes intelligents

Allemagne

Terrence J. Sejnowski

Conseiller

Salk Institute for Biological Studies

États-Unis

Sebastian Seung

Conseiller

Université Princeton

États-Unis

Mondial Scholar

Graham Taylor

Chercheur mondial ICRA-Azrieli

Université de Guelphi

Canada

Joel Zylberberg

Chercheur mondial ICRA-Azrieli

Université du Colorado à Denver

États-unis

Programme Chronologie

Un algorithme rehausse la reconnaissance d’images

David Lowe, Boursier de l’ICRA (Université de la Colombie-Britannique), met

De nouvelles méthodes pour sonder comment le cerveau apprend à reconnaître les visages

Le Boursier principal de l’ICRA Hugh Wilson (Université York) et l’Associé

Apprentissage plus profond pour les algorithmes gourmands

Dans leurs travaux d’avant-garde, Yoshua Bengio (Université de Montréal), Boursier principal

L’étude d’images révèle le mouvement

Des collaborations entre les Boursiers principaux de l’ICRA David Fleet

Système intelligent pour la recherche d’images en ligne

Yair Weiss (Université hébraïque de Jérusalem), Boursier principal de l’ICRA et

L’essor de la reconnaissance de la parole

Le groupe de recherche de Geoffrey Hinton (Université de Toronto), directeur

Les réseaux neuronaux analysent le langage

Le groupe d’Andrew Ng (Université Stanford), Associé de l’ICRA, met au

Lire la pose humaine

Rob Fergus (Université de New York), Associé de l’ICRA, met au

Méthode pour distinguer les facteurs de variation dans les images

Yoshua Bengio, Boursier principal de l’ICRA, Pascal Vincent, Associé de

Réseaux neuronaux profonds récurrents pour la reconnaissance de la parole

Geoffrey Hinton (Université de Toronto), directeur du programme et Alex Graves (Deepmind

Geoffrey Hinton, nommé Membre distingué de l’ICRA

L’ICRA décerne le titre de Membre distingué à Geoffrey Hinton (Université

Honneur: Image : SONY

Le chien Aibo de Sony qui peut voir des formes grâce au logiciel de David Lowe.

2004

Un algorithme rehausse la reconnaissance d’images

David Lowe, Boursier de l’ICRA (Université de la Colombie-Britannique), met au point la transformation de caractéristiques visuelles invariantes à l'échelle (SIFT), un algorithme qui permet à un ordinateur de repérer un élément dans une image peu importe sa taille. L’article de recherche devient l’un des plus cités dans les écrits sur la vision artificielle et SONY utilise l’algorithme pour rehausser la vision de son chien robotique Aibo.

Geoffrey Hinton, directeur du programme de l’ICRA, circa 2004

2004

Lancement du programme Apprentissage automatique, apprentissage biologique

L’ICRA lance le programme Apprentissage automatique, apprentissage biologique (anciennement connu sous le nom ‘Calcul neuronal et perception adaptative révolutionne’), sous la direction de Geoffrey Hinton (Université de Toronto). Il vise à résoudre le mystère du mécanisme cérébral responsable de la conversion de stimulations sensorielles en information et à recréer le mécanisme d’apprentissage humain dans un ordinateur.

Honneur: Image : Hugh Wilson

Ce diagramme illustre comment les chercheurs combinent les mesures de visages aux formes et aux tailles différentes à un autre visage à l’aide de l’analyse en composantes principales (ACP).

2005

De nouvelles méthodes pour sonder comment le cerveau apprend à reconnaître les visages

Le Boursier principal de l’ICRA Hugh Wilson (Université York) et l’Associé de l’ICRA Frances Wilkinson (Institut Max-Planck sur les systèmes intelligents) étudient comment le cerveau apprend à reconnaître les visages en ayant recours à des mesures géométriques de caractéristiques diverses, comme la distance entre les yeux et la longueur du nez. À l’aide d’un ensemble d’échantillons de visages différents, ils combinent les mesures dans un autre visage à l’aide de l’analyse en composantes principales (ACP). Dans une étude, ils découvrent que des sujets qui étudient l’ensemble initial de visages s’en souviennent bien, mais ils se rappellent aussi le visage produit par l’ACP, même s’ils ne l’avaient jamais vu auparavant. Cela nous permet de mieux comprendre les mécanismes cérébraux nécessaires au traitement de l’information visuelle. Les chercheurs ajoutent à ces connaissances par le recours à l’IRM (imagerie par résonance magnétique) fonctionnel pour démontrer que les neurones dans l’aire cérébrale qui se spécialise dans la reconnaissance des visages, l’aire fusiforme des visages, réagissent sélectivement aux déviations dans des composantes principales particulières.

Honneur: REACH

Un réseau neuronal artificiel se compose habituellement de trois couches de neurones ou plus. Un signal est transmis dans une couche d’entrée et active les neurones dans un motif bien précis. Le signal est ensuite transmis à la couche de sortie en passant par les couches cachées.

2005

De meilleurs algorithmes pour des réseaux neuronaux multicouches

Une des réalisations importantes de la première année du programme est de démontrer qu’il est possible de former des réseaux neuronaux multicouches nettement plus efficaces qu’une méthode appelée « machines à vecteurs de support » dans plusieurs tâches de reconnaissance différentes. Les machines à vecteurs de support sont une version mathématique sophistiquée d’une technique de reconnaissance très superficielle qui calcule la proximité d’une image test de certaines images stockées de chaque classe et qui utilise ensuite une moyenne pondérée de la proximité pour décider de la meilleure classification. Quoique la communauté de l’apprentissage automatique les croyait plus efficaces que les réseaux neuronaux depuis déjà un moment, ces nouvelles recherches illustrent que les réseaux neuronaux artificiels formés adéquatement peuvent être supérieurs. Les recherches démontrent que les réseaux neuronaux pourraient reconnaître la classe d’un objet tridimensionnel, comme un avion ou un animal, même quand l’objet test a une forme considérablement différente de tous les exemples utilisés pendant la formation, et qu’ils seraient plus efficaces dans la reconnaissance de chiffres manuscrits très déformés.

Honneur: The Berkeley Segmentation Dataset

Les algorithmes d’apprentissage automatique ont du mal à détecter le pourtour des images qui n’ont pas de limites nettes.

2006

Apprentissage plus profond pour les algorithmes gourmands

Dans leurs travaux d’avant-garde, Yoshua Bengio (Université de Montréal), Boursier principal de l’ICRA, et collaborateurs tirent profit de la procédure mise au point par Geoffrey Hinton (Université de Toronto), directeur du programme, et Ruslan Salakhutdinov (Université de Montréal), Boursier de l’ICRA. Ils démontrent que l’apprentissage supervisé et non supervisé d’images et de texte où on procède à l’entraînement préalable des couches à l’aide d’un algorithme « gourmand », une couche à la fois, favorise la formation de réseaux plus profonds. Les algorithmes gourmands décomposent les problèmes complexes en solutions simples auxquelles ils peuvent trouver le résultat optimal avant de passer au prochain plus petit problème. Yann LeCun (Université de New York), Boursier principal de l’ICRA, et collaborateurs exploitent une idée similaire dans le contexte des réseaux convolutifs, en faisant appel au codage parcimonieux comme algorithme d’apprentissage non supervisé pour chaque couche.

Honneur: Neural Computation

Une partie des 125 cas types où le réseau a donné une mauvaise réponse. Chaque cas est identifié par la supposition du réseau. Les classes véritables sont présentées dans l’ordre de balayage standard.

2006

Un réseau neuronal qui apprend vite

Le directeur du programme Geoffrey Hinton, le Boursier Ruslan Salakhutdinov, (tous deux de l’Université de Toronto) et leurs collaborateurs démontrent pour la première fois qu’il est possible d’entraîner un réseau neuronal profond comptant de nombreuses couches cachées à l’aide d’un entraînement préalable non supervisé, une couche à la fois, pourvu que les deux couches supérieures forment une mémoire associative, c’est-à-dire, une mémoire fondée sur la similarité. Ces résultats, publiés dans Science, ainsi qu’un algorithme pour l’entraînement des réseaux de croyances profonds publié le même mois dans Neural Computation, sont perçus comme des contributions majeures à l’apprentissage automatique relativement au traitement du langage.

2007

L’étude d’images révèle le mouvement

Des collaborations entre les Boursiers principaux de l’ICRA David Fleet, Aaron Hertzmann et Richard Zemel (tous de l’Université de Toronto), le Boursier principal Nikolaus Troje (Université Queen’s), l’Associé de l’ICRA Michael J. Black (Institut Max-Planck sur les systèmes intelligents) et le directeur du programme Geoffrey Hinton (Université de Toronto) mènent à de grandes percées dans notre capacité à extraire un mouvement animé d’images. Ils mettent au point des méthodes pour suivre le mouvement d’après la forme du corps humain à l’aide de multiples silhouettes. Qui plus est, les chercheurs utilisent une catégorie de modèle statistique appelé « modèle génératif » pour enseigner aux ordinateurs à « voir » le mouvement humain, même quand les gens bougent devant un arrière-plan encombré. Les chercheurs utilisent aussi des modèles réalistes fondés sur la physique pour suivre les gens dans une vidéo afin de prédire quand le pied d’une personne va toucher au sol, par exemple, pendant la marche. Grâce à ces analyses complexes du mouvement, ils peuvent garantir la plausibilité physique de leur propre modèle informatique de la marche. Ces percées aux plans des modèles du mouvement et des méthodes d’inférence pourraient nous aider à comprendre comment l’humain perçoit les gestes et les actions d’autres humains et d’autres animaux, et ouvriront la voie à une myriade d’applications dans des domaines aussi variés que la capture du mouvement sans marqueurs (où le sujet n’a pas à enfiler d’équipement de capture spécialisé), la biomécanique et la surveillance vidéo.

Cette vidéo illustrant l’article écrit par Brubaker et collaborateurs démontre comment les chercheurs ont caractérisé le mouvement des membres inférieurs d’une personne lors de la marche. Pour analyser le mouvement, les chercheurs ont fait appel aux paramètres physiques qui déterminent comment les pieds entrent en contact avec le sol.

2007

L’analyse de données transcende les disciplines

Brendan Frey (Université de Toronto), Boursier principal de l’ICRA, inspiré par des échanges avec un certain nombre de membres du programme, conçoit un nouvel algorithme appelé « propagation d’affinité », utilisé pour analyser des données dans un éventail de domaines, comme la vision automatique, la génomique, la biologie, les réseaux de communication et la physique. Pour de nombreux types de données, la propagation d’affinité est plus efficace que des méthodes déjà existantes. En juin 2007 a lieu le lancement d’une application web conviviale dotée de cet algorithme. Plus de 3000 usagers uniques partout au monde y accèdent plus de 100 000 fois.
Cette vidéo créée par les développeurs de l’algorithme de la propagation d’affinité illustre comment cela fonctionne :

2008

Système intelligent pour la recherche d’images en ligne

Yair Weiss (Université hébraïque de Jérusalem), Boursier principal de l’ICRA et Rob Fergus (Université de New York), Associé de l’ICRA, collaborent pour créer un système qui peut effectuer une recherche parmi des millions d’images téléchargées d’Internet pour y trouver de bons exemples d’une catégorie d’objets, comme l’« épagneul japonais ». L’algorithme, issu de l’évolution de travaux antérieurs sur l’extraction d’images réalisés par d’autres membres du programme Apprentissage automatique, apprentissage biologique (anciennement connu sous le nom ‘Calcul neuronal et perception adaptative révolutionne’), ne requiert que quelques exemples étiquetés de chaque classe. Ensuite, il transpose efficacement l’information sur la catégorie à des images similaires.

Honneur: Delbert Dueck

Le hachage sémantique permet l’extraction d’images visuellement similaires à une vitesse sans précédent.

2008

Percées en extraction d’images

Une collaboration entre des Boursiers de l’ICRA mène à une percée dans notre capacité à extraire des images qui ressemblent à une image d’interrogation. Le Boursier de l’ICRA Ruslan Salakhutdinov (Université de Toronto), le directeur du programme Geoffrey Hinton (Université de Toronto), les Associés de l’ICRA Antonio Torralba (Massachusetts Institute of Technology) et Rob Fergus (Université de New York) et le Boursier principal Yair Weiss (Université hébraïque de Jérusalem) mettent au point une méthode d’extraction très rapide appelée le « hachage sémantique ». Plutôt que de se limiter aux légendes des images pour le processus d’extraction, on a recours à des méthodes d’apprentissage automatique qui convertissent chaque image d’une très grande base de données en un court code binaire. Ces codes contiennent beaucoup d’information sur le contenu sémantique de l’image et permettent un appariement très rapide. Les chercheurs démontrent que s’il y a suffisamment d’images, il est toujours possible d’en trouver une qui est très similaire à une image d’interrogation donnée. Contrairement aux attentes, cela permet une reconnaissance d’objets étonnamment efficace. Pour de plus amples renseignements, veuillez consulter cette présentation Google Tech Talk par Geoffrey Hinton, directeur du programme de l’ICRA.

Honneur: iStock

Dans le domaine de la reconnaissance de la voix, les réseaux profonds offrent de bien meilleurs résultats que les anciennes méthodes.

2009

L’essor de la reconnaissance de la parole

Le groupe de recherche de Geoffrey Hinton (Université de Toronto), directeur du programme, applique les algorithmes d’apprentissage profond au problème de la reconnaissance d’unités du langage, ou phonèmes. Ils obtiennent des résultats bien supérieurs à ceux de toutes les méthodes antérieures dans le domaine de la reconnaissance indépendante du locuteur. Les réseaux neuronaux dépassent considérablement les systèmes de pointe existants, même si on ne leur donne que deux pour cent des données de formation habituellement transmises. Ces recherches soulèvent la possibilité de collaborations avec IBM et Microsoft.

Honneur: Apple Autostitch

Ces images de démonstration illustrent comment Autostitch assemble plusieurs images pour en faire un panorama.

2009

Des recherches rehaussent l’assemblage d’images chez Apple

David Lowe (Université de la Colombie-Britannique), Boursier principal de l’ICRA, crée une société dérivée à partir de ses recherches universitaires menées avec certains de ses étudiants et postdoctorants. L’entreprise Cloudburst Research Inc. transfère les résultats de la recherche à des applications pour appareils mobiles. Leur premier produit permet l’assemblage automatique d’images panoramiques sur les appareils iPhone d’Apple à l’aide d’un algorithme qui permet aux ordinateurs d’identifier le même objet dans des conditions lumineuses et des angles différents. Il se vend plus de 300 000 copies de l’application Autostitch à des utilisateurs finaux. Lowe affirme que le programme Apprentissage automatique, apprentissage biologique (anciennement connu sous le nom ‘Calcul neuronal et perception adaptative révolutionne’) a contribué à l’avancement de ses recherches.

Honneur: David Fleet

À l’aide de données sur les mouvements du corps, les chercheurs produisent une simulation réaliste de la marche.

2009

Un modèle aide à mieux distinguer les divers styles de marche

Les Boursiers de l’ICRA mettent au point plusieurs modèles du mouvement humain pour améliorer la capacité des ordinateurs à distinguer différents styles de marche. Un de ces modèles, mis au point par David Fleet, Boursier principal de l’ICRA et Aaron Hertzmann (tous deux de l’Université de Toronto), fait appel à des processus gaussiens pour dériver une représentation à faible dimensionnalité des mouvements complexes. Un autre modèle, élaboré par l’équipe de Geoffrey Hinton (Université de Toronto), directeur du programme, fait appel à des données détaillées sur la modification de l’angle des articulations pendant la marche, en tenant compte de divers styles de marche. Le modèle apprend efficacement à imiter les changements associés aux différents styles de marche et suscite l’intérêt des sociétés d’animation.

Honneur: Richard Socher et al.

Cette illustration montre comment le réseau neuronal récursif procède à l’analyse syntaxique des images et des phrases pour en obtenir les composantes, lesquelles sont ensuite fusionnées pour comprendre le tout.

2010

Les réseaux neuronaux analysent le langage

Le groupe d’Andrew Ng (Université Stanford), Associé de l’ICRA, met au point une méthode impressionnante d’analyse syntaxique d’images et de phrases afin de produire des structures arborescentes qui captent le contexte d’un mot d’interrogation, ainsi que des données sémantiques sur son utilisation dans le langage. La méthode prévoit l’utilisation d’un réseau neuronal qui exploite de riches représentations vectorielles de deux parties pour produire une représentation de l’ensemble, ainsi qu’un score qui révèle le taux d’appariement des deux parties. Cette méthode est supérieure à d’autres dans une variété de tâches importantes de traitement de textes et d’images. En outre, le processus est beaucoup plus similaire au processus chez l’humain que la plupart des autres méthodes de traitement d’images.

Honneur: Google Maps/Street View

Google Streetview a recours aux réseaux neuronaux convolutionnels pour brouiller des plaques d’immatriculation, des visages et des adresses

2010

L’apprentissage automatique en industrie

Des boursiers de l’ICRA élaborent des variations de l’apprentissage profond qui ont de précieuses applications en industrie. La méthode du Boursier principal de l’ICRA Yann LeCun (Université de New York) imite la structure hiérarchique du cortex visuel. Google commence à utiliser ces réseaux neuronaux convolutifs, ou ConvNets, pour identifier ou embrouiller les visages et les plaques d’immatriculation dans son application Streetview. La Defense Advanced Research Projects Agency (DARPA), le groupe de recherche du ministère de la Défense des États-Unis utilisent ces réseaux pour repérer de loin de gros obstacles. Yoshua Bengio (Université de Montréal), Boursier de l’ICRA, élabore un type d’apprentissage profond où on peut classer les vecteurs d’attributs en quelques catégories différentes à l’aide d’un très petit nombre d’exemples de formation. La technologie mène à une collaboration avec Ubisoft, un grand développeur de jeux d’ordinateur qui compte plus de 9000 employés de par le monde et à l’établissement d’une chaire de recherche industrielle quinquennale à l’Université de Montréal. Pour de plus amples renseignements, veuillez consulter cet article sur les recherches du Boursier principal Yann Lecun dans The Economist.

Honneur: Visual Dictionary / MIT

Voici une visualisation de 53 464 substantifs, classés par signification, issue de l’ensemble de données composé de 80 millions de minuscules images. Les ensembles de données CIFAR-10 et CIFAR-100 sont des sous-ensembles étiquetés de cette ressource plus large.

2010

Des ensembles de données d’images de l’ICRA améliorent la reconnaissance d’objets

Les Associés de l’ICRA Rob Fergus (Université de New York) et Antonio Torralba (Massachusetts Institute of Technology) et collaborateurs recueillent 80 millions d’images couleur du web et les transfèrent dans un format standard propice à l’apprentissage automatique. Riches de plusieurs millions de paramètres, les ensembles de données constituent une excellente ressource pour l’apprentissage des systèmes visuels, pourvu que le processus d’apprentissage ne requière pas d’étiquettes précises. Toutefois, pour évaluer la précision de la reconnaissance d’objets, les données ont besoin d’étiquettes précises. Conséquemment, un grand nombre d’étudiants de premier cycle de l’Université de Toronto étiquettent manuellement deux sous-ensembles des 80 millions d’images avec le soutien financier de l’ICRA. Ces sous-ensembles correctement étiquetés, CIFAR-10 et CIFAR-100, deviennent une référence standard dans la recherche sur la vision automatique.

Honneur: Rob Fergus

La vidéo de la chanson « More or less », de C-Mon & Kypski, incorpore des séquences de webcam issues d’une externalisation ouverte d’admirateurs imitant certaines poses et permet aux chercheurs d’analyser les répétitions de poses humaines de nombreuses personnes avec de nombreux arrière-plans différents.

2011

Lire la pose humaine

Rob Fergus (Université de New York), Associé de l’ICRA, met au point une façon novatrice d’apprendre les immersions métriques d’images en vue d’identifier les poses humaines. En guise de données d’entraînement, son projet utilise des imitations d’une vidéo rock du groupe néerlandais C-mon & Kypski trouvées sur le web. À partir de ces vidéos, il est possible d’apprendre à reconnaître différentes poses humaines, tout en ignorant divers arrière-plans et conditions lumineuses. On peut utiliser l’immersion qui en découle pour faciliter la détection de personnes dans des images. En outre, le système est supérieur aux plus grands détecteurs de visages dans le traitement d’une base de données d’images webcam.

Honneur: ConvNetJS Denoising Autoencoder demo

Cette démonstration en ligne du site web de l’Université Stanford illustre comment un auto-encodeur débruitant peut apprendre et reconstruire des chiffres manuscrits de l’ensemble de données du Mixed National Institute of Standards and Technology.

2011

Mise au point de meilleurs auto-encodeurs

Pascal Vincent, Associé de l’ICRA, Yoshua Bengio, Boursier principal de l’ICRA (tous deux de l’Université de Montréal), et leurs étudiants et postdoctorants de l’Université de Montréal améliorent considérablement notre compréhension des réseaux neuronaux artificiels, appelés modules auto-encodeurs, qui assimilent une représentation comprimée des données. Les chercheurs font appel aux auto-encodeurs pour l’entraînement préalable des réseaux neuronaux profonds. Les chercheurs mettent au point des variantes, appelées auto-encodeurs « débruitants » et « contractants », qui sont beaucoup plus efficaces dans la généralisation de nouvelles données. Grâce à ces nouvelles méthodes, ils remportent deux concours internationaux en apprentissage automatique.

Honneur: Robert Galbraith / Reuters

Joe Belfiore, vice-président du groupe du système d’exploitation chez Microsoft, tient un téléphone cellulaire doté du nouveau système d’exploitation Windows 8.1 qui permet une recherche vocale améliorée, lors d’une conférence à San Francisco (Californie), le 2 avril 2014.

2011

Changer le mécanisme de reconnaissance de la parole

Pour la reconnaissance de la parole, Microsoft, Google et IBM commencent à utiliser les réseaux neuronaux profonds mis au point par des boursiers de l’ICRA à l’Université de Toronto, à l’Université de Montréal et à l’Université de New York, plutôt que les modèles de mélange de gaussiennes qui constituent la méthode statistique conventionnelle. Ces réseaux neuronaux profonds sont considérablement plus précis. L’Android 4.1 utilise un réseau neuronal profond comme modèle acoustique. Microsoft déploie aussi cette nouvelle approche pour la recherche de la voix.

Honneur: REACH

Les réseaux neuronaux apprennent à reconnaître les visages petit à petit – d’abord comme un ensemble de pixels pâles et foncés, ensuite comme formes simples, ensuite comme caractéristiques, et finalement vient le visage entier.

2012

Méthode pour distinguer les facteurs de variation dans les images

Yoshua Bengio, Boursier principal de l’ICRA, Pascal Vincent, Associé de l’ICRA (tous deux de l’Université de Montréal) et collaborateurs étudient comment les ordinateurs pourraient apprendre à reconnaître les expressions faciales de personnes aux poses et aux caractéristiques différentes. À l’aide de la Toronto Face Database qui compte 8052 images de visages, ils démontrent que les ordinateurs arrivent à distinguer les expressions faciales des poses et des structures faciales. Ils ont obtenu des résultats supérieurs aux méthodes de pointe déjà existantes.

Honneur: Image : Scyfer

Max Welling, Associé de l’ICRA.

2012

Régularisation de modèles immenses

L’algorithme d’apprentissage « dropout » introduit par Geoffrey Hinton (Université de Toronto), directeur du programme, et collaborateurs permet aux réseaux neuronaux artificiels de fonctionner davantage comme le cerveau. Alors que les statisticiens utilisent des modèles qui comptent quelques paramètres et beaucoup d’exemples d’entraînement, le cerveau compte des dizaines de milliers de synapses de plus que les exemples d’entraînement. Les réseaux neuronaux imitent la multitude de connexions synaptiques dans les diverses étapes de l’apprentissage. En vue de faire évoluer ce concept, l’Associé de l’ICRA Max Welling (Université d’Amsterdam) et collaborateurs mettent au point une méthode qui fait l’interpolation entre la méthode Monte Carlo par chaînes de Markov (MCMC) et l’optimisation du gradient stochastique; cette dernière se limite à l’examen d’une petite portion des données fournies plutôt que de traiter l’ensemble intégral des données. Cela permet aux méthodes d’apprendre très efficacement. Welling et ses coauteurs obtiennent le prix du meilleur article à la Conférence internationale sur l’apprentissage automatique 2012.

Honneur: Image : Body Labs et bodyhub.com

Le logiciel de Body Labs fait appel à la scintigraphie du corps entier pour mettre au point un modèle tridimensionnel que l’on peut mettre dans la pose voulue.

2012

Une entreprise de mannequins 3D issue de la recherche

Body Labs, une nouvelle entreprise qui vend des mannequins humains virtuels à des dessinateurs de vêtements et à des concepteurs de jeux est le fruit des recherches de Michael J. Black, Associé de l’ICRA au sein du programme Apprentissage automatique, apprentissage biologique (anciennement connu sous le nom ‘Calcul neuronal et perception adaptative révolutionne’) et directeur fondateur de l’Institut Max-Planck sur les systèmes intelligents (Allemagne). Black a mis au point un modèle pour créer des personnes virtuelles à partir d’une scintigraphie tridimensionnelle du corps entier. Ses travaux ont des applications éventuelles dans le domaine du magasinage en ligne et pourraient même contribuer au traitement de personnes aux prises avec un trouble de l’image de soi, comme l’anorexie.

Honneur: Université de Toronto

Cette carte thermique illustre les résultats de l’application des réseaux neuronaux profonds à la reconnaissance de la parole par les chercheurs.

2013

Réseaux neuronaux profonds récurrents pour la reconnaissance de la parole

Geoffrey Hinton (Université de Toronto), directeur du programme et Alex Graves (Deepmind Technologies), ancien Chercheur mondial de l’ICRA, réalisent une percée dans l’application des réseaux neuronaux profonds récurrents à la reconnaissance de la parole. Il s’agit de réseaux de neurones qui s’envoient des signaux de rétroaction, à la manière du cerveau. Grâce à leurs connexions internes, ils fonctionnent beaucoup mieux que d’autres réseaux neuronaux dans le traitement de signaux aléatoires. Les premiers résultats publiés sur le nouveau système démontrent une nette amélioration par rapport à ce qui se fait de mieux en reconnaissance de la parole, et ces techniques ont connu des améliorations considérables ces dernières années grâce à l’application des réseaux neuronaux profonds.

2013

Google acquiert la jeune entreprise de Geoffrey Hinton

Le succès et les possibilités commerciales des réseaux neuronaux profonds incitent Google à acquérir DNN Research, la jeune entreprise du Boursier principal de l’ICRA Geoffrey Hinton. Dans ses travaux, il cherche à améliorer considérablement la fonction de recherche de photos dans Google+.

Honneur: Photo : Josh Valcarcel

Facebook a embauché Yann LeCun, Boursier principal de l’ICRA, au poste de directeur de son nouveau laboratoire de recherche en vue de réaliser à long terme des percées majeures en intelligence artificielle.

2013

Facebook embauche Yann LeCun

Facebook, entreprise de réseautage social, embauche Yann LeCun (Université de New York), Boursier principal de l’ICRA, au poste de directeur de son nouveau laboratoire d’intelligence artificielle. LeCun est au premier plan d’une résurgence de la recherche en intelligence artificielle. Il est un pionnier de l’apprentissage profond qu’il qualifie de « conspiration financée par l’ICRA ». Pour de plus amples renseignements, veuillez consulter cet article dans le bulletin de l’ICRA, Nouvelles et idées.

Honneur: Photo: Josh Valcarcel / Wired

Geoffrey Hinton, Membre distingué de l’ICRA, professeur à l’Université de Toronto et chercheur chez Google.

2014

Geoffrey Hinton, nommé Membre distingué de l’ICRA

L’ICRA décerne le titre de Membre distingué à Geoffrey Hinton (Université de Toronto), en reconnaissance de ses nombreuses contributions au programme Apprentissage automatique, apprentissage biologique (anciennement connu sous le nom ‘Calcul neuronal et perception adaptative révolutionne’). En 1997, Hinton grossit les rangs de l’ICRA en tant que Boursier au sein du programme Intelligence artificielle et robotique. Cette nomination le mène à un poste à l’Université de Toronto où il poursuit ses recherches sur l’apprentissage profond et les réseaux neuronaux. Plus tard, il propose un nouveau programme qui devient le programme Apprentissage automatique, apprentissage biologique, dont il est le directeur de 2004 à janvier 2014, moment où il commence à partager son temps entre Google et l’Université de Toronto.

Idées liées à Apprentissage automatique, apprentissage biologique

Apprentissage automatique, apprentissage biologique | Nouvelles

Les ordinateurs reconnaissent des images mémorables

Pourquoi certaines images restent-elles gravées dans notre mémoire, alors que d’autres s’estompent rapidement? Pour trouver réponse à cette question, les...

Apprentissage automatique, apprentissage biologique | Commentaire

Transcender l’excellence

Pendant les vacances, j’ai lu un excellent livre de Peter MacKinnon, ancien président de l’Université de la Saskatchewan. Pendant sa...