Nous proposons un mécanisme permettant à un agent de représenter l'espace proche en se basant uniquement sur le couplage entre l'agent et son environnement. Ce mécanisme se base sur les deux hypothèses suivantes :
- On définit un objet comme une configuration spatiale d'éléments de l'environnement permettant par sa présence d'effectuer une certaine interaction. Cette hypothèse fait référence à la théorie des affordances de Gibson.
- On définit une position de l'espace comme une séquence d'interaction permettant de l'atteindre. Cette hypothèse fait référence à la notion d'espace représentatif de Poincaré.
Un objet dans l'espace proche de l'agent peut ainsi être représenté par un couple comprenant la séquence d'interaction (éventuellement de longueur 0) permettant de l'atteindre et une interaction finale qui caractérise l'objet. Nous appellerons ce couple Interaction Composite. L'espace proche peut alors être caractérisé par un ensemble d'interaction composite, sans que la notion d'espace soit nécessaire.
Dans notre approche interactionnelle, l'agent perçoit son environnement au travers des interactions qu'il effectue. Nous définissons le contexte interactionnel de l'agent comme un vecteur donnant à chaque pas le succès, l'échec ou la non-utilisation de chaque interaction possible. Le mécanisme va devoir apprendre à reconnaître le contexte de chaque interaction composite à partir du contexte interactionnel. Nous appelons signature (ou pattern) le motif du contexte interactionnel permettant de prédire si une interaction composite est possible. Le mécanisme d'apprentissage que nous avons développé repose sur un neurone artificiel prenant en entrée le contexte interactionnel avant d'effectuer l'interaction composite, et le résultat de l'interaction composite en sortie (1 pour un succès et -1 pour un échec). Notons que nous ne prenons en considération que le résultat de l'interaction finale, car seule celle-ci permet de représenter l'objet associé à l'interaction composite. L'échec d'une interaction de la séquence indique seulement que l'objet n'était pas atteignable. La signature est alors donné par l'ensemble des poids du neurone associé à l'interaction composite.
A chaque pas, l'agent peut caractériser la partie de l'environnement qu'il a perçut au travers de la dernière interaction effectué, en stockant les interactions composites reconnues. Supposons maintenant qu'au pas suivant, l'agent effectue une certaine interaction i. Supposons également que certaines interactions composites reconnues précédemment ont une séquence qui commence par i. Cela signifie que l'agent a commencé à parcourir la séquence de ces interactions composites. On peut alors mettre à jour ces interactions composites en supprimant cette première interaction. Ainsi, un objet perçut au pas précédent sera défini à une nouvelle position (par rapport à l'agent) par la séquence d'interaction restante, même si l'agent ne le perçoit plus. On définit ainsi une mémoire qui suit les objets et prédit leurs positions en terme de séquence d'interactions. Le fait que l'objet soit défini comme présent implique que le contexte défini par la signature de l'interaction qui le caractérise doit être présente dans le contexte interactionnel. On peut donc compléter ce dernier, ce qui peut permettre notamment la détections d'autres interactions composites. L'agent perçoit ainsi son environnement comme si il effectuait plusieurs interactions simultanément.
Le mécanisme a été testé sur un système simple, doté d'un système sensoriel à faible portée pouvant être couvert par le mécanisme de mémoire spatiale. L'agent dispose de douze interactions possibles :
avancer d'un pas, se cogner dans un mur, tourner à droite de 90° vers un espace vide, tourner à droite de 90° vers un mur, tourner à gauche de 90° vers un espace vide, tourner à gauche de 90° vers un mur, toucher un espace vide devant, toucher un mur devant, toucher un espace vide à droite, toucher un mur à droite, toucher un espace vide à gauche, toucher un mur à gauche. Dans un souci de simplification, le contexte interactionnel ne tiendra compte que des six interactions "toucher". Les tests ont été effectués dans des environnements simples inspirés du Small Loop Problem. On dote l'agent d'un mécanisme implémentant une forme de curiosité lui permettant de tester les interactions composites pour lesquelles la signature ne permet pas de prédire le succès ou l'échec avec une grande certitude. Notons qu'il n'y a pas de phases d'apprentissage et d'exploitation distinctes, le mécanisme d'apprentissage est utilisé à chaque fois que le contexte est favorable à l'apprentissage d'une interaction composite.
Une fois le comportement stabilisé, on observe deux aspects des signatures sur deux graphes distincts : le premier compare la valeur absolue des signatures, ce qui permet de regrouper les interactions composites (représentés par des points) par la position des objets qu'elles définissent. Le second regroupe les interactions qui ont une même interaction finale (i.e. qui décrivent un même type d'objet à des positions différentes), et génère une force d'attraction entre les interactions composites dont la signature est similaire, et répulsive si les signatures ont des valeurs opposées. Les interactions sont alors regroupées par le type d'objet qu'elles représentent. On observe sur le premier graphe qu'une grande partie des interactions composites forme trois groupes, représentant les trois positions que l'agent peut percevoir (devant, droite, gauche). Le second graphe montre que les interactions composites permettent de catégoriser les deux types d'objets de l'environnement (mur et espace vide). L'agent a ainsi défini les objets et positions de son environnement.
On observe ensuite le comportement de l'agent dans les différentes situations offertes par son environnement. La figure 6 résume les séquences du comportement utilisées par l'agent. On peut également observer le fonctionnement de la mémoire spatiale qui complète la perception de l'agent (figure 7). On notera que dans certains cas, on observe la présence d'interactions composites liées à un élément de l'environnement situé à une position que l'agent ne peut percevoir (figure 8) : Le mécanisme permet ainsi de garder ces éléments en mémoire, et donne une indication sur le moyen de l'atteindre (la séquence de l'interaction composite elle-même).