Introduction au clicker-training

26 mai 2014

Voici un petit préambule à la lecture de cet article qui vous permettra de découvrir les fondations du clicker-training. Avant toute chose, je voulais vous prévenir que cet article n'a pas vocation à vous apprendre à vous servir d'un clicker, cet article est avant tout une synthèse de plusieurs documents afin que, pour vous, lecteur, les notions de conditionnement opérant, de renforcement positif et de clicker-training et les façons dont elles interagissent entre elles vous soient plus familières.

A l'origine, j'ai synthétisé cet article pour permettre aux adhérents de mon association de randonneurs équestres de découvrir une nouvelle façon de procèder à l'apprentissage pour les chevaux. Cet article fait donc souvent des parallèles entre le monde canin, le monde équin et parfois même le monde "humain" car après tout, nous parlons toujours de la même chose ....

1/ APPRENTISSAGE PAR LE RENFORCEMENT POSITIF

a/ Un peu d'histoire de sciences du comportement:le béhaviorisme et le conditionnement opérant (source: wikipedia)

Le béhaviorisme ou comportementalisme est une approche psychologique qui consiste à se concentrer sur le comportement observable déterminé par l'environnement et l'histoire des interactions de l'individu avec son milieu.

L'apprentissage y est décrit comme une modification du comportement observable, due à la modification de la force avec laquelle une réponse est associée à des stimuli extérieurs (environnement externe) ou à des stimuli intérieurs (environnement interne) sur l'organisme.

En 1913, John Broadus WATSON établit les principes de base du béhaviorisme. Il fait de l'apprentissage un objet central pour l'étude du comportement, qui doit être approché uniquement sous l'angle des comportements mesurables produits en réponse à des stimuli de l'environnement.

Dans les années 40 et 50, Burrhus F. SKINNER introduit la notion de conditionnement opérant. Il s'appuie sur la loi de l'effet de THORNDIKE qui établit que le comportement est fonction de ses conséquences, pour développer les notions de renforcement, de façonnement, d'apprentissage programmé.

La différence entre le conditionnement classique (PAVLOV) et le conditionnement opérant est que le conditionnement opérant présuppose un être actif dns son environnement.

Les enseignants, formateurs, éducateurs peuvent employe volontairement de renforcements pour favoriser l'acquisition de certains comportements et faire disparaître certains autres. Ils doivent alors déterminer leurs objectifs d'apprentissage précis et sérier les objectifs (plan d'apprentissage).

b/ Le conditionnement opérant (SKINNER) (source: wikipedia)

Il est aussi appelé conditionnement instrumental, apprentissage skinnérien ou conditionnement de type II. Il repose sur deux éléments: le renforcement et la punition, chacun pouvant être soit positif, soit négatif.

Renforcement: conséquence d'un comportement qui rend plus probable que le comportement soit reproduit de nouveau.
Punition: conséquence d'un comportement qui rend moins probable que le comportement soit reproduit de nouveau.

Un renforcement ou une punition peut être soit:

positif: par l'ajout d'un stimulus agissant sur l'organisme.
négatif: par le retrait d'un stimulus agissant sur l'organisme.

Il existe donc 4 types de conditionnement opérant:

renforcement positif: procédure par laquelle la probabilité de fréquence d'apparition d'un comportement tend à augmenter suite à l'ajout d'un stimulus appétitif contingent à la réponse. ex: ajout d'une récompense, félicitations.
renforcement négatif: procédure par laquelle la probabilité de fréquence d'apparition d'un comportement tend à augmenter sute au retrait d'un stimulus aversif contingent à la réponse. ex: retrait d'une obligation, d'une douleur
punition positive: procédure par laquelle la probabilité de fréquence d'apparition d'un comportement tend à diminuer suite à l'ajout d'un stimulus aversif ou conséquence aversive contingente au comportement cible. Ex: ajout d'une obligation, d'une douleur.
punition négative: procédure par laquelle la probabilité de fréquence d'apparition d'un comportement tend à diminuer suite au retrait d'un stimulus appétitif. ex: retrait d'un privilège, d'un droit.

Il existe deux types de renforçateur (éléments de renforcement):

renforçateur primaire: le renforçateur répond directement à un besoin essentiel de l'individu (ex: nourriture)
renforçateur secondaire: le renforçateur est un renforçateur par un certain apprentissage fait au préalable (ex: jouet, argent ...)

c/ Le principe de base: récompenser les bons comportements / ignorer les mauvais comportements

Les théories béhavioristes se sont essentiellement développées en Amérique du Nord.

C'est dans les années 50 et 60 que se développa dans les parcs aquatiques une nouvelle technique d'apprentissage. En effet, les dresseurs animaliers devaient pouvoir communiquer à distance avec les dauphins et les cétacés. Ils utilisaient alors des marqueurs sonores (sifflet ultrason) pour valider des exercices réussis et signifier au cétacé qu'il pouvait venir chercher sa récompense sur le bord du bassin. Plus tard, le clicker remplacera le sifflet à ultrasons.

Des pionniers comme Gary Wilkes et notamment Karen Pryor, s'intéressèrent à cette méthode d'apprentissage et travaillèrent à la développer à d'autres espèces animales.

Dans son best-seller, Don't shoot the dog!, Karen Pryor explique ses recherches et ses essais sur d'autres espèces animales ( et même sur ses enfants!). Le milieu du chien commença à s'intéresser à ses travaux au début des années 90 et émergea le clicker-training, fruit d'expériences menées par les éducateurs et les propriétaires de chiens en relation avec les travaux de Karen Pryor. Depuis une quinzaine d'années, le clicker-training s'est développé en Amérique du Nord et en Europe dans le milieu du chien. Il se propage maintenant au milieu du cheval.

Certaines expériences ont également été menées auprès d'enfants autistes permettant de développer la méthode ABA (Applied Behavior Analysis ou Analyse du Comportement appliqué).

Le clicker-training est basé uniquement sur le renforcement positif: c'est-à-dire qu'on récompense les bons comportements (OUIIIII !!!) et qu'on ignore les mauvais (pas de NON). Dans cet apprentissage, l'animal doit être libre.On préférera lui laisser l'occasion de réfléchir et de laisser proposer plusieurs actions jusqu'à ce qu'il trouve/atteigne ce que l'on désire.

2/ QU'EST-CE QUE LE CLICKER ?

a/ Le matériel

Pour vous initier au clicker-training, deux éléments sont indispensables: un clicker et une récompense (nourriture dans un premier temps puis jouet et/ou caresses).

Vous pouvez aussi avoir besoin d'une cible (target) et d'un target stick (baguette).

Qu'est-ce qu'un clicker ?

Un clicker est une petite boîte avec une petite languette métallique émettant le son "clic" lorsqu'on appuie dessus. Pour ceux qui ont été enfants dans les années 70 et 80, il s'agit en fait du "clac clac", un jeu qui était vendu en librairie.

Voici des "clac clac", le premier m'appartient ;)

Voici des clickers plus modernes, certaines peuvent émettre deux sons différents, ce qui permet de différencier le travail ou de travailler simultanément avec deux animaux différents:

Les récompenses:

Il faut qu'elles aient une forte valeur pour l'animal (Qui travaillerait pour "rien" ?): des dés de jambon, des croquettes pour chat pour les chiens; du sucre, des carottes pour les chevaux. Chaque récompense doit être assez petite car elle est donnée souvent (surtout au début de l'entraînement). Ces récompenses mettant en jeu la nourriture sont des renforçateurs primaires.

Par un apprentissge, on peut faire évoluer les récompenses afin qu'elles ne revêtent plus un besoin essentiel pour l'individu. Ainsi on peut facilement utiliser comme renforçateur secondaire un jouet ou des caresses chez le chien; des flatteries, des félicitations verbales pour le cheval.

La cible et le target stick:

La cible (target) et le target stick (baguette) permettent de guider l'animal vers un endroit précis à l'aide d'une cible. Cette technique est très pratique pour travailler l'animal à distance. Le chien, le cheval doit aller toucher une cible au loin; cette action est validée par un click et l'animal vient chercher sa récompense. Le travail à la cible est largement utilisé en agility notamment pour le travail des zones ou bien du slalom.

Pour un chien, des découpes de plexiglas, des couvercles de pots en verre peuvent être utilisées comme cible. Pour un cheval, on utilisera des cônes de chantier par exemple.

Le target stick permet de prolonger le bras. Très utile pour apprendre la marche au pied aux petits chiens ou pour donner des indications visuelles aux chevaux (carrot stick de Parelli).

Quelques exemples de cibles:

Quelques target sticks:

b/ La philosophie du clicker training

Le clicker est un marqueur. Il permet d'indiquer à l'animal l'instant précis où il a effectué l'action désirée.

Pourquoi préférer le clicker à une indication verbale ?

Parce qu'une indication vocale comme "OUIIIII !!!" n'est pas un son bref et peut être prononcée sur une intonation différente selon les jours ou nos humeurs

Le click est un son net, bref, neutre et invariable, ce qui permet d'indiquer à l'animal l'instant précis et exact où il a effectué l'action qui a été récompensée.

Le chien/cheval sait que le click indique une bonne action CAR:

le click entraîne TOUJOURS une récompense (1 click = 1 récompense)
le chien fait le lien entre le click et la récompense, il se met de lui-même à chercher laquelle de ses actions entraîne un click et prend alors l'inititive de renouveler cette action

La philosophie du clicker training: laisser le chien/cheval proposer, encourager l'initiative.

c/ Les règles du clicker

Amorcer l'animal au clicker
Faire attention au timing (très important)
Toujours récompenser après avoir cliqué. La durée entre le click et la récompense n'est pas importante mais on doit récompenser même si on a cliqué par erreur.
Faire preuve de patience.
Ne pas abuser du click. Si vous voulez récompenser un travail particulièrement bon, pensez au jackpot (plusieurs récompenses d'un coup après un click)
Réaliser de courtes séances.
Se fixer des objectifs clairs en adéquation avec le niveau de l'animal.
Remplacer progressivement le clicker par la voix puis les friandises par des caresses.

3/ LES DIFFERENTES TECHNIQUES DU CLICKER TRAINING

Pré-requis: l'animal doit comprendre que le click engendre une récompense. On va donc en premier lieu "charger l'animal au clicker". On clique et on récompense plusieurs fois de façon consécutive gratuitement. Lorsque la valeur positive du click est intégrée, on peut commencer le clicker-training.

a/ le leurring

On guide l'animal avec une friandise afin de l'aider à avoir le comportement attendu. Au commencement, on clique dès le mouvement amorcé et on récompense. Plus tard, on récompensera la finalité de l'exercice. Il est important de ne pas rester au leurre trop longtemps. Si l'animal répète spontanément le comportement, il faut passer à l'étape suivante, c'est-à-dire la proposition.

b/ la proposition

Nous attendrons que l'animal nous propose l'attitude attendue déjà apprise. Nous lui montrons le clicker et les friandises. L'animal va réfléchir et proposer plusieurs choses. Quand il fait l'attitude attendue, nous cliquons et récompensons.

Assimilation de l'exercice et ajout de repère (# ordre)

Lorsque l'animal réalise plusieurs fois l'action avec succès, on peut introduire le mot que l'on veut associer à l'exercice.

On introduit tout d'abord le mot au moment de l'exercice et lorsqu'on pense que l'animal a bien associé le mot à l'action, on peut anticiper le mouvement et prononcer le mot code AVANT le mouvement (qui sera récompensé).

c/ le capturing (ou capture du comportement spontané)

Nos animaux font parfois des comportements désirables dans la vie quotidienne de façon spontanée. On peut fixer ce comportement en cliquant le mouvement au moment où il se passe ( = on capture le mouvement).

d/ le shaping (ou façonnage)

Avec le shaping, on avance à petits pas. En fait, on va amener l'animal vers le comportement final en cliquant tous les comportements intermédiaires.

Il faut être très très précis et ne pas tomber dans l'extinction et garder la motivation du chien/cheval. Le shaping, c'est le jeu du chaud-froid. Lorsque l'action intermédiaire est validée, on ne clique plus et on clique uniquement le mouvement ultérieur (transition). Le shaping demande beaucoup de concentration et de réflexion de la part de l'animal et est donc très fatigant. Il faut donc commencer par des exercices simples.

4/ LES ÉCUEILS DU CLICKER-TRAINING

l'importance du timing: il faut cliquer exactement au bon moment, ni avant (le clicker n'est pas un leurre), ni après (au risque de valider un mauvais comportement) mais PENDANT !
il est important de décomposer le travail par étapes. Il faut prévoir des objectifs d'apprentissage même si on s'adapte aux réponses obtenues au cours de la séance.
Il ne faut pas vouloir aller trop vite et au-delà des compétences de l'animal: en gros, il ne faut pas brûler les étapes.
Ne pas oublier de récompenser le chien/cheval après chaque click (y compris quand on a cliqué alors qu'on n'aurait pas dû !)
Ne pas respecter ses objectifs.
il ne faut pas utiliser le "NON" pendant l'apprentissage lorsque le chien/cheval n'a pas l'attitude voulue (on ignore les mauvais comportements)
le manque de formation du propriétaire.

En conclusion:

Dans le clicker-training, le non click est aussi important que leclick. Il faut être très précis. On clique les bons comportements et on ignore les mauvais.

Ce n'est pas spécialement la répétition d'un exercice qui permet d'apprendre mais plutôt la valeur de la récompense obtenue.

Le clicker est un outil.Une fois que l'animal aura bien compris le mouvement, nous n'aurons plus besoin ni de clicker ni de friandises.

L'entraînement au clicker permet des progrès formidables mais demande une grande implication du propriétaire. Si vous vous sentez fatigués, si vous êtes en colère ou même si vous ne vous sentez pas à l'aise avec l'utilisation d'un clicker, alors il vaut mieux que vous vous en passiez !

Bibliographie: