Signature
Les connaissances, la personnalité et les comportements sont le résultat de ce que notre environnement nous fait vivre.
Description
Le néo-béhaviorisme, ou béhaviorisme moderne, succède au béhaviorisme en proposant que le sujet prenne une part active dans son apprentissage. Il s’ancre à la philosophie empiriste anglaise selon laquelle l’expérience donne accès au réel. Il nait à la publication de l’article de Skinner[1] relatant ses expériences sur des animaux : un rat affamé est placé dans la cage, une nourriture est présentée, à priori inaccessible ; le rat explore activement son environnement et actionne, par hasard, le levier qui provoque l’accès à la nourriture. On constate par la suite que le rat appuie de plus en plus fréquemment sur le levier. Après un certain temps, on constate qu’il continue d’appuyer sur le levier afin d’engager sa présentation, alors qu’elle ne lui était plus présentée. Si on qualifie la nourriture (ou récompense) d’agent de renforcement[2], que le levier est le stimulus et l’action sur la pédale représente la réponse, Skinner démontre que la conduite est atteinte, l’apprentissage acquis, lorsque l’agent de renforcement disparaît, mais que l’action demeure : si le rat a faim, il sait comment provoquer l’apparition de nourriture, même s’il ne la voit pas. Ce constat tranche avec l’attitude exclusivement passive du béhaviorisme : je n’appuyais sur la pédale que lorsque je voyais la nourriture…
Le courant néo-béhavioriste est donc caractérisé par le concept de conditionnement opérant pour lequel le sujet est actif. On distingue deux types différents de conditionnement : le conditionnement répondant, mis en avant par le béhaviorisme, et le conditionnement opérant, mis en avant par le néo-béhaviorisme. Le conditionnement opérant est une opération ayant pour but l’acquisition d’une nouvelle conduite par l’établissement d’un lien entre un stimulus et une réponse. Cette opération est rendue possible par une action de renforcement.
Le conditionnement opérant est caractérisé par une activité d’apprentissage, et le sujet prenant une part active dans son apprentissage. Le conditionnement opérant est caractérisé par un feed-back donné sous la forme d’un agent de renforcement qui permet à l’apprenant de juger les conséquences de ses réponses. Pour fonctionner, des conditions ont été mises en lumière :
- Le délai entre l’action et la présentation de l’agent de renforcement doit être bref (principe de contiguïté temporelle[3]) : il ne doit pas se passer trop de temps entre l’appui sur la pédale et l’accès au fromage pour le rat, le formateur doit réagir rapidement après l’expression d’une action de l’apprenant ;
- La nature de l’agent de renforcement doit être adaptée aux besoins du sujet : du fromage pour le rat affamé, une consigne de remédiation pour l’apprenant ou une correction[4] ;
- L’agent de renforcement doit être interprété comme une conséquence de l’action.
La généralisation et la discrimination constituent deux principes essentiels qui régissent l’installation d’une conduite par conditionnement :
- La généralisation apparaît lorsqu’un sujet fait une réponse particulière à un stimulus particulier et fait ensuite la même réponse à un autre stimulus[5]. En principe, plus le stimulus est éloigné du stimulus original, plus la réponse sera faible. La généralisation peut conduire à des effets positifs ou négatifs selon le contexte où elle se produit. Par exemple, l’élève qui a appris à utiliser son dictionnaire au cours de français, et qui l’utilise spontanément au cours d’histoire réalise une généralisation positive. Par contre, l’apprenant, qui déclare qu’une araignée est un insecte parce qu’il généralise les caractéristiques de l’insecte en incluant des petites bestioles qui comportent huit pattes alors qu’un insecte n’en comporte que six, réalise une généralisation abusive qui s’avérera néfaste à son apprentissage.
- Lorsque des généralisations abusives apparaissent, celles-ci peuvent être corrigées par discrimination, afin d’amener l’apprenant à découvrir ce qui distingue deux situations différentes.
Pour Skinner et Thorndike, l’apprentissage se réalise à partir de l’activité du sujet, les conduites les plus adéquates sont ensuite sélectionnées en fonction des résultats obtenus. Par contre, ils ne sont pas d’accord lorsqu’il s’agit d’établir les éléments qui permettent de construire une nouvelle conduite. Pour Skinner, seule la réponse correcte joue un rôle d’agent de renforcement et contribue à l’acquisition d’une nouvelle conduite. Pour Thorndike, au contraire, l’erreur participe pleinement à l’apprentissage en diminuant la probabilité d’apparition du comportement qui l’a engendré. Skinner recommande d’organiser l’enseignement en vue de minimiser l’apparition des erreurs dans le cadre d’une méthode qu’il appelle « l’apprentissage sans erreur ». Pour lui, tout comportement, qu’il soit psychomoteur ou cognitif, peut être acquis de manière efficace en évitant à l’élève de commettre des erreurs. Il applique le conditionnement à l’apprentissage dans le cadre de la conception de « machines à enseigner », dispositifs plus ou moins sophistiqués, qui permettent de mettre en œuvre les principes qu’il a expérimentés avec succès chez l’animal. Par exemple, la « machine arithmétique » permet de présenter des exercices d’arithmétique, en contrôlant strictement l’intervention des contingences de renforcement. L’apprenant se voit présenter une situation d’apprentissage (un exercice) qui exige une réponse construite en manipulant une série de curseurs. Une fois la réponse construite, l’apprenant valide en tournant une manivelle qui permettra, en cas de bonne réponse, le passage à la situation suivante l’émission d’une sonnerie. En cas de mauvaise réponse, la manivelle reste bloquée et l’apprenant sait qu’il doit recomposer sa réponse.
Figure 1 – Machine for Teaching Arithmetic, B. F. Skinner[6]
Plus tard, Skinner privilégiera un support plus souple, le carnet programmé. Avec la machine ou le carnet, l’apprenant est contraint de suivre la formation du début à la fin. En ce sens, on parle de parcours linéaire. Et comme l’apprentissage doit minimiser les erreurs, ce parcours est long, très progressif, fastidieux. Tout cela concourt à ne pas distinguer les différences entre apprenants (certains pouvant progresser plus rapidement).
Afin de corriger ce défaut, Crowder propose un nouveau traitement des erreurs. Comme avec Skinner, l’accent est mis sur la nécessité de fixer en amont de la formation des objectifs mesurables, et que « chaque point soit parfaitement compris avant d’aller plus loin ». Mais quand Skinner s’interdisait le recours au QCM (questions à choix multiples), en estimant que le risque de présenter des propositions erronées pouvaient perturber et laisser des traces chez l’apprenant, Crowder avance qu’il est pertinent de laisser se manifester une erreur, si elle est traitée et corrigée. Il remplace donc la succession finement graduée de questions faciles par des exercices d’une relative difficulté et d’un choix de réponses parmi lesquelles une des propositions est juste. Si l’apprenant opère le bon choix, on lui explique pourquoi cette réponse est la bonne (renforcement ou feed-back positif), et on passe à l’exercice suivant ; en cas d’erreur, on corrige en alertant l’apprenant sur le mécanisme qu’il a mis en œuvre pour produire cette erreur (on l’incite donc à cheminer autrement). Pour Crowder, il n’est donc plus important de ne pas commettre d’erreur, car cela va permettre à l’apprenant d’adapter sa stratégie d’apprentissage.
Les grandes figures
Skinner (1904-1990) a eu une très grande influence sur l’approche behavioriste de l’apprentissage. Pour Skinner, l’homme a appris un vaste échantillon de comportements tout au long de son vécu, sous l’influence des renforcements fournis par son environnement social. À partir d’expériences auprès de rats, il observe que les réponses augmentent ou diminuent eu égard aux conséquences, ce qui l’amène à considérer les conséquences et la probabilité d’apparition du comportement humain. Dans le paradigme de l’enseignement programmé, particulièrement par ses écrits de 1958 dans Science, Skinner souligne l’individualisation de l’apprentissage que permet la machine. Il dit :
Dans son texte fondateur de 1958, Skinner met en avant l’individualisation de l’enseignement que permet la machine :
Il n’est pas excessif de comparer la machine à un précepteur privé.
1) Il existe, en effet, un échange continuel entre le programme et l’élève. À la différence des exposés, des manuels et des aides audiovisuelles habituelles, la machine induit une activité soutenue. L’élève est sans cesse en éveil, sans cesse occupé.
2) À la manière d’un bon précepteur, la machine insiste pour que chaque point soit parfaitement compris avant d’aller plus loin. Les cours et les manuels développent la matière sans s’assurer que l’élève suit, et Dieu sait s’il est fréquemment dépassé.
3) Comme un bon précepteur encore, la machine ne présente que la matière que l’élève est préparé à aborder. Elle lui demande de faire le pas qu’il est, à un moment donné, le mieux en mesure de faire.
4) La machine aide l’élève à produire la réponse correcte. Elle y parvient, en partie grâce à la construction ordonnée du programme, en partie par la mise en œuvre de diverses techniques d’amorce ou d’allusion, dérivées de l’analyse du comportement verbal.
5) Enfin, la machine, toujours comme le précepteur privé, renforce l’élève pour chaque réponse correcte, utilisant ce feed-back immédiat non seulement pour modeler efficacement son comportement, mais pour le maintenir en vigueur, d’une manière que le profane traduirait en disant que l’on tient l’intérêt de l’élève en éveil.
Ainsi la machine à enseigner réussit le tour de force de prodiguer un « enseignement de masse individualisé » ; le slogan de l’enseignement programmé mécanisé pourrait être : « des milliers de précepteurs pour le prix d’un seul ! »
Cette description décrit l’archétype du logiciel éducatif. Pour cela, les arguments de Skinner renvoient tous aux principes des « pédagogies de l’apprentissage » :
- L’activité soutenue de l’élève : bien que Skinner n’utilise pas le terme d’interactivité, c’est cela qui est traduit par l’« échange continuel entre le programme et l’élève ». Mais pour Skinner, l’action seule ne peut pas garantir l’apprentissage.
- Avancer point par point : Afin que « chaque point soit parfaitement compris avant d’aller plus loin », Skinner préconise de découper la matière à enseigner en « fragments successifs aussi petits que possible ». On retrouve ici des similitudes de l’apprentissage méthodique de Reboul, et la méthode de Descartes[7].
- Se donner des objectifs réalistes : La machine demande à l’élève de faire le pas qu’il est, à un moment donné, le mieux en mesure de faire[8].
- Aider l’élève à produire la réponse correcte : Skinner rappelle la maxime de Comenius selon laquelle « plus le professeur enseigne, moins l’élève apprend ». Et que le rôle la médiation dépende du maître ou de la machine, le problème du guidage subsiste : il n’oublie pas que la finalité de toute médiation est d’organiser sa propre disparition.
Et en e-learning ?
néo-béhaviorisme a inspiré la machine à enseigner[9]. Il s’agissait d’un mécanisme qui proposait un feed-back après chaque question, afin de renforcer les bonnes réponses : Skinner avait observé que le fait de ne renforcer que certains des comportements corrects ne perturbait pas la construction de la conduite (on ne donne la nourriture qu’une fois sur deux ou sur trois…). L’application de programmes à renforcement intermittent a connu un grand succès notamment pour développer certaines conduites, notamment chez des sujets handicapés mentaux. Sur cette base se sont développés des systèmes connus sous le terme « économie de jeton » (token economy) qui consistent à fournir au sujet des renforcements dits secondaires sous la forme de jetons qui lui permettront par la suite d’obtenir des récompenses, de visionner une séquence vidéo, de se faire raconter une histoire… (renforcement primaire). Aujourd’hui, les exerciseurs, logiciels générateur d’exercices, de questionnaires… représentent la forme moderne des machines à enseigner. Ces procédures basées sur le choix du moment de présentation de l’agent de renforcement sont souvent mises en œuvre dans un contexte pédagogique. C’est par exemple le cas en laboratoire de langue où le formateur écoute tour à tour « discrètement » ses apprenants sans que ceux-ci ne connaissent le moment où ils sont écoutés. Aussi, seule une partie des réponses correctes de l’élève sont renforcées, lorsqu’ils sont écoutés.
L’enseignement par ordinateur (EAO) trouve ses racines dans l’enseignement programmé des années 1950-1970. Ainsi, pour Joël de Rosnay (1975) « l’ordinateur représente, en principe, le prolongement idéal du livre programmé et de la machine à enseigner ». Dans son texte fondateur de 1958[10], Skinner met en avant l’individualisation de l’enseignement que permet la machine et affirme qu’ « Il n’est pas excessif de comparer la machine à un précepteur privé ». Mais si l’EAO de type tutoriel est le plus souvent associé à l’enseignement programmé de type skinnérien, le véritable ancêtre de la majorité de ce type de logiciels est plutôt le modèle de Crowder (1959), plus proche des thèses cognitivistes que l’enseignement programmé linéaire.
Une première logique impulsée par Skinner s’appuie donc sur ces principes :
- Chaque point doit être parfaitement compris avant d’aller plus loin,
- Il faut s’assurer que l’élève suit,
- La machine aide l’élève à produire la réponse correcte,
- Le questionnaire à choix multiple (QCM) est à proscrire, car il entraîne des perturbations qui peut laisser des traces, même si elles sont corrigées,
- Il n’y a pas de valeur pédagogique de l’erreur.
Crowder (1959) quant à lui estime qu’une progression « pas à pas » réussie peut laisser intacts des modes de raisonnement erronés, par une l’enchaînement d’informations non pertinente. Pour lui, l’erreur doit se manifester pour pouvoir être désignée, traitée, corrigée. Il préconise non plus des exercices de difficulté très progressivement croissante auxquels la bonne réponse n’est que la seule alternative, mais au contraire des exercices d’une relative difficulté, pour lesquels un ensemble de réponses parmi lesquelles l’apprenant doit choisir celle qui lui paraît juste. Si la réponse choisie est correcte, on lui dit pourquoi il a fait le bon choix : c’est le renforcement, ou feedback positif, et on passe à la question suivante. Si la réponse choisie est fausse (par erreur de raisonnement, par manque d’information…) on procède à la correction de l’erreur en alertant et en démontant le mécanisme qui a entraîné le mauvais choix. Le procédé habituel consiste à orienter l’apprenant vers un cheminement différent, qui le ramène ensuite vers le chemin principal :
Figure 2 – Exemple de programme ramifié
Pour certains (dont Skinner lui-même), le relatif échec de l’enseignement programmé a été dû au manque de sérieux dans la construction de nombreux programmes, mis sur le marché sans validation adéquate. Piaget semble soutenir ce point de vue lorsqu’il écrit :
[1] The science of learning and the art of teaching (1954).
[2] L’agent de renforcement peut être positif (la nourriture pour le rat affamé) ou négatif : dans ce cas, il augmente la fréquence de l’apparition du comportement attendu s’il est supprimé (par exemple une décharge électrique sanctionne le rat s’il ne produit pas l’action sur la pédale dans un laps de temps donné). Dans la vie quotidienne, le bip sonore strident indiquant que l’on n’a pas bouclé notre ceinture de sécurité peut être considéré comme un renforcement négatif, puisqu’il disparaît lorsque l’on corrige la situation.
[3] Différentes procédures de résistance à l’extinction seront mises au point par Skinner, par exemple en faisant varier lors de l’apprentissage les délais entre l’action et le renforcement.
[4] Une punition n’est pas considérée comme un renforcement, fut-il négatif. Son but est de faire cesser un comportement non désiré. De nombreux débats interrogent l’efficacité pérenne de la punition.
[5] L’une des expériences de Skinner a consisté à conditionner des pigeons à picorer un spot rouge ; ils ont par généralisation picoré également des spots différents en couleur, en forme et en taille.
[6] Cambridge, Massachusetts, 1954 – Gift of B. F. Skinner – Source : http://americanhistory.si.edu/teachingmath/html/enlarge/1999_01829.htm.
[7] Pour Reboul, « l’apprentissage par tâtonnement est commun à l’animal et à l’homme, mais l’apprentissage méthodique lui est supérieur, et est propre à l’homme ». Il s’agit, dans l’apprentissage méthodique :
- De prendre conscience du but, du modèle à apprendre ;
- De diviser ce modèle en actes simples ;
- D’enchaîner progressivement ces actes simples ;
- De récapituler les essais jusqu’à élimination totale des erreurs.
Pour Descartes, une méthode pédagogique est un itinéraire permettant d’atteindre un but. Sa méthode ou règle se résume en quatre points :
- Ne recevoir comme argumentation ou « vérité » que ce qui a été compris et démontré.
- Résoudre un problème (un projet) en le découpant en différentes sous-parties (elles-mêmes pouvant être subdivisées à leur tour).
- Réaliser les tâches à accomplir de manière ordonnée en commençant par les tâches les plus simples et finir par les tâches les plus complexes.
- Contrôler l’ensemble des tâches réalisées et des éléments à prendre en compte sans rien oublier.
[8] Cela renvoie au concept de la zone proximale de développement de Vygotski, mais pour Skinner sa vision est fondée sur le conditionnement externe, alors que pour Vygotski, elle s’appuie sur le développement interne.
[9] Cet article est largement inspiré des travaux de Joseph Rézeau, notamment sa thèse « Médiatisation et médiation pédagogique dans un environnement multimédia », UNIVERSITÉ BORDEAUX 2, 2001.
[10] Article paru dans Science en 1968.
le 17/11/17