Your horse’s IQ – Blog 06 – Operant conditioning, Reinforcement

Your horse’s IQ – Part 06

Der IQ Ihres Pferdes – Teil 06

  • In Blog 04 we started talking about Associative Learning, but then had to take a detour. We needed to stress the importance of how the horse perceives the world, in order to make it quite clear that we can’t assume that the horse will learn as a human would. His world looks, sounds, tastes, feels and smells different from ours. And in order to react to our stimuli, he has to be able to determine what constitutes a stimulus – and we have to understand how he perceives it!
  • Apart from the physical, scientifically measurable differences, we learned that his perception also varies with his experiences and emotions. And our brains work differently: the human brain uses the detailed raw data of the surroundings, which storm his senses, and forms a generalized concept – and only THAT reaches our consciousness. In other words, we see what we expect to see.
  • The horse on the other hand does not naturally filter out information to thus prevent his brain from overload. He experiences all the present stimuli consciously. This influences his learning substantially! And we must realize these differences to be able to teach our horses effectively.

I highly recommend reading a very interesting book by Temple Grandin, called “Animals in translation”, should you want to delve deeper into this topic.

  • In Blog 03 we mentioned Habituation, and in Blog 04 we distinguished between that and desensitization. Then we explained Classical Conditioning, which is training, in which we use the instinctual reaction to a stimulus (sight or smell of food – triggers flow of saliva) and combine it with a new signal (the bell) to make the animal associate both (now the sound of the bell triggers the saliva).
  • Now we get back to point B) – the Operant Conditioning, in which the horse becomes an independent actor and learns from his own successes!

B) Operant Conditioning:

 

  • The difference between classical and operant conditioning is therefore that in the latter the horse learns by trial and error, by chance, to associate a reward – not with a particular stimulus, but with his own behaviour!

The importance of  Reinforcement:

  • To make this possible for him, we have to present the horse with a choice: if he guesses right, a reward will follow. If he tries an unwanted solution, the treat is not forthcoming (and with a bad trainer even punishment might follow). So in various situations he learns “when I do this – that will happen”.
  • So the reward is incredibly important!! How else would the horse know, when he has found the right solution? We must reinforce any correct attempt!
  • The trial and error search of response has to “pay off” for the horse, otherwise he would lose interest quickly. This is where the reinforcement comes in!
  • In this example the horse reinforces himself –  if he rolls out the carpet with his nose, he finds treats hidden therein.
  • Im Blog 04 haben wir über Assoziatives Lernen gesprochen, mußten dann aber einen kleinen Umweg machen. Wir mußten betonen, wie wichtig es ist zu verstehen, wie das Pferd die Welt wahrnimmt, und daß man nicht annehmen kann, daß ein Pferd genau wie ein Mensch lernen wird. Seine Welt klingt, schmeckt, riecht und sieht aus und fühlt sich anders an als unsere. Um auf unsere Reize zu reagieren, muß es ja erst mal erkennen, was so ein Anreiz darstellen soll – und wir müssen verstehen, wie es das wahrnimmt!
  • Abgesehen von den physischen, wissenschaftlich meßbaren Unterschieden variiert seine Wahrnehmung auch mit seinen Erfahrungen und Emotionen. Und unsere Gehirne funktionieren anders: das menschliche Gehirn nimmt die detaillierten, noch nicht ausgewerteten Daten aus der Umwelt und formt daraus ein verallgemeinertes Konzept – und nur DAS erreicht unser Bewußtsein. In anderen Worten, wir sehen was wir zu sehen erwarten. Das Pferd dagegen kann die Information nicht so ausfiltern, um sein Gehirn vor Überlastung zu schützen. Es erlebt alle präsenten Reize bewußt. Das beeinflußt sein Lernen in hohem Maße! Das müssen wir wissen, damit wir unsere Pferde effektiv unterrichten können.

Ich empfehle sehr das Buch von Temple Grandin „Ich sehe die Welt wie ein frohes Tier“ zu lesen, wenn Sie an diesem Thema interessiert sind.

  • Im Blog 03 haben wir Lernen durch Gewöhnung erwähnt und in Blog 04 den Unterschied zwischen dieser und Desensibilisierung erklärt. Dann die klassische Konditionierung, ein Training in welchem wir die instinktiven Reaktionen auf einen Reiz hin nutzen (Ansicht oder Geruch von Futter löst Speichelfluß aus) und diese mit einem neuen Signal verbinden (Glocke), so daß das Tier beide assoziiert (jetzt löst schon das Ertönen der Glocke den Speichel aus).
  • Jetzt kommen wir zum Punkt B) zurück – Operante Konditionierung, bei der das Pferd ein unabhängiger Akteur wird und von seinen eignen Erfolgen lernt.

B) Operante Konditionierung:

  • Der Unterschied zwischen klassischer und operanter Konditionierung ist daher, daß in letzterer das Pferd durch die Probiermethode lernt, die Belohnung mit seinem eigenen Verhalten (anstatt mit einem gewissen Stimulus) zu verbinden!

Die Bedeutung des Verstärkens:

  • Um diese Verbindung herzustellen, müssen wir dem Pferd die Wahl geben: wenn es richtig errät, gibt es eine Belohnung. Wenn es eine unerwünschte Lösung anbietet, gibt es nichts (oder mit einem schlechten Trainer eventuell eine Strafe). So lernt es in verschiedenen Situationen: „wenn ich das tue – passiert jenes“.
  • Daher ist die Belohnung von höchster Wichtigkeit!! Wie sonst sollte das Pferd wissen, daß es die richtige Lösung gefunden hat? Wir müssen jeden korrekten Versuch bestärken!
  • Dieses Ausprobieren muß sich für das Pferd “lohnen”, sonst verliert es schnell das Interesse. Dafür brauchen wir die Verstärker!
  • Im folgenen Beispiel bestärkt das Pferd sich selbst – wenn es den Teppich ausrollt, findet es darin die darin versteckten Leckerli.
CarpetBoSm
 

There is great confusion out there about the terms “negative and positive reinforcement”.

a) Positive Reinforcement:

  • This term must be understood in the mathematical sense : positive means, we are adding something! It means PLUS, not GOOD!
  • The horse makes an effort to get something, through which his situation improves from a neutral state to an agreeable one.
  • A primary reinforcer for this would be food or rest, for example – this is something he knows from nature. A secondary reinforcer would be your voice “good boy!” and caresses – this he learned to be wonderful through your training. You begin with simple, natural reinforcers (treats), then switch to learned ones (“brav!” means, you did the right thing – and treat will follow!) which you at first always follow up with a natural one. Later you turn to a variable schedule  (see below) to keep the interest going.

b) Negative Reinforcement:

  • Again – math! It means MINUS (you are taking something away!) not BAD – otherwise it would not be reinforcement!
  • You take something away that changes the horse’s situation from disagreeable to neutral – which is still better than before and therefore a reward in itself. In riding you can hardly train without it, as this is the famous ”release that teaches”. You apply pressure (with leg or reins), and when the horse has reacted correctly to your aid, you release (stop!) the aid to tell him, he did the right thing. Negative reinforcement aims to make the correct response happen again and more often, just like the positive one – therefore it IS a training tool!

c) Punishment:

  • is something that a good trainer does NOT use as a training tool, because it is ineffective and counter-productive.  Sure: if a horse bites me, he gets an instant jab in the mouth, but that is not training, rather a reflexive reaction. Punishment aims to suppress or eliminate a behaviour – biting for ex.
  • BUT: when being punished, the horse is passive – something bad is done TO him, and he has no choice to improve his situation by his own action. Also usually punishment is applied too late and the horse does not even understand WHAT he is punished for. It is well known that the effect of punishment wears off the longer it is applied. So the horse will just lose trust, start avoiding, fearing or even hating humans. Punishment is NOT a training tool!

The Timing of reinforcement:

  • It is most important to realize that the association of a behaviour and the consequence has a time limit! The horse will only be able to associate a reward (or punishment) with his own action, as long as it happens within half a second – which means basically simultaneously!
  • If your horse learns very slowly or just doesn’t get it, he may not lack in IQ – but you might want to check your own reaction speed to see, if your reinforcement happens quickly enough to make things clear to him. The pairing of action and reward must be immediate!

Variable schedule of reinforcement:

  • In the H.E.M. series (Help, Explain and Motivate) I discussed at length (Blogs 03 to 07) what the Ten Laws of Shaping mean for our training. Those are the laws of learning – scientifically proven by behavioural scientists and true – whether you like it or not. (Read Karen Pryor: “Don’t shoot the dog” – my training bible!) I cannot repeat all of that here. In Blog 08 of same series you can also find more about positive reinforcement, and in Blog 05 about the Variable Schedule of positive reinforcement and its importance. It applies once the horse HAS understood your cue and consistently shows the correct response to your stimulus – then you must switch to a variable timing of rewarding – otherwise the response rate will deteriorate.

Extinction:

  • Extinction means that an unwanted behaviour of your horse will eventually stop, when you ignore it consistently. Remember that for the horse the action has to “pay off” – when the horse drives you crazy pawing in the aisle and you yell at him each time – you reinforce his behaviour as he sure gets your attention! But, you say, by himself he will never stop! Yes he will, though your patience may not be long enough to live to see it. So be wise: your horse does not paw without reason – eliminate the reason – usually boredom! Don’t use the cross-ties, but rather brush him in his stall, where he can nibble at some hay. Find out what bothers him and, as a good friend, change that!

Length of training sessions:

  • From Law #10 (Blog 07 of the H.E.M. series) we already know, how important it is to always stop on a high note! This last, most fantastic performance is what the horse remembers and what motivates him to try again next time.
  • The length of training sessions, especially when they are too long, can have a great effect on the horse’s learning capabilities and willingness.
  • Most researchers agree that combining tasks in long training sessions leads to inefficient learning. It has been found that training horses one day per week achieved a higher level of performance in fewer training sessions than experiments with highly concentrated and long learning sessions.
  • Most important for learning is in my opinion to recognize the state of mind of your horse. (To learn to interpret correctly what he says to you, read the series “Playing – with knowledge!” again, where all his body movement vocabulary is explained). The relationship and communication between trainer and horse is vital – a teacher who understands and cares is always more fun than military drill. But you also have to remember what you learned!

Some information about the horse’s memory in the next Blog.

Read on !!!

 

 

Es gibt große Mißverständnisse über die Begriffe „negative und positive Bestärkung“.

a) Positive Bestärkung:

  • Dieser Begriff muß im mathematischen Sinn verstanden werden: positiv heißt Addition – es ist ein PLUS und heißt nicht GUT!
  • Das Pferd bemüht sich etwas zu erreichen, durch das seine Situation sich von neutral nach angenehm hin verwandelt.
  • Ein natürlicher Verstärker dafür wäre z.B. Futter oder Ausruhen – das kennt es ja aus der Natur. Ein sekundärer Verstärker wäre Ihre Stimme „brav!“ und ein Streicheln – die wundervolle Bedeutung davon mußte es erst durch Ihr Training lernen. Man fängt mit einfachen, natürlichen Verstärkern an (Futter) und addiert dann die Gelernten („brav!“ heißt eben: das war richtig – also folgt ein Futter!), die man zuerst immer mit einem natürlichen kombiniert. Später belohnt man variabel (s. weiter unten) um das Interesse wach zu halten.

b) Negative Verstärkung:

  • Wieder – Mathe! Negativ bedeutet ein MINUS, nicht SCHLIMM – sonst wäre es ja keine Verstärkung!
  • Man nimmt also etwas weg, das die Situation des Pferdes von unangenehm nach neutral hin verbessert –  was ja immer noch besser ist als vorher und daher eine Belohnung. Beim Reiten kann man ohne das kaum trainieren, denn das ist das Prinzip, daß das Stoppen der Hilfen das Lehrmittel ist. Man übt Druck aus (mit dem Bein oder Zügel) und wenn das Pferd korrekt auf die Hilfe reagiert hat, nimmt man ihn weg – und das Aufhörens des Drucks zeigt ihm, daß es das Richtige getan hat. Negative Bestärkung zielt darauf hin, daß die korrekte Reaktion nochmals und immer öfter passieren soll – daher IST sie ein Lehrmittel!

c) Strafe:

  • ist es dagegen nicht und wird von einem guten Trainer nicht benutzt, da sie nicht effektiv ist und eher das Gegenteil erreicht. Klar: wenn ein Pferd mich beißt, kriegt es von mir einen sofortigen Klaps aufs Maul, aber das ist ja nicht Training, sondern eine reflexive Reaktion. Strafe zielt darauf hin, ein Verhalten zu unterdrücken oder auszumerzen – etwa das Beißen.
  • ABER: wenn es bestraft wird, ist das Pferd passiv – etwas Schlimmes wird ihm angetan und es hat keine Wahl, seine Situation durch eigene Handlung zu verbessern. Dazu kommt Strafe meist auch noch zu spät und das Pferd kapiert nicht mal, WOFÜR es eigentlich bestraft wird. Es ist wohlbekannt, daß Strafe, je öfter sie angewandt wird, desto weniger erreicht. Das Pferd verliert lediglich sein Vertrauen, fängt an den Menschen so gut es geht zu vermeiden, zu fürchten oder sogar zu hassen. Strafe ist KEIN Lehrmittel!

Das Timing der Verstärker:

  • Es ist sehr wichtig zu begreifen, daß die Assoziation von Verhalten und seiner Konsequenz eine begrenzte Frist hat! Das Pferd kann seine eigene Tat mit der Belohnung (oder Strafe) nur geistig verbinden, wenn diese innerhalb einer halben Sekunde ankommt – das heißt eigentlich zeitgleich!
  • Sollte Ihr Pferd also sehr langsam lernen oder gar nichts kapieren, dann hat es nicht unbedingt einen niedrigen IQ – überprüfen Sie Ihre eigene Reaktionszeit, mit der Sie belohnen. Das Paaren von Verhalten und Belohnung muß simultan sein, damit dem Pferd klar werden kann  was richtig war.

Variable Belohnung:

  • In der H.E.M. Serie (Helfen, Erklären und Motivieren) habe ich im Detail erklärt (Blogs 03 bis 07) was die Zehn Gebote des Formens für unser Training bedeuten. Das sind die Gesetze nach denen wir alle lernen – wissenschaftlich von Verhaltensforschern bewiesen und wahr – ob uns das passt oder nicht. (Lesen Sie Karen Pryors „Positiv bestärken – sanft erziehen…“ – meine Trainingsbibel!) Das kann hier nicht alles wiederholt werden. Im Blog 08 der selben Serie finden Sie auch mehr über positive Bestärkung, und in Blog 05 über die Bedeutung der variablen Bestärkung. Diese kommt ins Spiel, wenn das Pferd bereits Ihr Kommando verstanden HAT und stetig die korrekte Lösung anbietet – dann muß man zu wechselnder Belohnung übergehen, da sich sonst die Reaktionsquote verschlechtert.

Erlöschen:

  • Erlöschen bedeutet, daß ein unerwünschtes Verhalten Ihres Pferdes von alleine aufhört, wenn Sie es lange genug ignorieren. Sie erinnern sich, daß sich für das Pferd jede Handlung „auszahlen“ muß – und wenn das Pferd Sie mit seinem Scharren auf dem Gang verrückt macht, und Sie jedes Mal „hör auf!“ brüllen, dann bestärken Sie es darin, denn es erhält ja Ihre volle Aufmerksamkeit! Aber, sagen Sie, von allein hört es eben nicht auf! Würde es schon, wenn auch Ihre Geduld nicht lang genug sein mag, um das zu erleben. Seien Sie also weise: Ihr Pferd scharrt ja nicht ohne Grund – beseitigen Sie also den Grund (meistens Langeweile). Binden Sie ihn nicht ewig an, sondern putzen Sie in der Box, wo es ein bißchen Heu knabbern kann. Finden sie raus, was es ärgert und ändern Sie das, als guter Freund, der Sie sein wollen.

Dauer einer Trainingseinheit:

  • Vom Gebot  #10 (Blog 07 der H.E.M. Serie) wissen wir schon, wie wichtig es ist, immer bei einem Leistungshöhepunkt aufzuhören! Diese letzte fantastische Höchstleistung ist es, die das Pferd erinnert und die es dazu motiviert, es beim nächsten Mal wieder zu versuchen.
  • Die Dauer der Trainingseinheit, vor allem, wenn sie zu lang wird, kann große Auswirkung auf die Lernfähigkeit und ~willigkeit des Pferdes haben. Die meisten Forscher stimmen darin überein, daß das Kombinieren von vielen Aufgaben in langen Trainingseinheiten zu schlechteren Lernergebnissen führt. Bei Experimenten ergab ein einmaliges Training pro Woche bessere Leistungen in weniger Trainingseinheiten, als in konzentrierten und längeren Folgen.
  • M.E. ist das Wichtigste für das Lernen, den Gemütszustand des Pferdes zu erkennen. (Zum Verständnis, was es zu Ihnen sagt, lesen Sie die Serie “Playing – with knowledge!”, wo seine Sprache dargelegt ist). Die Beziehung und Kommunikation zwischen Trainer und Pferd ist ausschlaggebend – ein Ausbilder, der Verständnis zeigt, macht immer mehr Spaß als bloßer militärischer Drill. Dazu muß man aber auch behalten, was man gelernt hat!

Information über die Gedächtnisleistungen des Pferdes folgen im nächsten Blog.

Lesen Sie weiter!!

 

This entry was posted in Horse IQ and tagged , , , , , , , , , . Bookmark the permalink.