Compreendendo o treinamento de cães baseado em recompensas
A esbelta senhora de meia-idade caminhou rapidamente pelo tapete de borracha do centro de treinamento, seu labrador retriever preto saltando alegremente ao seu lado. Ela parou suavemente, e Skip sentou-se prontamente ao lado dela, em perfeita posição de calcanhar. "Sim!" Eu pensei comigo mesmo, e então estremeci quando Carla se abaixou e deu um tapinha entusiasmado na cabeça de Skip. Skip pulou e se afastou de seu humano.
"Carla", eu disse suavemente. “Você acabou de puni-lo por sentar ereto.” O rosto de Carla caiu. “Droga!” ela exclamou. “Por que não consigo me lembrar disso!”
Espere um minuto . . . desde quando afagar um cachorro é considerado punição? Desde que Skip nos deixou saber, abaixando a cabeça e afastando-se da mão de Carla, que ele não gostava de ser acariciado. Todos os outros labradores que Carla possuía e treinou ao longo de sua vida adoravam ser tocados como recompensa. Carla acariciou seu cachorro por ser bom sem nem pensar nisso – foi uma resposta bem condicionada. Infelizmente, como Skip não gostava de ser tocado, toda vez que ela fazia isso com ele, ela estava na verdade punindo-o, diminuindo a probabilidade de ele realizar aquela sessão perfeita novamente!
As decisões de um cão na vida e seus comportamentos resultantes são baseados em se um determinado comportamento produz algo que ele gosta (uma recompensa) ou algo que ele não gosta (uma punição). O treinamento é simplesmente uma questão de manipular as recompensas e punições de maneira ponderada. . . Mas você precisa conhecer seu cão – estar completamente ciente de seus gostos e desgostos – e consciente de seu próprio comportamento para que o “treinamento” funcione para você.
Recompensas e punições
Na década de 1950, o cientista comportamental B.F. Skinner desenvolveu uma série de princípios que são aplicáveis a todos os seres vivos com sistema nervoso central. Ele descobriu que os animais tendem a repetir comportamentos que são agradáveis/gratificantes para eles, e não são propensos a repetir comportamentos que resultam em algo desagradável (punição). Estímulos neutros – coisas que não importam para o animal – não têm impacto no comportamento de uma forma ou de outra.
Skinner demonstrou que os humanos podem usar esses princípios simples para modificar o comportamento de um animal. As recompensas são a maneira mais confiável de aumentar deliberadamente os comportamentos oferecidos por um animal; inversamente, a punição diminui esses comportamentos. (Veja “Os Quatro Princípios do Condicionamento Operante”, próximo ao final da história). Usamos esses princípios comportamentais no treinamento de cães com grande sucesso.
No entanto, assim como Skip, a aplicação prática de “recompensas” e “castigos” varia de cão para cão, embora a definição não. Uma recompensa é qualquer coisa que um cão em particular goste. Uma punição é qualquer coisa que o cachorro não goste.
Frequentemente usamos guloseimas como recompensa no treinamento, porque quase sempre podemos encontrar alguma comida que um cão valorize o suficiente para servir como uma recompensa irresistível, mas a comida não é a única recompensa disponível para nós. Lembre-se, uma recompensa é qualquer coisa que um cão goste. Pode ser um tapinha na cabeça (mas não para cães como Skip, que não gostam de ser tocados), elogios verbais, um jogo de cabo de guerra, uma perseguição a um taco ou bola de tênis, um passeio na coleira , um passeio de carro, permissão para pular no sofá, a deixa para correr um percurso de agilidade, a liberação de uma “espera” para sair correndo para o quintal, permissão para pular no lago ou o sinal para cercar um rebanho de ovelhas.
Quando o adestrador de cães inexperiente médio ouve a palavra “castigo”, ele geralmente pensa em formas evidentes de punição física, como bater, beliscar ou chutar o cachorro ou puxar a guia. Não recomendo nem uso punição física, pois coloca em risco o condutor, prejudica o relacionamento com seu cão e pode destruir o entusiasmo do cão pelo treinamento. Felizmente, o castigo físico não é a única maneira de eliminar um comportamento indesejado.
Lembre-se, os behavioristas definem a palavra “castigo” como qualquer coisa que faça com que um animal diminua um determinado comportamento. Então, no caso de Skip, o labrador que não gostava de ser tocado, um tapinha na cabeça depois que ele fazia um straight sit foi o suficiente para fazê-lo parar de fazer aquele straight sit.
“Treinadores positivos” – pessoas que se comprometeram a treinar sem o uso de dor, medo, força ou intimidação – geralmente usam certas formas de “punição” (no sentido comportamental) para atingir seus objetivos de treinamento. Por exemplo, quando um cão que anseia por contato físico e atenção pula em cima do treinador, ele vira as costas para ele e se afasta, removendo tanto sua atenção (contato visual e interação) quanto a possibilidade de contato físico com o cão. Estas são as recompensas que o cão está procurando pulando. Quando o comportamento de pular do cão continua resultando na perda de algo que ele quer muito, ele para de pular – especialmente quando esse “castigo” é combinado com a “recompensa” de atenção, guloseimas e carícias por ficar quieto.
O que realmente constitui uma punição ou recompensa para um determinado cão, então, é uma questão individual; em termos comportamentais, o contexto é tudo.
Treinamento não intencional
O treinamento, portanto, é o uso intencional de recompensas e punições para manipular propositalmente o comportamento de um cão. O que às vezes é difícil de lembrar é o fato de que os cães estão aprendendo o tempo todo, quer estejamos prestando atenção ou não. As pessoas muitas vezes ficam confusas sobre por que seus cães fazem algumas das coisas que eles fazem, ou deixam de fazer o que as pessoas querem que eles façam.
Na verdade é bem simples. Os cães fazem o que funciona para eles; eles não fazem coisas a menos que obtenham algo com isso.
Os cães fazem coisas que consideramos “comportamento impróprio”, porque é divertido, é bom ou tem um gosto bom. Do ponto de vista de um cão, comportamentos que são inaceitáveis para nós, como entrar no lixo, perseguir gatos ou dormir no sofá, são simplesmente divertidos!
Proprietários frustrados costumam dizer a seus treinadores:“Ele sabe que não deve fazer isso! Eu o puno quando ele faz, mas ele ainda faz isso. Por que?" Às vezes, o prazer que o cão obtém com o comportamento supera o “castigo” do dono. Um cão que é altamente excitado pela experiência de perseguir um gato por cima da cerca do quintal pode não se importar nem um pouco em ser gritado por isso.
Em outros casos, o “castigo” pode realmente ser recompensador para o cão. Por exemplo, um labrador barulhento que é gritado, atingido ou até chutado por pular em cima de seu dono pode não ter a menor ideia de que gritar, bater e chutar é uma punição. Para cães que anseiam por atenção e amam o contato físico com as pessoas, esse tratamento rude é simplesmente um convite para jogar um jogo agradável (recompensador).
Além disso, os donos de cães podem não perceber que muitas vezes punem sem pensar um cão por fazer a coisa certa. Se você fizer isso com frequência suficiente, inadvertidamente “treinará” seu cão a parar de oferecer os comportamentos que você deseja.
Considere a mulher cujo cachorro está desfrutando de uma boa brincadeira com alguns amigos caninos no parque para cães. É hora de sair, então ela chama seu cachorro para ela. Ele imediatamente deixa seus amiguinhos e corre para ela. "Bom cachorro!" ela exclama, e prende sua coleira, tirando-o do parque. Na opinião dela, o elogio verbal foi uma ampla recompensa, e deixar o parque não tem relação com o recall. Mas eis como o cachorro vê:“Mamãe ligou, eu vim e a diversão acabou. Quando eu venho para a mamãe, uma coisa ruim acontece – a diversão acaba.” Ele provavelmente pensará duas vezes antes de vir na próxima vez que ela ligar enquanto estiver brincando com os amigos!
Muitas pessoas têm muita dificuldade em treinar seu cão para vir de forma confiável quando chamado. Talvez eles não tenham dado atenção suficiente ao que acontece com o cachorro na maioria das vezes depois que ele vem. Não é preciso um Einstein canino para perceber que vir quando chamado é uma má ideia se algo “ruim” acontecer com ele imediatamente depois – digamos, ele é enfiado no porão ou trancado de todos os convidados na cozinha, ou jogado fora na chuva fria.
O treinamento também pode falhar quando a recompensa não é valiosa o suficiente para motivar o cão a se preocupar em tentar obtê-la. Você deve programar uma resposta automática à sugestão “venha” com uma recompensa de alto valor na ausência de distrações atraentes antes de tentar aplicá-la diante de esquilos arrojados. Poucos cães saem de uma caça ao esquilo para vir e ganhar um pedaço de ração seca! Muitos treinadores positivos usam uma variedade de recompensas atraentes e as misturam. Então o cão nunca tem certeza de quão grande será a “recompensa” por seu bom comportamento; ele só sabe que vai ser bom.
Se você duvida que misturar recompensas pequenas (como elogio verbal, um tapinha ou um pedaço de ração seca) com recompensas maiores (como pedaços de carne fresca, correr atrás de uma bola ou ser solto para correr livre) é um motivador poderoso, considere a máquina caça-níqueis. Contanto que pague uma mistura de nenhuma recompensa, pequenas recompensas e apenas um jackpot ocasional, os jogadores humanos continuarão sentados e puxando a alavanca, muito além do tempo em que faz sentido fazê-lo!
Atos aleatórios de reforço
Ter uma variedade de recompensas em seu kit de ferramentas de treinamento oferece maior flexibilidade e permite que você treine seu cão sem sempre ter um grande suprimento de guloseimas no bolso. Um bom programa de treinamento se move em direção ao reforço variável, uma vez que o cão está realizando um novo comportamento de forma confiável. Em vez de clicar e dar um petisco ao cachorro toda vez que ele realizar o comportamento, você ocasionalmente pula um clique e elogia o cachorro, depois pede o comportamento novamente e clica no próximo. Aumente gradualmente a variação e a duração do esquema de reforço, lembrando que a aleatoriedade é importante.
Se você simplesmente continuar fazendo seu cão trabalhar cada vez mais por um clique, ele provavelmente desistirá de você. Se você variar o cronograma de reforço, como uma máquina caça-níqueis de Las Vegas, ele não poderá prever quando você pagará. Vou receber um clique desta vez? Desta vez? Desta vez? Clique! Assim como as pessoas continuarão inserindo moedas, seu cão continuará oferecendo comportamentos com entusiasmo, certo de que o próximo será o vencedor.
Para manter o entusiasmo dele à medida que você aumenta gradualmente o cronograma de reforço, use outras recompensas para que ele saiba que ainda está no caminho certo. Eu frequentemente uso “Bom cachorro!” como elogio depois de clicar e tratar, para que meus cães associem a mesma sensação calorosa de receber uma recompensa em comida com o elogio verbal. Então, quando eu uso o elogio verbal mesmo sem o clique e deleite, eles ainda têm a mesma resposta condicionada classicamente da associação do elogio com a comida, e isso os faz se sentir bem. Assim, “Bom cachorro!” torna-se uma recompensa útil mesmo sem comida.
Outras recompensas podem criar mais uma interrupção no jogo de treinamento. Se você usar um brinquedo como recompensa, você deve parar e deixar seu cão brincar com ele por um tempo. Isso pode funcionar muito bem para amplificá-lo na escala de entusiasmo, especialmente para um cão que é louco por bolas ou adora puxar. Não funciona bem quando você quer fazer muitas repetições de um comportamento discreto em sequência. Se você arremessar a bola toda vez que ele responder à sua sugestão de “baixar”, levará muito tempo para fazer meia dúzia de repetições. Funciona bem como recompensa por um comportamento prolongado, como calcanhar. Um cão louco por bolas pode aprender a acompanhar com perfeita atenção por longos trechos em antecipação à perseguição de bolas que acontece no final.
O tempo é fundamental
É importante para um programa de treinamento bem-sucedido entender o que seu cão gosta e o que não gosta e usar essas recompensas e punições de maneira eficaz. Para serem eficazes, as consequências – boas ou más – devem ser entregues próximas no tempo do comportamento que você está tentando influenciar.
Diga que seu cachorro derruba a lata de lixo da cozinha enquanto você está no trabalho. Se você o repreender quando chegar em casa do trabalho, horas após a ocorrência da batida do lixo, isso só ensinará ao seu cão que às vezes você é imprevisível e perigoso quando chega em casa. Não importa o quão “culpado” ele pareça quando você o repreende, ele não faz nenhuma conexão entre seu comportamento de gritar com ele e seu comportamento de entrar no lixo horas antes. Sua percepção de sua aparente consciência culpada, manifestada em sua cabeça abaixada, falta de contato visual e esgueirando-se pelos rodapés, é uma interpretação defeituosa de sua clássica linguagem corporal canina, que tenta reprimir sua ira, seja qual for a causa.
Os behavioristas concordam que uma recompensa ou punição deve ser entregue dentro de três segundos, de preferência um segundo ou menos, do comportamento que você está tentando aumentar ou diminuir. Esta é uma janela de tempo bem pequena e ressalta o valor de usar um clicker ou outro marcador de recompensa (ou marcador sem recompensa) para marcar o instante do comportamento desejado (ou inadequado). Se você disser "Opa!" no instante em que seu cão pula e você se vira, você está ensinando ao seu cão um marcador de não recompensa, que você pode usar para comunicar ao seu cão qual foi o comportamento que fez a coisa boa ir embora (punição negativa). Se você clicar! ou diga "Sim!" no instante em que seu cão se sentar, ele entenderá que o sentar valeu a recompensa, mesmo que leve vários segundos para você colocar o petisco na boca dele, e mesmo que ele se levante do assento antes que você consiga entregar o petisco .
Avançando
Carla e eu tivemos uma longa discussão sobre como continuar com o treinamento de Skip. Identificamos duas opções. Usando a dessensibilização, poderíamos ensinar a Skip que ter Carla acariciando sua cabeça era realmente uma recompensa, combinando consistentemente seu toque com uma recompensa fora do comum, usando contato suave no início, depois aumentando a intensidade até que ele aprendesse a associar tapinhas vigorosos com “coisas realmente boas”. Carla se comprometeu a fazer isso a longo prazo, pois queria muito que Skip apreciasse seu toque.
Também iniciamos uma abordagem de curto prazo para modificar o comportamento de Carla, concordando em usar reforço positivo e punição negativa com ela. Toda vez que Skip se sentava e ela não se abaixava para acariciá-lo, Carla ganhava uma recompensa, como uma moeda, um pedaço de chocolate ou um brinquedo de cachorro. Toda vez que ela esquecia e se abaixava para acariciá-lo, eu saía da sala de treinamento sem dizer uma palavra, por um período de 30 segundos a três minutos. Funcionou lindamente e, em pouco tempo, Skip estava sentado feliz em perfeita posição de calcanhar quando Carla parou, sem medo de ser punido por seu bom comportamento.
-Por Pat Miller