Mediante
la teoría del condicionamiento operante, Skinner plantea una nueva forma de
aprender por medio de las recompensas y los castigos. En este sentido esta
teoría considera que a través del mundo
externo es que se proporcionan los elementos necesarios para lograr una
determinada conducta.
De
allí que se hable de reforzamientos primario o intrínseco los cuales serán
consideradas respuesta que sí mismas son es reforzantes, es decir, aquella
respuesta que es por sí sola es una fuente de sensaciones agradables y la
acción se fortalece automáticamente cada vez que ocurre.
Ejemplo
de ello serían:
1.-
Las respuestas que satisfacen necesidades fisiológicas, como beber cuando se
tiene sed o comer cuando se tiene hambre.
2.-
Las actividades sociales que brindan
estimulación sensorial o intelectual son también con frecuencia intrínsecamente
reforzantes.
3.-
También pueden ser reforzantes por sí mismas todas las conductas que ayudan al
organismo a evitar algún daño.
4.- El tocar algún instrumento musical general una notable satisfacción, aun cuando
en sus inicios requirió de un esfuerzo para su dominio.
Por
su parte se conoce como refuerzos secundarios o extrínsecos aquellos donde el
premio o gratificación no forma parte de
la actividad misma, sino que obtienen su carácter de refuerzo por asociación
con los reforzadores primarios.
Ejemplo
de ello serían:
1.-
La cancelación monetaria por alguna labor realizada..
2.-
La aprobación social de nuestras acciones.
3.-
El reconocimiento público.
En
la actualidad los docentes, padres de familia y/o cuidadores ven con agrado y
satisfacción esta teoría pues considerar que gracias al castigo o la recompensa
se logran alcanzar las conductas que se desean observar en los niños y
adolescentes, sin embargo, hoy por hoy se reconoce el esfuerzo que el niño demuestra a lo largo del camino para
lograr esa modificación de conducta que
se desea alcanzar, haciendo más énfasis en recompensa que en el castigo como
tal.
Por
otra parte estas técnicas pueden ser útiles en el momento de acompañar los
procesos de aprendizaje de lecto-escritura en los niños y las niñas, ya que en
la medida en que reciban refuerzos positivos pueden llegar a fortalecer los avances y el desarrollo de las
competencias. En este sentido un niño que no se refuerce adecuadamente en el
aprendizaje, puede experimentar dificultades para desarrollar adecuadamente sus
competencias para leer y escribir.
por
otra parte hasta hace un tiempo el castigo corporal era una de las formas de
adecuar la conducta de un niño para lograr un comportamiento determinado. Sin embargo en la actualidad existen otros
tipos de acciones que lograr el mismo propósito como por ejemplo la suspensión,
eliminación, o control sobre algún objeto de gran interés para el niño.
Finalmente para lograr la modificación de conducta se
requiere:
1.-
Define claramente el comportamiento que
quieres modificar.
2.- Analiza
de qué manera se presenta (cuándo, en qué circunstancias, qué ocurre antes,
durante después…)
3.-
Determina un período para el cambio
4.- Establece
unas consecuencias que se presenten
pronto y que sean ajustadas y no desproporcionadas.
En
este sentido es necesario definir cuál
es el comportamiento adecuado y reflexiona si es alcanzable. La modificación de
conducta aumenta su efectividad cuando se realiza a través del refuerzo
modelado y moldeado de comportamientos
que se consideran adecuados y se reduce la utilización del castigo.
Puesta en práctica del Castigo Positivo en la serie televisiva "The Big Bang Theory".
Vídeo Condicionamiento Clásico/Operante
| Refuerzo y Castigo | Psicólogo Barcelona
Referencias:
1.- Campos, L. (1972).Diccionario
de Psicología del Aprendizaje. México: Ciencia de la Conducta.
La caja de Skinner también llamada caja de
condicionamiento operante, es un
pequeño ambiente aislado del mundo exterior cuyo tamaño y proporción varían
según el sujeto de experimentación normalmente animales pequeños. esta caja
presenta las siguientes características:
1.- temperatura y humedad constantes
2.- con un vidrio unidireccional para que el sujeto de
experimentación no pudiera ver a los investigadores pero éstos sí al sujeto
3.- la presencia de un manipulador (suele ser una palanca)
4.- un reforzador satisfactorio (comida).
Así cada vez que el animal presiona la palanca obtiene comida, por lo que
aprende la relación entre presionar la palanca y obtener comida. Cabe añadir
que dentro de la caja también hay un estímulo discriminativo, que es aquel
estímulo que señaliza si el manipulador funciona. Suele ser un sonido o una luz
y en una sola sesión el animal puede aprender a relacionar que pulsar la
palanca sólo es efectivo si la luz está encendida o si ha oído el sonido.
Posteriormente fue suministrando la comida sólo algunas veces que se
presionaba la palanca pero eso no hizo que los animales dejaran de presionarla
cada vez que se encendía la luz o se oía el sonido. Luego decide no
suministrarles comida. Obteniendo como resultado que los animales desaprendieran
lo aprendido, detallando que el tiempo que les llevó desaprenderlo fue igual al
tiempo que tardaron en aprenderlo.
Mediante
esta experimentación Skinner brinda un nuevo aporte al proceso de aprendizaje,
el cual posteriormente será conocido como
Condicionamiento Operante o Condicionamiento Instrumental, entendiéndose
este como una forma de aprendizaje mediante el cual se tiene más probabilidades de repetir una conducta determinada, si la misma es acompañada
de una consecuencia positiva, de igual forma existen menos probabilidades de
repetir una determinada conducta que haya estado acompañada de una consecuencias
negativas. En este sentido el condicionamiento operante es un tipo de
aprendizaje asociativo, en donde las nuevas conductas que se esperan están
interrelacionada con las acciones que seguidamente las acompañaron, las
cuales servirá de reforzamiento positivo o negativo.
Si
llevamos esta experimentación a nuestro diario vivir podemos evidenciar que a
lo largo de nuestra vida, la misma ha estado acompañada reforzamiento positivos y negativos, entonces
con cierta admiración nos preguntamos por qué actuamos de una u otra forma sin
detenernos a pensar y hacer consciente que parte de estas respuestas fueron en
un tiempo condicionadas por un
determinado reforzamiento, hasta quedar completamente grabada en nuestra
memoria, saliendo a relucir sin mayor esfuerzo y llamándoles en algunos casos como nuestro patrones de vida.
En
la actualidad el refuerzo positivo está muy latente en la educación y formación
de nuestros niños y adolescentes pues es considerado un efectivo apoyo
pedagógico, a través del cual se pueden alcanzar notables cambios de conducta al ser motivadas mediante el elogio y la
recompensa como forma de gratificar el resultado que se desea. En este sentido
se puede percibir como el proceso de socialización ha hecho uso de ese aporte
para transmitir los valores y principios
sociales.
Finalmente
en el condicionamiento operante, las
conductas se emiten espontáneamente y
sus consecuencias agradables o desagradables, determinan el aprendizaje y con
ellas el fortalecimiento de las mismas o su desaparición.
Vídeos de los experimentos de Skinner (Documental y Experimentación)
Skinner utiliza básicamente la forma de
aprendizaje asociativo conocida como condicionamiento operante, basada en el
aumento o disminución de ciertas conductas dependiendo de si sus consecuencias
son positivas o negativas, como por ejemplo dar incentivos a los niños cuando
realizan sus tareas.
Dentro de los procedimientos conductuales, el
condicionamiento operante o instrumental es probablemente el que tiene
aplicaciones más numerosas y variadas.
¿En qué consiste el condicionamiento operante?
Thorndike y Pavlov trazaron el horizonte del
aprendizaje como referido al sistema nervioso y consideraban la conducta como
manifestación del funcionamiento neurológico. Skinner (1938) no negaba que este
acompaña al comportamiento, pero creía que se podía entender una psicología de
la conducta en sus propios términos y sin referencia a los acontecimientos
neurológicos. La conducta es asunto de la totalidad del organismo, no de sus
partes.
El condicionamiento operante puede describirse
como un proceso que intenta modificar el comportamiento mediante el uso del
refuerzo positivo y negativo.
A través del condicionamiento operante, un
individuo hace una asociación entre un comportamiento particular y una
consecuencia.
Ejemplos:
Los padres recompensan las buenas
calificaciones de un niño con dulces o algún otro premio.
Un maestro premia a aquellos estudiantes que
son tranquilos y educados.
Los estudiantes se dan cuenta que al
comportarse así reciben más puntos.
Un alimento se da a un animal cada vez que
presiona una palanca.
Conceptos
Del Condicionamiento Operante
Refuerzo
Es el responsable de la emisión de respuestas,
es decir, de la probabilidad de que sucedan, sea mayor o menor en un futuro. Es
un estímulo reforzante y consecuente, ya que se da una vez se ha producido la
respuesta.
Es imposible saber si un reforzador determinado
influye en la conducta hasta que no se presenta de manera contingente con una
respuesta y se comprueba que el comportamiento cambia a consecuencia del
reforzador.
Existen dos tipos de refuerzo: positivo y
negativo. Ambos tienen la misma finalidad de aumentar la probabilidad de que la
respuesta se emita en situaciones futuras. Además, para Skinner los
reforzadores se definen por medio de las conductas que son observables y
medibles.
Refuerzo
positivo
El refuerzo positivo refuerza un comportamiento
proporcionando una consecuencia que un individuo encuentra gratificante.
Refuerzo
negativo
La eliminación de un reforzador desagradable
también puede fortalecer un comportamiento. Esto se conoce como refuerzo
negativo porque es la eliminación de un estímulo adverso que es “gratificante”
para el animal o la persona. El refuerzo negativo refuerza el comportamiento
porque detiene o elimina una experiencia desagradable.
Reforzadores
primarios
Serían todos aquellos reforzadores básicos que
no necesitan de ninguna historia de condicionamiento previa para funcionar como
tales. Algunos ejemplos serían el agua, la comida y el sexo.
Reforzadores
secundarios
Los reforzadores secundarios si estarían
basados en historias previas de condicionamiento gracias a la asociación con
estímulos incondicionados. Algunos ejemplos serían el dinero y las
calificaciones.
Castigo
El castigo también se mide por sus efectos en
la conducta del sujeto. En cambio, a diferencia del refuerzo, lo que se
pretende es la disminución o supresión de una determinada conducta.
Un castigo reduce la probabilidad de emisión de
una conducta en situaciones posteriores. No obstante, no elimina la respuesta
ya que si la amenaza de castigo disminuye, la conducta puede volver a aparecer.
En el castigo también existen dos tipos o
procedimientos diferentes, castigo positivo y castigo negativo.
Castigo
positivo
Este implica la presentación de un estímulo
aversivo tras la realización de un determinado comportamiento. Es dado de
manera contingente a la respuesta dada por el sujeto.
Castigo
negativo
Consiste en la eliminación de un estímulo como
consecuencia de un determinado comportamiento, es decir, consiste en la
retirada de un estímulo positivo tras la realización de una determinada
conducta.
Extinción
En la extinción se deja de emitir una respuesta
debido a que el reforzador ya no aparece. Este proceso se basa en dejar de
proporcionar el reforzador correspondiente que se espera conseguir y que ha
hecho que ese comportamiento se mantenga a lo largo del tiempo.
Cuando una respuesta se extingue, el estímulo
discriminativo pasa a ser estímulo de extinción. Este proceso no debe
confundirse con el olvido, que es dado cuando la fuerza de un comportamiento
disminuye al no haber sido emitido en un período de tiempo.
Generalización
Ante una situación o estímulo determinado se
condiciona una respuesta, que puede aparecer ante otros estímulos o situaciones
parecidas.
Discriminación
Este proceso es el opuesto al de
generalización, en él se responde de manera diferente según el estímulo y el
contexto.
Programas de refuerzo
Skinner también estableció gracias a sus investigaciones diversos programas de refuerzo, entre los que están los programas de reforzamiento continuo y los programas de reforzamiento intermitente.
Programas
de refuerzo continuo
Están basados en el reforzamiento constante de
la respuesta cada vez que se presente, es decir, cada vez que el sujeto ejecute
la conducta deseada obtendrá un estímulo reforzador o positivo.
Programas
de refuerzo intermitente
En cambio, aquí el sujeto no siempre obtiene el
reforzador al realizar la conducta deseada. Estos se definen en base al número
de respuestas dadas o al intervalo de tiempo transcurrido entre respuestas,
dando lugar a diferentes procedimientos.
Programas
de razón fija
En estos programas el reforzador se proporciona
cuando el sujeto genera respuestas fijas y constantes. Por ejemplo, en un
programa de razón 10 la persona obtiene el reforzador tras haber realizado diez
respuestas cuando se presenta el estímulo.
Programas
de razón variable
Éste se construye igual que el anterior, pero
en este caso el número de respuestas que el sujeto debe dar para obtener el
reforzador es variable.
El reforzador seguiría dependiendo del número
de respuestas emitidas por el sujeto, pero con una razón variable, gracias a la
cual se evita que el sujeto llegue a predecir cuándo obtendrá el reforzador.
Programas
de intervalo fijo
En los programas de intervalo la obtención del
reforzador no depende del número de respuestas que el sujeto dé, sino que está
determinado por el tiempo transcurrido. En consecuencia, se refuerza la primera
respuesta producida después de haber pasado un periodo de tiempo determinado.
En los programas de intervalo fijo el tiempo
entre reforzador y reforzador es siempre el mismo.
Programas
de intervalo variable
En estos programas el reforzador se obtiene
después de un tiempo, aunque el tiempo es distinto para cada reforzador
recibido.
Técnicas operantes para desarrollar conductas
Dadas la importancia y la eficacia del refuerzo
positivo, las técnicas operantes para aumentar conductas tienen una utilidad
demostrada.
A continuación,
describiremos los más relevantes de entre estos procedimientos.
1.
Técnicas de instigación
Se consideran técnicas de instigación aquellas
que dependen de la manipulación de estímulos discriminativos para aumentar la
probabilidad de que se dé una conducta.
Este término incluye las instrucciones que
incrementan determinadas conductas, la guía física, que consiste en mover o
colocar partes del cuerpo de la persona entrenada, y el modelado, en que se
observa a un modelo realizando una conducta para poder imitarlo y aprender
cuáles son sus consecuencias.
Estos tres procedimientos tienen en común que
se centran en enseñar directamente al sujeto cómo tiene que realizar una acción
determinada, sea verbal o físicamente.
2.
Moldeamiento
Consiste en acercar gradualmente una conducta
determinada a la conducta objetivo, empezando por una respuesta relativamente
parecida que el sujeto pueda realizar y modificándola poco a poco. Se lleva a
cabo por pasos (aproximaciones sucesivas) a los que se aplica reforzamiento.
El moldeamiento es considerado especialmente
útil para establecer conductas en sujetos que no se pueden comunicar
verbalmente, como las personas con discapacidad intelectual profunda o los
animales.
3.
Desvanecimiento
El desvanecimiento se refiere a la retirada
gradual de las ayudas o instigadores que se habían utilizado para reforzar una
conducta meta. Se pretende que el sujeto consolide una respuesta y
posteriormente pueda llevarla a cabo sin necesidad de ayudas externas.
Es uno de los conceptos clave del
condicionamiento operante, ya que permite que los progresos llevados a cabo en
terapia o en el entrenamiento puedan generalizarse a muchos otros ámbitos de la
vida.
Este procedimiento consiste fundamentalmente en
sustituir un estímulo discriminativo por otro distinto.
4.
Encadenamiento
Una cadena conductual, es decir, una conducta
compuesta por varias conductas simples, se separa en distintos pasos
(eslabones). A continuación, el sujeto debe aprender a ejecutar los eslabones
uno a uno hasta lograr llevar a cabo la cadena completa.
El encadenamiento puede realizarse hacia
delante o hacia atrás y tiene como peculiaridad que cada eslabón refuerza al
anterior y funciona como estímulo discriminativo del siguiente.
En ciertos aspectos, buena parte de las
habilidades que se consideran talentos por mostrar un alto grado de destreza y
especialización en ellos (como por ejemplo tocar muy bien un instrumento
musical, bailar muy bien, etc.) pueden ser consideradas fruto de alguna forma
de encadenamiento, dado que desde las habilidades básicas se va progresando
hasta alcanzar otras mucho más trabajadas.
5.
Programas de reforzamiento
En un procedimiento de aprendizaje operante,
los programas de reforzamiento son las pautas que establecen cuándo será
premiada la conducta y cuándo no.
Hay dos tipos básicos de programas de
reforzamiento: los de razón y los de intervalo. En los programas de razón se
obtiene el reforzador después de que se dé un número concreto de respuestas,
mientras que en los de intervalo esto sucede después de que haya pasado un
tiempo determinado desde la última conducta reforzada y ésta vuelva a darse.
Ambos tipos de programa pueden ser fijos o
variables, lo cual indica que el número de respuestas o el intervalo de tiempo
necesarios para la obtención del reforzador pueden ser constantes u oscilar en
torno a un valor promedio. También pueden ser continuos o intermitentes; esto
significa que la recompensa puede darse cada vez que el sujeto lleve a cabo la
conducta objetivo o bien de vez en cuando (aunque siempre como consecuencia de
una emisión de la respuesta deseada).
El reforzamiento continuo es más útil para
establecer conductas y el intermitente para mantenerlas. Así, teóricamente un
perro aprenderá más rápido a dar la pata si le damos un premio cada vez que nos
ofrezca la pata, pero una vez aprendida la conducta será más difícil que deje
de hacerla si le damos el reforzador uno de cada tres o cinco intentos.
Técnicas operantes
para reducir o eliminar conductas
Al aplicar técnicas operantes para reducir
conductas conviene tener en mente que, dado que estos procedimientos pueden ser
desagradables para los sujetos, siempre es preferible utilizar los menos
aversivos cuando sea posible. Asimismo, estas técnicas son preferibles a los
castigos positivos.
A continuación, presentamos un listado de estas
técnicas en orden de menor a mayor potencial de generar aversión.
1.
Extinción
Se deja de recompensar una conducta que había
sido reforzada con anterioridad. Esto disminuye la probabilidad de que la
respuesta vuelva a darse. Formalmente la extinción es lo opuesto al
reforzamiento positivo.
A largo plazo la extinción es más eficaz para
eliminar respuestas que el castigo y el resto de técnicas operantes para
reducir conductas, si bien puede ser más lenta.
Un ejemplo básico de extinción es lograr que un
niño pare de patalear simplemente ignorándolo hasta que se dé cuenta de que su
conducta no tiene las consecuencias deseadas (por ejemplo el enfado de los
padres, que funcionaría como reforzador) y se harte.
2.
Entrenamiento de omisión
En este procedimiento, a la conducta del sujeto
le sigue la ausencia de la recompensa; es decir, si se da la respuesta no se
obtendrá el reforzador. Un ejemplo del entrenamiento de omisión podría ser que
unos padres impidan a su hija ver la televisión esa noche por haberles hablado
de forma irrespetuosa. Otro ejemplo sería el hecho de no ir a comprar los
juguetes que los niños piden, si estos se portan mal.
En ámbitos educativos, además, sirve para
favorecer que se valoren más los esfuerzos que otras personas hacen para contentar
a los pequeños y que estos, al haberse acostumbrado a estos tratos, no valoran.
3.
Programas de reforzamiento diferencial
Son un subtipo especial de programa de
reforzamiento que se utiliza para reducir (no eliminar) las conductas objetivo
aumentando otras respuestas alternativas. Por ejemplo, se podría premiar a un
niño por leer y por hacer ejercicio y no por jugar a la consola si se pretende
que esta última conducta pierda valor reforzante.
En el reforzamiento diferencial de tasas bajas
se refuerza la respuesta si se da un determinado periodo de tiempo después de
la última vez que se produjo. En el reforzamiento diferencial de omisión el
refuerzo se obtiene si, después de un periodo de tiempo determinado, la
respuesta no se ha producido.
El reforzamiento diferencial de conductas
incompatibles consiste en reforzar respuestas incompatibles con la conducta
problema; este último procedimiento se aplica a los tics y la onicofagia, entre
otros trastornos.
4.
Coste de respuesta
Variante del castigo negativo en que la
ejecución de la conducta problema provoca la pérdida de un reforzador. El
carnet de puntos para conductores que se introdujo en España hace unos años es
un buen ejemplo de programa de coste de respuesta.
5.
Tiempo fuera
El tiempo fuera consiste en aislar al sujeto,
en general niños, en un entorno no estimulante en caso de que se produzca la
conducta problemática. También una variante del castigo negativo, se diferencia
del coste de respuesta en que lo que se pierde es la posibilidad de acceder al
refuerzo, no el reforzador en sí.
6.
Saciación
El refuerzo que se obtiene por llevar a cabo la
conducta es tan intenso o cuantioso que pierde el valor que tenía para un
sujeto. Esto puede tener lugar por saciación de respuesta o práctica masiva
(repetir la conducta hasta que deje de ser apetitiva) o bien por saciación de
estímulo (el reforzador pierde su apetitividad por exceso).
7.
Sobrecorrección
La sobrecorrección consiste en aplicar un
castigo positivo relacionado con la conducta problema. Por ejemplo, es muy
utilizada en casos de enuresis, en que se pide al niño que lave las sábanas
después de orinarse encima durante la noche.
Técnicas de organización de contingencias
Los sistemas de organización de contingencias
son procedimientos complejos a través de los cuales se puede reforzar unas
conductas y castigar otras.
La economía de fichas es un ejemplo muy
conocido de este tipo de técnicas. Consiste en entregar fichas (u otros
reforzadores genéricos equivalentes) como premio por la realización de las
conductas objetivo; posteriormente los sujetos pueden intercambiar sus fichas
por premios de valor variable. Se utiliza en escuelas, cárceles y hospitales
psiquiátricos.
Los contratos conductuales o de contingencias
son acuerdos entre varias personas, normalmente dos, mediante los que se
comprometen a realizar (o a no realizar) determinadas conductas. En los
contratos se detallan las consecuencias en caso de que se cumplan o incumplan
las condiciones acordadas. Vídeo: Capítulo extraído de la serie "The Big Bang Theory" para explicar un mecanismo de aplicación de la técnica de condicionamiento operante