1. DESCRIPCIÓN Y TIPOS DE PROCEDIMIENTOS...

(1)

- 185 -

Asignatura: Aprendizaje (6 créditos). Obl. de 2º curso Grado Psicología, Curso 2010/2011

Profesores: Dr. Agustín Romero Medina ([email protected]) y Ldo. Pedro Jara Vera ([email protected]). Deptº Ps. Básica y Metodología. Univ. de Murcia. Fac.

Psicología; En Aula Virtual Fac. Psicología en http://avpsi.inf.um.es/moodle/ (usuario: dni sin letra; contraseña: dni sin letra); y en SUMA campus virtual

Tema 4 Aprendizaje mediante condicionamiento instrumental de recompensa

Bloque 2: Aprendizaje asociativo mediante condicionamiento

Tema 3: APRENDIZAJE ASOCIATIVO MEDIANTE CONDICIONAMIENTO CLÁSICO

Tema 4: APRENDIZAJE ASOCIATIVO MEDIANTE CONDICIONAMIENTO INSTRUMENTAL DE RECOMPENSA

Tema 5: CONDICIONAMIENTO INSTRUMENTAL: CONTROL DE ESTÍMULO Y CONDICIONAMIENTO CON ESTIMULACIÓN AVERSIVA

Indice del Capítulo

1. DESCRIPCIÓN Y TIPOS DE PROCEDIMIENTOS ... 187

1.1. Definición e historia ... 187

1.2. Operación experimental y fases del experimento básico ... 190

1.3. Elementos (estímulos y respuestas) principales ... 191

1.4. Procedimientos y técnicas experimentales para la adquisición de la respuesta instrumental ... 193

1.4.1. Medida de la respuesta instrumental ... 193

1.4.2. Técnicas de adquisición rápida de la respuesta instrumental ... 194

1.4.3. Métodos de estudio en humanos ... 195

1.5. Clasificación de tipos de procedimientos ... 196

1.5.1. Según el tipo de consecuencia y según la contingencia R - consecuencia ... 196

1.5.2. Según la probabilidad R-C o intermitencia del refuerzo ... 197

1.5.3. Según la estimulación antecedente ... 197

1.6. Comparacion entre condicionamiento clasico e instrumental ... 198

1.7. Procesos y cambios cognitivos ... 198

1.7.1. Mecanismos o procesos relacionadores de eventos ... 198

1.7.2. Contenido del aprendizaje: Representaciones asociativas ... 199

2. CONDICIONES PARA LA ADQUISICION EN EL CONDICIONAMIENTO DE RECOMPENSA ... 202

2.1. Condiciones generales para la adquisicion ... 202

2.1.1. Probabilidad de emparejamiento R-C: Correlación acción-consecuencia ... 202

2.1.2. Contigüidad temporal entre acción y consecuencia: La conducta supersticiosa ... 202

2.2. El refuerzo ... 204

2.2.1. Definición, tipos de refuerzo y teorías en torno a su influencia en el condicionamiento ... 204

2.2.2. Condiciones para la efectividad del refuerzo según su tipo, intensidad, demora y contraste de intensidad y demora208 2.2.3. Efecto de emparejar estímulos con el refuerzo: los refuerzos condicionados o secundarios ... 210

2.3. Efecto de la situación motivacional ... 211

2.4. Tipo de respuesta ... 211

3. CONDICIONES PARA EL MANTENIMIENTO DE LA TASA DE RESPUESTA: PROGRAMAS DE REFUERZO ... 212

3.1. Distribución temporal del refuerzo: Refuerzo continuo vs. refuerzo parcial o intermitente ... 212

3.2. Programas para una misma respuesta instrumental ... 214

3.2.1. Programas simples de refuerzo: tipos y efectos conductuales ... 214

3.2.2. Programas de refuerzo compuestos ... 216

3.2.3. Programas de refuerzo señalizados ... 218

3.3. Programas para diferentes respuestas: Programas concurrentes y conducta de elección ... 219

3.3.1. Programas concurrentes ... 219

3.3.2. Contingencias concurrentes: Conducta de elección ... 219

3.4. Condiciones especificas de refuerzo parcial en humanos... 221

3.4.1. Reglas verbales ... 221

3.4.2. Efecto de las instrucciones verbales ... 221

3.4.3. Experiencia previa de reforzamiento ... 221

3.4.4. Valor informativo del refuerzo ... 222

4. CONDICIONES PARA LA EXTINCIÓN ... 222

4.1. Operaciones, consecuencias y parámetros ... 222

4.1.1. Operación experimental y procedimientos de extinción ... 222

4.1.2. Consecuencias o efectos generales ... 222

4.1.3. Parámetros ... 223

4.2. Condiciones generales durante la adquisición que afectan a la extinción en el condicionamiento de recompensa ... 224

4.2.1. Factores motivacionales ... 224

4.2.2. Factores de entrenamiento ... 224

4.3. La extinción tras adquisición con refuerzo parcial ... 225

4.3.1. Condiciones específicas ... 225

4.3.2. Teorías del efecto de refuerzo parcial ... 226

5. PRINCIPALES APLICACIONES ... 228

5.1. Condicionamiento instrumental y clínica ... 228

5.1.1. Procedimientos de modificación de conducta ... 228

5.1.2. Condicionamiento instrumental de respuestas autonómicas: Biofeedback ... 230

(2)

5.2. Condicionamiento instrumental y enseñanza ... 232

5.2.1. Métodos aplicados al proceso didáctico ... 232

5.2.2. Métodos aplicados a la organización y manejo de la clase ... 233

6. PRÁCTICAS DE AUTOEVALUACIÓN DEL TEMA 4 ... 233

Resumen del tema

Con este tema, entramos en otro tipo de aprendizaje asociativo básico consistente en aprender a partir de las consecuencias de la acción (aprendizaje instrumental) en un contexto determinado. En este capítulo comenzamos con una descripción de sus característi- cas, procedimientos principales, clasificación de los principales tipos de condicionamiento instrumental y una comparación con el condicionamiento clásico, los efectos de las condiciones más generales de adquisición y, por último, los procesos o cambios a nivel representacional que produce este tipo de aprendizaje.

Estudiaremos en este tema las condiciones más comunes del aprendizaje mediante condicionamiento instrumental con eventos re- forzantes. De este modo analizamos en profundidad las condiciones de adquisición centradas en las consecuencias positivas (el refuerzo) y su relación con la respuesta. De estas cuestiones, las más estudiadas han sido las referentes a las condiciones de adquisi- ción mediante refuerzo parcial: programas de refuerzo, y las condiciones específicas en humanos. También se analizan las condiciones de extinción y por último, se mencionan algunas de las principales aplicaciones, entre las cuales destacan las técnicas de modifi- cación de conducta y el biofeedback.

Lecturas complementarias

Las obras de Dickinson (1980; trad. 1984), Tarpy (1981; trad. 1986), Mackintosh (1983; trad. 1988) y Domjan y Burkhard (1986;

trad. 1990) son las imprescindibles para ampliar los contenidos de este capítulo. Otras obras de consulta pueden ser: Fernández Trespalacios (1985), Hulse et al. (1980; trad. 1982), Pelechano (1980, caps. 8 a 10), Rachlin (1976; trad. 1979), Honig (1966; trad.

1975) y las compilaciones de Aguado (1983) y Anguera y Veá (1984) y algunos de los trabajos de Rescorla y colaboradores (por ejemplo, Rescorla, 1980, 1985; Rescorla y Holland, 1982) y Estes (1978).

Pueden consultarse como mínimo: Fernández Trespalacios (1985; cap. 17), Hulse et al. (1980; trad. 1982, cap. 5), Pelechano (1980; cap. 9); para la conducta de elección véase el capítulo 10 de Rachlin (1976; trad. 1979), el de Arambarri y Benjumea (1997) y el de Maldonado (1998) para programas de refuerzo Reynolds (1968; trad. 1977) y Schoenfeld (1970; trad. 1979); sobre automoldeamiento el libro editado por Locurto, Terrace y Gibbon (1981).

Puesto que se trata de las aportaciones aplicadas más conocidas de la psicología del aprendizaje, para una revisión más amplia y completa el lector debería consultar, sobre todo manuales de modificación y terapia de conducta (por ejemplo, Mayor y Labrador, 1984; Carrobles, 1986; Leitenberg, 1976; Craighead, Kazdin y Mahoney, 1976; Izquierdo, 1988; Caballo (1991), Buela-Casal y Caba- llo (1991), etc.) y algún libro de psicología educativa (por ejemplo, Woolfolk y McCune, 1980; Beltrán et al., 1987; etc.). Sobre análisis funcional de la conducta véase Segura, Sánchez y Barbado (1991).

Manuales útiles sobre biofeedback son los de Carrobles y Godoy (1987), Villanueva (1988) y Simón (1989: sobre aplicación a la re- habilitación física). Una buena guía bibliográfica sobre este tema puede encontrarse en el número 14/15 de la revista Estudios de Psi- cología ("Guía documental del biofeedback", pp. 151-165, 1983).

(3)

1. DESCRIPCIÓN Y TIPOS DE PROCEDIMIENTOS 1.1. Definición e historia

El condicionamiento instrumental se considera el segundo tipo de aprendizaje asociativo predictivo y consiste en aprender a predecir sucesos derivados de nuestras acciones, aprender por las conse- cuencias de la acción, por ello Tarpy (1981) lo considera un "aprendizaje de respuestas": aprender a hacer o no hacer cosas en función de las consecuencias que estas acciones tienen para el mismo organismo.

El descubrimiento científico de este tipo de aprendizaje tiene lugar a finales del siglo XIX. Aunque algunos de los principios del condicionamiento instrumental ya aparecen en las observaciones del psicólogo británico C. Lloyd Morgan en 1894 (conductas de “ensayo y error” observadas en su perro), es sólo cuatro años después cuando se describe más sistemáticamente. En efecto, en 1898 Thorndike publicó un libro titulado Inteligencia animal (1898), donde expone los resultados de su tesis doctoral sobre experimentos con animales en situaciones de cajas-problema (ver Figura 1).

En uno de estos experimentos, un gato hambriento era introducido en una jaula que disponía de una especie de palanca para abrir la puerta; fuera de la jaula había comida, de modo que el animal tenía que aprender a abrir la puerta para conseguirla; una vez que por ensayo y error el animal lograba abrir la jaula y comer, en sucesivas ocasiones esta acción era realizada con mayor rapidez. La Figura 2 ilustra esta situación.

Figura 1: Dibujo esquemático de una caja-problema como la de Thorndike.

Thorndike utilizó como variable dependiente el tiempo para escapar de la jaula (definición opera- cional de aprendizaje) y como variable independiente los ensayos. La curva de aprendizaje fue gradual y ondulada (ver Figura 2) y con escasa evidencia de comprensión del problema (insight) en los prime-

Figura 2: Curva de aprendizaje en las cajas-problema de Thorndike.

Tiempo requerido para escape (segs.)

Ensayos sucesivos en la caja-problema

(4)

ros ensayos. Sin embargo, después de 30 ensayos, los gatos presionaban la palanca tan pronto como eran colocados en la caja. Thorndike concluyo que los animales aprendían por "ensayo y error".

En 1911, le dio una interpretación teórica a estos hallazgos empíricos proponiendo la que deno- minó "Ley del Efecto", tanto en sus versiones positiva como negativa:

- La ley del efecto positivo postula que se puede conseguir una conexión entre una situación ambiental y una acción del sujeto siempre y cuando esa acción proporcione consecuencias satisfactorias o agra- dables. Esta asociación entre situación, respuesta y consecuencia satisfactoria tiene el efecto de aumentar la probabilidad de respuesta. Dicho más brevemente, cuando una acción va seguida de una recompensa tiende a repetirse.

- La ley del efecto negativo dice que cuando las consecuencias son desagradables para el sujeto, en el futuro tenderá a disminuir esa respuesta. Esta ley, que básicamente hace referencia a lo que técnica- mente llamamos "castigo" (ver Tema 5), fue inicialmente propuesta como simétrica a la anterior, pero fue retirada por el propio autor al no cumplirse en ciertas condiciones.

El siguiente momento importante se da con Skinner y sobre todo a partir de la publicación de su primer libro La conducta de los organismos (1938). De hecho, como dice Cruz (1989, p. 161), "la con- tribución de Thorndike empezó a ser plenamente reconocida unos treinta años después de la presenta- ción de su tesis doctoral, cuando Skinner la enmarcó dentro de un cuerpo teórico más amplio". Como señala Mackintosh (1983), fue Skinner (1938) quien estableció la diferenciación entre dos tipos de aprendizaje mediante condicionamiento: uno regido por el principio de sustitución (el condiciona- miento pavloviano) y otro gobernado por la ley del efecto (el condicionamieto instrumental). Skinner los denominó, respectivamente, condicionamiento respondiente y operante.

Se inaugura así un nuevo enfoque en el condicionamiento instrumental en cuanto a método y teoría.

Skinner parte de un conductismo radical, por el cual sólo se pueden estudiar las conductas observables y las relaciones funcionales entre la situación previa o antecedentes y la situación posterior o conse- cuentes de la conducta. Obviamente en este esquema sobre lo "mental" es innecesario para explicar la conducta y el aprendizaje; además, la conexión mental entre estímulos y respuestas tampoco se puede observar y con ello no se puede hablar de "finalidad" de una conducta. Conducta "instrumental" alude a esa finalidad inobservable y por ello prefiere la denominación de condicionamiento operante por- que lo que se aprende es una operante o respuesta que opera sobre el medio. No es instrumental, pues no se sabe o no se puede observar su finalidad.

Así pues, el condicionamiento operante no se debe confundir con el condicionamiento instrumental: el operante es el desarrollo skinneriano del condicionamiento instrumental. El condicionamiento operante define el refuerzo en función de la tasa de respuestas que consigue, y no en función de la "sa- tisfacción" que produce. Con esta diferenciación, Skinner pretende evitar cualquier presuposición acerca de lo que puede constituir o no un reforzador, de lo que a priori parece bueno o malo para el sujeto. Por ejemplo, cuando un niño actúa de forma traviesa puede que sus padres le riñan y llamen la atención continuamente para que deje de comportarse así, presuponiendo que la riña es un castigo para el niño; sin embargo, aunque en algunos momentos y para algunos niños pueda ser así, quizá en este caso particular las reprimendas sólo consigan que el niño siga comportándose de forma traviesa, e incluso que sea más travieso todavía (puesto que el niño persigue que le presten atención, independientemente de que sea con reprimendas o sin ellas), con lo que en realidad se le está reforzando y no cas- tigando. En definitiva, desde un punto de vista skinneriano, en este caso la riña es un reforzador para la conducta traviesa puesto que aumenta la frecuencia de la misma¹.

1Recuérdese lo que dijimos en el Tema 2 acerca del término refuerzo. Como vimos, este término puede emplearse para aludir a cualquier estímulo que, siguiendo al EC (el el caso del condicionamiento clásico) o siguiendo a una conducta (en el caso del condicionamiento ins- trumental) fortalece (refuerza) el aprendizaje. Desde este punto de vista, un estímulo aversivo y uno apetitivo son ambos refuerzos. Sin embargo, en el contexto del condicionamiento instrumental, lo más habitual es reservar el término refuerzo para los estímulos apetitivos (que son los que refuerzan la conducta) y emplear el término castigo para los estímulos aversivos (que disminuyen la conducta).

(5)

Siendo el aprendizaje el tema central del conductismo, el condicionamiento instrumental fue desde su aparición el tipo de aprendizaje más estudiado, relegando al CC (de hecho, el CC fue utilizado por Watson en un ámbito más bien teórico) ante el gran interés práctico despertado por el condicionamien- to instrumental, sobre todo desde Skinner y a partir de los años 30.

El desarrollo aplicado del condicionamiento instrumental ha sido uno de sus logros más destacados y relevantes, con métodos objetivos y cuantificables, con el planteamiento de principios y leyes que siempre apelan a la actividad o conducta observable. La investigación y la tecnología que ha generado el condicionamiento instrumental ha sido considerable; la bibliografía, especialmente sobre condicionamiento operante, es también amplísima (programas de refuerzo, control de estímulo, etc.); además, ha desarrollado una tecnología que ha tenido éxito en muchísimas aplicaciones: se modifican conductas y se obtienen aumentos y decrementos en la tasa de respuestas en distintos ámbitos e incluso con consecuencias de tipo político, sociocultural e ideológico (vease la célebre novela de Skinner Walden dos). En determinadas condiciones, el control sobre la conducta que pueden ejercer estas técnicas es considerable. De ahí la configuración de toda una especialidad denominada Análisis Aplicado de la Conducta (véase Baer, 1982, para revisión) o Ingeniería Conductual o Tecnología conductual.

Sin embargo, este enfoque conductista no ha podido profundizar en los procesos mentales del aprendizaje hasta la reciente aportación de las teorías cognitivas del aprendizaje animal, centradas en los procesos y los contenidos mentales del aprendizaje. Según este nuevo enfoque, el sujeto aprende a tener expectativas sobre las posibles consecuencias de su acción, de modo que la respuesta dada en un determinado contexto predice una consecuencia: la aparición de un evento significativo para el sujeto (por ejemplo, el refuerzo).

En el condicionamiento instrumental, el resultado principal que se logra con esta práctica es la ad- quisición de dos tipos de asociaciones:

- asociación entre la conducta y su consecuencia (asociación respuesta - consecuencia o R-C).

- asociación entre un estímulo y el compuesto respuesta-consecuencia (E-[R-C])

Se trata pues de la asociación entre la acción del sujeto y las consecuencias de dicha acción, produ- ciendo así una asociación R (respuesta) - C (consecuencia). También es importante la asociación entre la si- tuación ambiental que existe al emitir la respuesta (ambiente o contexto en el que ocurre la acción) y la misma asociación E (estímulo) - R. Para Rescorla (1991), además de estas asociaciones R-C y E-R, lo fundamental es la asociación entre E y el conjunto R-C, o sea, E - (R-C), una asociación jerárquica que requiere un proceso de adquisición en dos fases: primero asociar R y C, y después asociar E al conjun- to R-C.

Así pues, la propia acción del sujeto es aquí lo importante, pues según lo que hacemos y las conse- cuencias que eso tiene, así actuaremos en el futuro. También es importante el contexto en el que ocurre la acción: determinados estímulos del ambiente se condicionan a la acción, de modo que se convierten en señal para actuar.

PorDesarrollemos ahora el ejemplo de condicionamiento instrumental presentado anteriormente (Tema 3, apartado 1). Como se recordará, hablamos de un perro al que su amo golpeaba con un perió- dico cada vez que se subía al sillón del comedor. Podemos decir que el animal ha adquirido el condicionamiento cuando aprende la relación que existe entre una de sus conductas (subirse al sillón) y el estímulo que lo sigue (el golpe con el periódico), esto es: cuando aprende la relación R-C. Comoquiera que el golpe es un estímulo aversivo desagradable para el animal (es un castigo), el cambio conductual derivado del condicionamiento es que el animal deja de subirse en el sillón (o lo hace menos frecuentemente). Imaginemos ahora que el dueño del perro sale todas las mañanas a trabajar y deja al perro solo en la casa; en este caso, el perro podrá subirse al sillón tranquilamente a pelechar a sus anchas sin recibir castigo alguno. La presencia del amo en la casa, por lo tanto, puede actuar como un estímulo discriminativo: el animal sólo recibe el castigo al subirse al sillón cuando el amo está presente, apren-

(6)

de la relación E-[R-C] y, por lo tanto, sólo evitará el sillón en presencia de su dueño (en este ejemplo, E = amo, R = subir al sillón, C = golpe con el periódico -castigo-).

1.2. Operación experimental y fases del experimento básico

Cuando se investiga en laboratorio, la operación experimental básica del condicionamiento instrumental, es decir, la fórmula que lo rige, es del tipo E-R-E, donde el primer estímulo o grupo de estímu- los son los antecedentes -el contexto o el estímulo discriminativo-, en presencia de lo cual ocurre una respuesta voluntaria del sujeto, y tras ésta aparece una consecuencia o evento significativo (apetitivo o aversivo).

El procedimiento para lograr la adquisición mediante condicionamiento instrumental tendría las siguientes fases:

I) El sujeto se halla inmerso en una situación determinada -que contiene una serie de estímulos am- bientales²- en la cual está realizando actividades -relacionadas o no con los estímulos-. En esta fase, los estímulos y las respuestas se consideran independientes entre sí.

II) Una de dichas actividades debe producir una consecuencia significativa (C)³ para el sujeto (si la consecuencia es positiva la denominaremos refuerzo, E_ref, si es negativa, castigo). De este modo se produce la secuencia: E - R - C.

III) La fase anterior se repite varias veces.

IV) Siempre y cuando E - R - C se haya repetido varias veces, el sujeto se encuentra con que R tiene consecuencias significativas y otras respuestas no las tienen; si la consecuencia de R es positiva, se producirá un aumento en la probabilidad de ocurrencia de dicha respuesta y no de las demás, in- cluso aunque no aparezca siempre el refuerzo o consecuencia. Si la consecuencia es negativa, se producirá una disminución de la probabilidad de ocurrencia de R.

Con ratas, el procedimiento típico de laboratorio para la adquisición de respuestas instrumentales se suele realizar en la Caja de Skinner (ver Figura 3) y tiene varias fases. El Cuadro 1 (adaptado de la descripción de Cruz, 1989, p. 162) nos lo ilustra.

Cuadro 1: Fases del procedimiento standard de laboratorio para el condicionamiento instrumental en ratas

- Fase de preparación del animal: Se escoge una rata de tres meses, durante una semana se pesa diariamente y se le da la comida que requiera; después se le da menos comida y cuando pierda un 20% de su peso ya se puede comenzar la siguiente fase.

- Adaptación a la caja de Skinner: En las primeras sesiones, el animal emite diversas conductas pero hay una baja fre- cuencia de la conducta objetivo consistente en apretar la palanca. Se anota el nivel operante o línea de base de frecuen- cia de respuestas antes de iniciar el entrenamiento.

- Adaptación al sonido del comedero (magazine training): Se hace coincidir repetidas veces la emisión de un sonido con la aparición de bolitas de comida en el comedero (el animal aprende así cuándo hay comida, y el sonido se convierte en E^D)

- Elección de una respuesta: Cuando se emita la conducta objetivo (apretar la palanca) entonces se proporciona el refuer- zo (bolitas de comida). Se observará un incremento en la frecuencia de respuesta.

2Téngase en cuenta que esos "estímulos ambientales" ya afectan de por sí al sujeto en mayor o menor medida. Pueden ser aversivos (ruido intenso, frío, calor, etc.), sólo molestos, indiferentes o agradables.

3Esta consecuencia significativa de la acción suele tener relación también con la estimulación ambiental; por ejemplo, cuando la estimula- ción previa es aversiva y la acción logra que cese dicha estimulación aversiva.

(7)

Figura 3: Fotografía de una caja de Skinner actual (con un lateral abierto para poder ver el interior).

Cuando se ha establecido un CI reforzando una R, para que disminuya o desaparezca esta respues- ta, es decir, para que se produzca la extinción, el procedimiento principal consiste en no presentar el refuerzo tras la respuesta; esta ausencia de refuerzo tiene que ocurrir durante mucho tiempo y en todas las ocasiones en que se produzca la respuesta. La consecuencia observada tras la aplicación de este procedimiento es la disminución de la tasa de la respuesta (además de otros efectos descritos en el capítulo siguiente).

1.3. Elementos (estímulos y respuestas) principales

a) Consecuencias o eventos significativos

Son los eventos que aparecen contingentemente⁴ a la respuesta (tras la respuesta, como consecuen- cia de la respuesta y sólo si se da la respuesta). Son significativos porque tienen algún valor motiva- cional o informativo para el sujeto y son equiparables al EI del CC. Pueden ser de tipo apetitivo o agradable (refuerzo) o de efecto desagradable o aversivo (castigo). La Tabla 1 esquematiza todo esto.

En cualquier caso, al ocurrir este evento significativo tras la respuesta siempre tendrá un efecto futuro sobre ella pues conseguirá elicitarla aumentando, manteniendo o disminuyendo su tasa (número de respuestas en un determinado tiempo).

4En aprendizaje, el término 'contingente' (que encontramos habitualmente en los manuales de condicionamiento en castellano pero traduci- dos del inglés) tiene un significado técnico diferente al uso cotidiano o incluso filosófico. Según el Diccionario de uso del español de Mar- ía Moliner (1986), 'contingente' "se aplica a las cosas que pueden suceder y no suceder: no seguras o no necesarias". 'Contingente' es pues

"no necesario" y, sin embargo, en aprendizaje es justo lo contrario. El problema tal vez radica en una mala traducción del inglés. En efecto, 'contingency', que es el término inglés del cual se ha traducido, tiene el mismo significado (eventualidad, algo fortuito), pero 'contingent on' o 'contingent upon' es "dependiente de" y esto es precisamente lo que ocurre en aprendizaje instrumental: la aparición del refuerzo (B) de- pende de la elicitación de la respuesta (A). Hay una relación condicional del tipo "Si A entonces B". Así pues, cuando leamos "contingen- temente a la respuesta" deberemos entender dependiendo de la respuesta.

Palanca Señal luminosa

Dispensador de comida (recompensa)

Suelo de parrilla

(8)

Tabla 1: Descripción de tipos de consecuencias de la respuesta en el condicionamiento instrumental.

Tipo de consecuencia Acción Denominación

Consecuencias positivas (refuerzos)

Presentación de un estímulo apetitivo refuerzo positivo Cese de una estimulación aversiva refuerzo negativo Consecuencias negativas

(castigos)

Presentación de un estímulo aversivo castigo por aplicación Cese de una estimulación apetitiva castigo por supresión

b) Respuesta instrumental

Es la que se produce con este procedimiento y es distinta a la respuesta del CC, ya que no es una respuesta refleja, sino que es una actividad generalmente de tipo voluntario (regida por la musculatura estriada -excepto en el biofeedback o condicionamiento instrumental de respuestas vegetativas o auto- nómicas-). Es cualquier conducta que le permite al sujeto manipular, influir o interactuar con el ambiente; son pues actividades funcionales o instrumentales para el sujeto (coger un libro, abrir una puerta, prestar atención, hablar, etc.).

En el condicionamiento instrumental lo importante que se adquiere no es la respuesta (hay muchas respuestas tales como presionar una palanca, mover una mano o un brazo, que ya figuraban en el repertorio de respuestas del sujeto) sino emitirla en el momento adecuado, o incrementar o disminuir su frecuencia: por tanto se aprende a realizar conductas "prácticas", o sea, acciones deliberadas que resul- tan funcionales para conseguir algún tipo de reforzador (la conducta es un instrumento, un medio para lograr algo, con lo que opera sobre el medio por las consecuencias que obtiene de ello). Además, la respuesta instrumental ha de ser pertinente y relevante para el organismo que ha de ejecutarla, es decir, tiene que ser factible y no sobrepasar los límites biológicos de la especie, o dicho de otro modo, estar incluida dentro de las respuestas naturales y biológicamente posibles para la especie. De lo contrario, por mucho refuerzo que se le proporcione al sujeto, no estará en disposición de realizar la conducta.

c) Estimulación o situación antecedente a la conducta

En el paradigma del condicionamiento instrumental, la situación en la que ocurre la conducta tiene una misión señalizadora al estilo del EC: Los repetidos emparejamientos de la situación con las respuestas seguidas de consecuencias significativas provocan que en el futuro, cuando aparezca dicha si- tuación antecedente será más probable que se suscite la respuesta instrumental, pues será la señal que activa en el sujeto la expectativa de obtener algo favorable si realiza la respuesta. Expresado metafóri- camente, la situación antecedente es como el “gatillo” que detona la conducta cuando el objetivo (reforzador) es asequible.

Pero hay varios tipos de situaciones antecedentes y cada una tendrá un efecto distinto sobre la res- puesta:

- Un primer tipo es la situación ambiental en general, que es el contexto presente en el momento de emitir la respuesta. En este caso, la respuesta es relativamente independiente de la situación.

- Un segundo tipo es la situación de estímulo discriminativo (E^D), que es aquella en que la respuesta es reforzada en presencia de dicho estímulo (y no aparece refuerzo cuando la respuesta no ocurre en presencia de éste). Es por tanto, un estímulo señal más específico que la situación ambiental y similar al EC⁺ del condicionamiento clásico, pero con la diferencia de que en este caso no predice al EI sino al par R-C (respuesta-consecuencia).

- Y el tercer tipo sería el estímulo "delta" (E ), que es aquel en cuya presencia nunca es reforzada la respuesta. El E será señal para el sujeto de que no va a aparecer un evento significativo tras su respuesta (y, por tanto, tiende a no hacerla). Como vemos, es similar al EC^- del condicionamiento clási- co y su resultado más frecuente será la extinción de la respuesta instrumental.

(9)

Los estímulos discriminativos tienen también gran importancia en contextos aplicados, hasta el punto que el aprendizaje fundamental radica no tanto en la respuesta como en percibir el estímulo discriminativo con la suficiente destreza como para que sirva de señal para la respuesta. Por ejemplo, en el aprendizaje inicial de la lectura, al niño se le pone delante un símbolo gráfico escrito (E^D) ante el cual tiene que emitir una respuesta determinada (su pronunciación); si lo logra habrá una consecuencia positiva (elogios por parte del profesor, etc.) y un afianzamiento o automatización de la asociación E^D- R. Esa respuesta tiene que situarse pues bajo el control del estímulo. ¿Cómo conseguir situar la res- puesta bajo el control del estímulo correspondiente? Se trata de conseguir que el niño dé, por ejemplo, la respuesta "E" (sonido) cuando vea el estímulo escrito "E"; para ello las técnicas de discriminación y control de estímulos (véase Tema 5) podrían ayudar considerablemente: primero se empieza con instrucciones verbales o con imitación, etc.

Siguiendo el ejemplo y para precisar los conceptos anteriores, la situación ambiental o contexto general en el que se da el estímulo discriminativo podría ser el aula de clase, mientras que un estímulo delta para, por ejemplo, la respuesta de pronunciar el fonema “P” sería el grafismo “B” o cualquier otro distinto al grafismo “P”, el cual es el estímulo discriminativo. Así pues, en el aprendizaje instrumental, no basta sólo con dar respuesta para conseguir algo, sino también dar la respuesta adecuada precisamente en determinada situación.

1.4. Procedimientos y técnicas experimentales para la adquisición de la res- puesta instrumental

1.4.1. Medida de la respuesta instrumental

Los procedimientos y técnicas conductuales típicos inciden básicamente en lograr una variación significativa en la frecuencia o tasa de la respuesta instrumental.

La medida o variable dependiente más utilizada suele ser la tasa de respuesta, es decir, el numero de veces que se repite una respuesta durante un período de tiempo concreto o específico. Hay alguna otra medida como puede ser la latencia de respuesta, que se usa cuando se especifican estímulos ante- cedentes y sería el tiempo transcurrido desde que el sujeto se introduce en una situación determinada hasta que da la respuesta o, lo que es lo mismo, desde que aparece el E^D hasta que da la respuesta.

En el contexto experimental, la tasa de respuesta dentro de cámaras operantes tales como la "Caja de Skinner" o la "caja de saltos", se suele medir mediante instrumentos de registro acumulativo, dispo- sitivos bastante automatizados que liberan al experimentador, entre otras, de la tarea de anotar el número de respuestas dadas por el sujeto. El registro acumulativo mide no sólo la tasa de respuesta media después de un tiempo determinado de exposición al ambiente, sino también permite registrar la velocidad de variación de la tasa de respuesta desde el principio del ensayo hasta el final. Como se puede apreciar en la Figura 4, al representar gráficamente la acumulación de respuestas a lo largo del tiempo, permite tener una apreciación visual de dichas tasas.

Figura 4: Esquema del registro acumulativo utilizado en los experimentos de condicionamiento instrumental.

(10)

1.4.2. Técnicas de adquisición rápida de la respuesta instrumental

En una situación experimental de Caja de Skinner hay que esperar a que el animal emita la respuesta objetivo para que se administre refuerzo y haya por tanto la posibilidad de que se incremente su frecuencia. Esta espera se puede acortar mediante el procedimiento de moldeamiento o aproximaciones sucesivas.

a) Moldeamiento o técnica de aproximaciones sucesivas

El moldeamiento (shaping) o técnica de aproximaciones sucesivas se define, en palabras de Cruz (1989, p. 164), como "la consecución gradual de una conducta final o comportamiento meta, que no existe en el repertorio de respuestas de un organismo o que se emite con una baja probabilidad".

A lo largo de la sesión se va aplicando un refuerzo diferencial y progresivo de las conductas que más se aproximan o se parecen a la respuesta objetivo. La respuesta que es reforzada inicialmente deja de reforzarse cuando el animal realiza una respuesta más próxima al objetivo la cual es reforzada y así sucesivamente. Así, en una situación de caja de Skinner, la conducta objetivo que queremos que aprenda la rata es la de apretar la palanca. Como eso es difícil que ocurra al principio, lo que se hace es reforzar conductas de acercarse a la zona donde está la palanca; una vez que logramos esa conducta, dejaremos de reforzarla si el animal da un paso más y roza la palanca, en cuyo caso reforzaremos sólo esa conducta. Cuando presione con fuerza la palanca (conducta objetivo) sólo reforzaremos esta conducta y no la de mero roce de la palanca.

En humanos, según Fernández Castro (1993, p. 208), el moldeamiento se aplica siguiendo cuatro pasos:

1. La especificación clara del objetivo final que se pretende conseguir. Es decir, qué se debe hacer, cuándo y cómo.

2. La determinación del nivel inicial del sujeto o punto de partida. El nivel inicial consiste en la conducta más parecida a la del objetivo final que ya sepa realizar el sujeto. No importa que este nivel inicial esté muy alejado del final, lo importante es que sea una conducta bien adquirida y habitual.

3. El establecimiento de pasos graduales que vayan desde la conducta inicial hasta la conducta final.

4. La aplicación del moldeamiento, mediante el reforzamiento de las aproximaciones sucesivas. Esto consiste en reforzar el paso siguiente al punto en el que se halla el sujeto; cuando éste se ha adquirido, se refuerza solamente el paso siguiente pero no el que ya se ha su- perado, y así sucesivamente.

Fuera del ámbito experimental, esta técnica ha sido muy utilizada para instaurar conductas nuevas.

En contextos aplicados la encontramos como técnica de doma y adiestramiento de animales (adiestra- dores y domadores de circo); en humanos, profesores de educación especial, reeducadores, etc., con el objeto de conseguir diversas conductas nuevas, por ejemplo, nuevas destrezas motrices en contextos deportivos y de educación física, respuestas asertivas en el ámbito de las relaciones sociales, etc.

Como técnica experimental de adquisición rápida de operantes presenta dos problemas, según Cruz (1989):

1) Exige la presencia y atención activa del experimentador así como una gran habilidad por su parte para ir variando el criterio de refuerzo.

2) Además puede ser un método lento.

En cualquier caso, resulta una técnica muy frecuentemente utilizada. Nótese el ejemplo de un chico con una conducta social bastante inhibida y que sin embargo pretendemos estimular; si esta inhibición conductual se debe al escaso poder reforzante que para este chico tiene el contacto social habrá que es- tablecer reforzadores complementarios y apetecibles para él (el sujeto está dotado de las habilidades sociales necesarias pero no existe suficiente refuerzo para activarlas), pero si la inhibición se debe más bien a una falta de habilidades sociales, éstas deberán ser moldeadas (tomando forma) mediante el reforzamiento de las mejoras progresivas en la habilidad. En este último caso se trata por tanto de cons- truir una respuesta nueva en el repertorio del sujeto.

(11)

b) Automoldeamiento

También denominada técnica de seguimiento de señal, es un procedimiento de condicionamiento clásico (véase Tema 3, aptdo. 3.5.3) que puede servir para la adquisición de condicionamiento instrumental. En el contexto de éste último, permite una mayor automatización y estandarización experimental y requiere una respuesta específica ante un estímulo relevante. Recordando lo ya tratado en el Capítulo 3, se trata de un procedimiento experimental elaborado por Brown y Jenkins (1968) aplicado principalmente en palomas. En el procedimiento original, en un dispositivo tipo caja de Skinner se había dispuesto en una pared un disco que el animal podía picotear y que se iluminaba por dentro durante 8 segundos. Al final de los 8 segundos aparecía el refuerzo, consistente en bolitas de comida. El disco permanecía iluminado el tiempo prefijado y el refuerzo aparecía independientemente de que lo picara la paloma. Esta situación se repetía a intervalos regulares y se observaba, tras unos 40 o 50 ensayos, un rápido aumento de la conducta de picotear el disco que se iluminaba.

Pero su interés no sólo es metodológico (una técnica para acelerar experimentalmente la adquisi- ción de respuesta) sino también teórico, siendo fuente de discusiones teóricas sobre las distinciones entre condicionamiento clásico e instrumental.

En efecto, el automoldeamiento parece una situación de condicionamiento clásico pues la ilumina- ción del disco (EC) va seguida de la aparición de comida (EI). Pero con el entrenamiento se añade rápidamente una situación instrumental de estímulo discriminativo-respuesta-estímulo reforzante (E^D- R-C). Además, se observó que los animales no podían aprender a inhibir la respuesta de picotear mediante entrenamiento de omisión (no aparición de refuerzo al final del estímulo discriminativo sino en otros momentos) y que la relación se aprendía aunque el disco estuviera situado lo más lejos posible del dispensador de comida. Hay dos tipos de explicaciones a la eficacia del procedimiento:

- La respuesta nueva que aparecía era la respuesta natural ante el refuerzo: el picoteo ante la comida.

De hecho, el picoteo era distinto según se tratase de bebida o comida.

- La contingencia entre el EC (iluminación) y el refuerzo es crítica para que se incremente la respuesta en cuestión.

1.4.3. Métodos de estudio en humanos

Las técnicas más frecuentes de estudio del aprendizaje instrumental en humanos han incluido diversas condiciones y tipos de refuerzo. Según Fernández Castro (1993, p. 193), se distinguen dos tipos de estudio: en laboratorio y en contextos naturales.

- En laboratorio: Los tipos de respuesta más comunes son motrices, perceptivas y verbales. Los tipos de refuerzo más empleados van desde refuerzos sociales tales como la aprobación o desaprobación (ya utilizado desde Thorndike), pasando por la obtención de algún tipo de conocimiento de resulta- dos, información o feedback (saber que se ha realizado correctamente la tarea) o incluso la obtención de puntos canjeables por dinero u otro beneficio.

- En contextos naturales: Se siguen dos pasos:

1º, identificar la respuesta o conducta objeto de estudio.

2º, registrar el número de veces que se da dicha respuesta, los antecedentes o estímulos discriminativos ante los cuales ocurre y los consecuentes (refuerzos, consecuencias punitivas, etc.) de la mis- ma. En definitiva, lo que conocemos como el análisis funcional de la conducta.

Estos son los dos primeros pasos de lo que en contextos aplicados se denomina evaluación conduc- tual, los cuales a su vez sirven para proseguir posteriormente el tratamiento de modificación de con- ducta.

(12)

Otro procedimiento típico en humanos es el de estudios con juicios de contingencia. Por ejemplo, en Shanks y Dickinson (1991), se le presenta al sujeto en pantalla de ordenador una especie de video- juego: un tanque va cruzando la pantalla y el sujeto puede dispararle (R); el tanque puede explosionar (consecuencia) por los disparos del sujeto [p(C/R)] o por causas no relacionadas con la conducta del sujeto (por minas en el suelo) y por tanto p(C/no R). Finalmente se le pide al sujeto que juzgue la efectividad de sus disparos; los resultados son que ajustarán sus juicios según la contingencia real progra- mada por el experimentador.

1.5. Clasificación de tipos de procedimientos

Existen varias clasificaciones de procedimientos de condicionamiento instrumental. Todas ellas están basadas en las principales condiciones que hacen posible este aprendizaje y que se refieren a:

- Condiciones que afectan a las consecuencias de la respuesta (positivas o apetitivas y negativas o aversivas)

- Condiciones de la relación respuesta - consecuencia (contingencia R-C y probabilidad R-C), que puede ser de contingencia positiva (la R produce la consecuencia), negativa (R elimina la consecuencia que se venía teniendo) y no contingencia.

- Condiciones antecedentes a la respuesta (presencia o ausencia de estímulos discriminativos).

Según esto, hemos seleccionado tres clasificaciones:

1.5.1. Según el tipo de consecuencia y según la contingencia R - consecuencia

A partir de esquemas de clasificación como los de Tarpy (1981), hemos elaborado una clasifica- ción que desarrolla detalladamente el tipo de consecuencia y el tipo de relación R – C en el condicionamiento instrumental (véase la Tabla 2).

Tabla 2: Tipos de condicionamiento instrumental en función de los tipos de consecuencias y del tipo de relación R-C.

C O N S E C U E N C I A S / r e s u l t a d o s P O S I T I V A S (apetitivas)

Resultados de adquIsIcIón de R

N E G A T I V A S (aversivas) Resultados de extIncIón de R Por aplicación

(ref. positivo)

Por cese de estimulación aversiva (ref. negativo)

Por aplicación

Por cese del reforzador

Relación de contingencia R - C

SI positiva Condicionamiento de recompensa

- Castigo

(castigo positivo)

-

Sí negativa - Escape

Evitación

- Entrenamiento

de omisión (castigo negativo)

NO - - Indefensión

aprendida

-

Según esta clasificación, los tipos resultantes son los siguientes:

Cuando a la respuesta le sigue la consecuencia, tenemos el condicionamiento de recompensa, el escape, la evitación y el castigo:

- En el condicionamiento de recompensa, tras la respuesta aparece un evento apetitivo (refuerzo) y por tanto aumenta la tasa de respuesta (se estudia más adelante).

- En el escape, si actuamos desaparece algo desagradable. En la evitación actuamos antes de que aprezca lo desagradable. La evitación implica una primera fase en que un E^D es emparejado inicialmente con la estimulación aversiva y una segunda en que sólo se presenta el E^D; en cualquier caso, la

(13)

respuesta impide la exposición al E^D aversivo en la evitación, y a los estímulos aversivos en el esca- pe, lo cual supone una consecuencia positiva por cese de estimulación aversiva. En esta situación se trata de un refuerzo negativo: refuerzo por hacer aumentar la tasa de respuesta y negativo porque su- pone un cese de estimulación, en este caso aversiva. Es decir, el refuerzo, por definición, siempre hace aumentar la probabilidad de la conducta y supone una consecuencia apetitiva; el ser positivo (como en la recompensa) o negativo (como en la evitación y el escape) se refiere a que se produzca por aplicación (por ejemplo, dar dinero) o por supresión (por ejemplo, levantar un arresto), respectivamente.

- Sin embargo, en el castigo se aplica estimulación aversiva tras la respuesta y con ello disminuye su tasa. Hay dos tipos de castigo según el tipo de consecuencia negativa: castigo por aplicación (si es estimulación aversiva directa, como en el caso del castigo físico) y castigo negativo o por supresión, también entrenamiento de omisión (si la consecuencia es la supresión de un reforzador, como dejar- nos sin postre); en este caso puede aparecer el refuerzo en otros momentos o con otras respuestas, pe- ro nunca tras R; este procedimiento se denomina reforzamiento diferencial de otra conducta (RDO).

Cuando la consecuencia no es contingente, es decir, cuando el hecho motivacionalmente significa- tivo ocurre pero sin contigüidad con R, tenemos la indefensión aprendida, en la cual la estimulación aversiva independientemente de su conducta. Nótese que en este caso sí hablamos de una auténtica ausencia de contingencia entre la respuesta y su consecuencia, mientras que en el entrenamiento de omi- sión se trata en realidad de una relación negativa entre la respuesta y la consecuencia, más que de una no-relación.

1.5.2. Según la probabilidad R-C o intermitencia del refuerzo

Otro criterio de clasificación, dentro de los casos de condicionamiento en que existe una relación de contingencia R-C, hace referencia a la probabilidad de aparición de consecuencia dentro de la fase de adquisición y en los sucesivos ensayos.

Cuando tenemos en cuenta tan sólo consecuencias positivas, surgen dos grandes tipos, a saber:

- El condicionamiento de recompensa continuo (se refuerza cada respuesta ), y

- el condicionamiento de recompensa parcial, en el que se intercalan ensayos R - no C y ensayos R - C, es decir, se refuerzan sólo algunas respuestas, con arreglo a algún criterio o programa de re- fuerzo. Según el programa de refuerzo que se establezca, la variación en la tasa de respuestas será di- ferente, tal y como veremos en el próximo capítulo.

También puede darse diferente probabilidad R-C cuando las consecuencias son negativas. Es decir, se pueden aplicar programas de castigo cuando el estímulo aversivo contingente a la respuesta no se aplique siempre tras ella sino sólo en algunas ocasiones y según cada programa.

1.5.3. Según la estimulación antecedente

Dadas unas consecuencias positivas tras la respuesta, en la adquisición hay dos grandes tipos de condiciones antecedentes:

- Estímulos señal o discriminativos: Suponen una asociación del tipo E - (R-C) y un entrenamiento en discriminación o generalización hasta que el estímulo "controle" o active la respuesta. Se trata pues de aprender a realizar acciones precisas y que exijan lo que desde el ámbito aplicado se denomina

"coordinación sensorio-motriz", es decir, respuestas específicas tras señales específicas condiciona- das. A esta situación la podríamos llamar de condicionamiento instrumental señalizado y se expli- ca más adelante en esta obra.

- Contexto: Aquí no son precisas señales específicas sino sólo un contexto determinado para que se produzca la asociación R-C.

(14)

1.6. Comparacion entre condicionamiento clasico e instrumental

Hay bastantes autores que han investigado la posible relación entre estos dos tipos de aprendizaje e incluso se han realizado experimentos con procedimientos combinados de CC y CI. En los años 40-50 hubo una gran polémica en el ámbito teórico entre los que defendían que cada tipo de condicionamien- to implicaba un proceso diferente de aprendizaje -por ejemplo, la teoría biproceso del aprendizaje (Mowrer y otros)- y los que decían que había un proceso subyacente a los dos tipos de condicionamiento. La conclusión final fue que cada procedimiento de condicionamiento pone en juego distintos mecanismos de aprendizaje y de ellos algunos son comunes a los dos. Gray (1988; trad. cast. de 1993, p. 159) precisa un poco más esta conclusión: La relación entre ambos tipos de condicionamiento

“es un problema central y difícil de la teoría del aprendizaje. No obstante, se está de acuerdo en que, en principio, ninguno de estos dos procesos de aprendizaje puede ser reducido al otro, aunque ambos pueden reflejar algún mecanismo más general de aprendizaje, y que en parte la conducta está determinada por los dos”.

En concreto, en el CC se relacionan eventos ambientales o estímulos y con ello, el sujeto aprende a relacionar unos estímulos con otros, de modo que unos hagan de señal de otros activando expectativas de aparición de otros estímulos; por ello el CC parece estar más relacionado con los procesos perceptivos. También, la respuesta que se produce en el CC no es voluntaria sino refleja.

En el CI lo que se aprende es una relación, no entre eventos sino entre la propia acción y sus consecuencias en un contexto dado. El sujeto tiene que hacer algo para obtener una consecuencia, por tanto, es necesaria la existencia de los procesos perceptivos, pero en el CI van a ser más importantes los procesos de respuesta, de recuperación o actuación. En cualquier caso, habrá procesos o mecanismos co- munes porque inevitablemente serán necesarios los procesos de memoria y de representación del co- nocimiento (en el sujeto se almacena la información sobre la correlación entre eventos o entre acciones y consecuencias), etc.

Las diferencias no son tan tajantes como pretendían los neoconductistas; incluso hay cierta simili- tud en cuanto a los procedimientos citados en el CC y en el CI. Tarpy (1981) efectúa una nueva clasi- ficación de tipos de condicionamiento en la que relaciona tipos de CC con tipos de CI. Dicha clasifica- ción aparece en la Figura 5.

Según esta Figura, los condicionamientos se pueden distribuir en función de dos dimensiones:

- la dimensión vertical excitatorio-inhibitorio, sitúa los componentes excitatorios en la parte superior y los componentes inhibitorios en la parte inferior y

- en el eje horizontal apetitivo-aversivo, se sitúan a la izquierda los componentes apetitivos y a la dere- cha los aversivos o de evitación.

Hay un tercer elemento atribuible a los tipos de condicionamiento: el estado emocional y afectivo (emoción condicionada) resultante de la aplicación de los cuatro tipos de condicionamiento.

1.7. Procesos y cambios cognitivos

Al igual que en el condicionamiento clásico, también en este caso los procesos y cambios cognitivos implicados en situaciones de condicionamiento instrumental hacen referencia a mecanismos o procesos de formación de asociaciones entre eventos y contenidos asociativos.

1.7.1. Mecanismos o procesos relacionadores de eventos

Lo más estudiado en el condicionamiento de recompensa, igual que en el CC, son las condiciones y los procesos y resultados externos. Cuando se aprende en estas condiciones con un entrenamiento determinado se produce un cambio no sólo en la ejecución, sino también en el ámbito cognitivo y en dos sentidos:

(15)

- Se activan mecanismos capaces de asociar en el nivel interno los eventos de esta situación de condi- cionamiento; y

- Se forman interiormente unos nuevos contenidos del aprendizaje en forma de representaciones men- tales de algo nuevo, que no son otra cosa que representaciones asociativas de acciones y eventos re- lacionados.

Figura 5: Tipos de condicionamiento y emoción correspondiente según ejes excitatorio-inhibitorio y apetitivo-aversivo.

El primer mecanismo, al igual que en el CC, es de tipo fisiológico. En el nivel cerebral, las sensa- ciones provenientes de la acción realizada y de la consecuencia obtenida son asociadas por mecanismos como los de excitación neuronal, por ejemplo.

Otros mecanismos también son similares a los explicados en el CC: unos son capaces de formar ex- pectativas de relación entre la acción y la consecuencia (en la línea de Tarpy) y también hay otros me- canismos de relación causal entre eventos (en la línea de Dickinson). Los primeros mecanismos son fundamentalmente de memoria y hacen que la representación interna de la acción se relacione con la representación interna de la consecuencia (o sea, del refuerzo). Para los segundos se activa una repre- sentación mental con dos elementos: acción y refuerzo, la acción es la causa del refuerzo.

1.7.2. Contenido del aprendizaje: Representaciones asociativas

En el nivel externo, mediante el condicionamiento de recompensa se consigue un aumento en la ta- sa de respuestas. En el nivel interno o cognitivo decimos que se producen representaciones asociati- vas. De un modo similar al CC, en el condicionamiento instrumental se postulan parecidas representa- ciones. Citaremos dos teorías complementarias: La de representaciones declarativas y procedimentales de Dickinson (1980) y la de estructura asociativa jerárquica de Rescorla (1991).

EXCITATORIO

AVERSIVO APETITIVO O DE

APROXIMACIÓN

INHIBITORIO Emoción de:

FRUSTRACIÓN CC: Condicionamiento

inhibitorio apetitivo

CI: Entrenamiento de omisión

CC: Condicionamiento excitatorio apetitivo

CI: Condicionamiento de recompensa Emoción

de:expectativa positiva EXPECTATIVA POSITIVA

Emoción de:

ALIVIO O RELAJACIÓN CC: Condicionamiento

inhibitorio aversivo CI: Evitación y escape CC: Condicionamiento excitatorio aversivo

CI: Castigo

Emoción de:

MIEDO

(16)

a) Representaciones asociativas declarativas y procedimentales

En concreto, Dickinson explica el contenido de este tipo de aprendizaje de modo similar al CC, o sea mediante representaciones declarativas y procedimentales:

- En la representación declarativa el conocimiento se representa de forma equivalente a un enunciado o proposición que describe una relación entre hechos ("cuando aparece la palanca la pulso para obtener comida", en situación de caja de Skinner). La representación declarativa es una información que no necesariamente ha de utilizarse; es, en general, la relación abstracta entre acción y consecuencia.

Naturalmente, para que dicha representación sea efectiva y lleve a la acción son necesarios otros mecanismos internos que traduzcan ese conocimiento o información en acción, tales como los mecanismos efectores del sistema motor. Lo fundamental de la representación declarativa es que consiste en algo más general: Como es una información, va muy ligada a acciones concretas y pueden además integrarse otros elementos a la relación esencial entre la acción y la consecuencia, como pueden ser los estímulos discriminativos.

- Sin embargo, la representación procedimental se utiliza fundamentalmente para la acción y refleja directamente el modo en que el conocimiento o información adquirida durante el entrenamiento de condicionamiento de recompensa sirve para el control de la conducta del sujeto ("aprieto la palanca").

Dadas estas dos posibles representaciones, en el condicionamiento instrumental está claro que la representación más usual o predominante es la de tipo procedimental, en el sentido de activar programas motores para la realización de la respuesta. Pero también se da una representación de tipo declara- tivo. Dickinson ha establecido un modelo en el que se puede expresar la interacción de estos dos tipos de representaciones por medio de un diagrama de flujo, tal y como se observa en Figura 6.

Dickinson distingue entre lo que es la percepción del lugar donde debe darse la respuesta y la ac- ción misma o respuesta del sujeto. La percepción del lugar donde debe darse la respuesta es algo pare- cido a los estímulos antecedentes. Estos llegan al registro sensorial y penetran en la reserva de memo- ria y una vez que se ha familiarizado (después del entrenamiento) se asocian unos con otros así como con otros eventos tales como el refuerzo o la respuesta, formando redes o nexos asociativos. El sujeto tiene representado el lugar donde va a dar la respuesta (palanca) y, por otro lado, tiene representado el refuerzo y también la respuesta. Los nexos asociativos se establecen entre:

- la respuesta y la consecuencia (el refuerzo),

- el estímulo discriminativo y el refuerzo (nexo de tipo E-E) y, también,

- entre el estímulo discriminativo (visión de la palanca) y la respuesta (apretar la palanca) (nexo de tipo E-R).

Según Dickinson, el nexo asociativo E-R es de tipo procedimental, porque implica un procedimien- to y está ligado a la acción pues llega al sistema motor, a partir del cual surgirá la respuesta.

Figura 6: Modelo teórico de Dickinson sobre las representaciones asociativas en el condicionamiento (adaptado de Dickinson, 1980; trad.

1984, p. 154).

EC (tecla)

EI (comida)

EC

EI

R

picoteo Nexo

E-E Nexo

E-R

Registro sensorial

Reserva de

memoria Sistema

motor

Output conductual (picoteo de la tecla)

(17)

b) Estructura asociativa jerárquica

Estos nexos asociativos han sido matizados y ampliados recientemente por Rescorla (1991). Según este autor, en el aprendizaje instrumental lo que se forman son estructuras asociativas jerárquicas. No es correcto pensar que dicho aprendizaje sea un ensamblaje de asociaciones binarias de cualquiera de las tres posibles: E-R, R-C o E-C (E = estímulo antecedente, R = respuesta, C = consecuencia). No es simplemente que R produce C o que E señala esa C, sino más bien que E señala la relación entre R y C. Como dice Rescorla (1991, p. 6), el organismo representa la situación en la forma de una estructura asociativa jerárquica de modo que E termina asociándose con la relación R-C. Para ello, la adquisición de estas asociaciones necesita dos fases: Primero, el organismo aprende la relación R-C y, una vez aprendida, introduce una nueva asociación con E. Es por tanto una estructura asociativa E - (R-C). La Figura 7 contrapone estas dos concepciones: la incompleta de asociaciones binarias y la más adecuada de asociación jerárquica.

Según el enfoque conductista tradicional, la asociación principal que se hace en el aprendizaje instrumental es del tipo E-R. La consecuencia (C) tenía como misión el servir de "reforzador", ayudar a forjar esa asociación. Pero eso implica una asociación binaria simple E-R cuyo desarrollo depende también de la presencia de C. La estructura jerárquica de esta tríada de elementos es mucho más precisa e incluso sugiere una idea interesante que el mismo Rescorla se encarga de mencionar: la relación R-C puede entenderse como un asociado pavloviano de E. Es decir, el condicionamiento instrumental parecería así un tipo de condicionamiento clásico: El EC permanece igual (el hecho de que aquí lo llamemos "estímulo discriminativo", E^D, no implica diferencias conceptuales) y el EI, o sea el evento significativo (C en el aprendizaje instrumental), ahora va ligado a la acción, co-ocurre con ella.

Figura 7: Estructuras asociativas del aprendizaje instrumental: (a) binarias, (b) jerárquica según Rescorla (1991).

E

C R

C R E

(a) Asociaciones binarias (b) Asociaciones jerárquicas

(18)

2. CONDICIONES PARA LA ADQUISICION EN EL CONDICIONAMIENTO DE RECOMPENSA

Se pueden mencionar dos grandes condiciones generales del condicionamiento instrumental y tres específicas del condicionamiento de recompensa: el refuerzo, la situación motivacional y el tipo de respuesta.

2.1. Condiciones generales para la adquisicion

En este apartado vamos a analizar las condiciones para la adquisición de la respuesta y sus corres- pondientes efectos o resultados externos. Al igual que en el CC, los tipos de resultados externos son similares (adquisición, extinción, generalización y discriminación). Trataremos aquí las condiciones de adquisición y en el siguiente capítulo las de extinción.

2.1.1. Probabilidad de emparejamiento R-C: Correlación acción-consecuencia

Para conseguir un aprendizaje instrumental o, lo que es lo mismo, un cambio de conducta debido a las consecuencias de la propia conducta, es fundamental la correlación acción-consecuencia. Esta es similar a la correlación estímulo-consecuencia del CC, pero lo importante es no sólo que la respuesta vaya siempre seguida de una consecuencia favorable, sino que ese emparejamiento entre acción y consecuencia sea más probable o se dé más veces que dichos eventos por separado.

Tenemos aquí unos resultados similares a los del CC. El emparejamiento continuo o reforzamiento produce una tasa de adquisición más rápida que el parcial. La adquisición es posible si la probabilidad de ensayos emparejados (respuesta - consecuencia positiva, R-C⁺) es mayor que la de no emparejados:

p (R/C⁺) > p (R / no C⁺)

Esto también ocurre si se emplea refuerzo negativo como consecuencia, tal y como se observa en los paradigmas de escape y evitación (véase Tema 5).

Una diferencia con el condicionamiento clásico se da en la relación inversa, es decir cuando p (R/C⁺) < p (R / no C⁺)

El resultado debería ser la extinción, pero ello sólo ocurre con p (R/C⁺) = 0, es decir, si tras R nunca aparece el refuerzo puesto que si aparece alguna vez en el entrenamiento, aunque sea menor el número de veces que R va seguida de refuerzo que el de R no seguida del mismo, aún así se mantendrá la conducta (véase el apartado sobre programas de refuerzo en el siguiente capítulo).

2.1.2. Contigüidad temporal entre acción y consecuencia: La conducta supers- ticiosa

Aunque la contingencia es lo más importante, la contigüidad también tiene relevancia, hasta el pun- to que en determinadas circunstancias cualquier acción fortuita, por extraña que parezca, puede condi- cionarse si va seguida de una consecuencia muy favorable para el individuo. Tal es el caso de lo que denominamos "conducta supersticiosa".