Enfoque sintáctico: la teoría ACT de Anderson
FASES DEL PROCESOS RESULTADOS MECANISMO CONDICIONES APRENDIZAJE
DECLARACION
Interpretación por Formación de Copia de unidades No se procedimientos de redes de nodos cognitivas temporales especifican solución de problemas declarativos en la memoria
o analogías declarativa COMPILACION
Proceduralización Formación Transformación Práctica de producciones de los nodos
declarativos en producciones
con el conocimiento declarativo
Composición Fusión de varias Encadenamiento Contigüidad • producciones en de producciones (temporal o
una sola producción por asociación lógica) y repetición AJUSTE
Generalización Aumento del cam po Sustitución de Restricciones de activación de una constantes por en tiempo de producción variables en la condición búsqueda, novedad de producción y porcentaje de cambio
Discriminación Restricción del campo Búsqueda aleatoria Disponer de casos de activación de y modificaciones en de aplicación una producción la condición o en
la acción
correcta e incorrecta de la producción Fortalecimiento Mayor rapidez y Adecuación de la Práctica y
eficacia de fuerza de activación éxito emparejamiento al éxito de la
producción
Pero, aunque es bastante flexible, el conocimiento declarativo es computacio- nalmente costoso, debido a las limitaciones de la memoria de trabajo. Ello puede conducir a errores como consecuencia de una sobrecarga de ésta. Por ello, la automatización de ese conocimiento aumentará la eficacia del sistema, ya que ha rá posible un procesamiento en paralelo sin sobrecargar la memoria de trabajo. Esa automatización se logra en el segundo estadio del aprendizaje, mediante la
Teorías computacionales 127
compilación o transformación del conocimiento declarativo en procedural. Según An d e r s o n (1987) la compilación es el mecanismo básico de aprendizaje en el.
ACT. Implica dos subprocesos. La proceduralización hace que se elaboren ver siones procedurales del conocimiento declarativo. La información contenida en los nodos activados en la memoria de trabajo se traduce a producciones. Esta proceduralización produce cambios cualitativos en el conocimiento ya q i£ permi te que éste se aplique de modo automático, con rapidez y sin demanda de me moria (el sujeto ya no necesita repasar verbalmente el conocimiento declarativo: su destreza se ha automatizado). Cuando un conocimiento declarativo se trans forma en producciones, no necesariamente se pierden los nodos declarativos ori
ginales. Como ha reconocido el propio An d e r s o n (1983), este proceso tiene mu
chos rasgos en común con la automatización de Sh if f r in y Sc h n e id e r (1977,
1984). Este proceso se ve completado por un segundo mecanismo, la composi
ción, por la que una secuencia de producciones (o traducciones de declaracio
nes) se funde en una sola producción. En otras palabras, aquellas producciones que ocurren frencuentemente tienden a «compilarse» en una sola producción.
En un principio (Nevesy An d e r s o n, 1981), la composición se basaba en la conti
güidad temporal entre las producciones, es decir, aquellas producciones que se ejecutaban de forma sucesiva acababan componiéndose en una sola producción.
Sin embargo, posteriormente An d e r s o n (1982), ha observado que la contigüidad
temporal puede conducir a composiciones absurdas o poco eficaces entre pro ducciones, por lo que defiende como condición para la composición de la exis tencia de lo que él denomina una «contigüidad lógica» entre las producciones, regida por criterios de semejanza en sus metas.
Pero el aprendizaje no concluye con la compilación. Una vez formadas las producciones, éstas serán sometidas, como consecuencia de la práctica, a pro cesos de ajuste, que constituyen el tercer estadio del aprendizaje. El ajuste se lo gra mediante tres mecanismos automáticos: generalización, discriminación y for
talecimiento (An d e r s o n, Kl in e y Be a s l e y, 1980). La generalización de una pro
ducción consiste en incrementar su rango de aplicación. Esto puede conseguirse sustituyendo valores constantes en las condiciones de la producción por varia bles. El ACT requiere sólo dos ejemplos para llegar a una generalización. Esta se basará en la semejanza entre las condiciones o las acciones de dos produccio nes. Los mecanismos por los que se computa esa semejanza no están muy cla
ros. An d e r s o n (1983) sugiere que están basados en el solapamiento entre las
condiciones de dos producciones. Cuando dos producciones tienen condiciones comunes tenderán a generalizarse. Sin embargo esto conduce, en muchos casos, a generalizaciones «espúreas» o ineficaces. Es necesario poner límites a la gene
ralización en el ACT. Para ello, An d e r s o n, Klin e y Be a s l e y (1979,1980) han im
puesto ciertas restricciones de carácter sintáctico al modelo inicial de «fuerza bruta», que generalizaba siempre que era lógicamente posible. Así, proponen que sólo se intentan generalizaciones cuando se ha formado una producción nue va y, aun así, que en ningún caso se producen generalizaciones que exijan susti tuir por variables más de la mitad de las constantes de la condición más pequeña de entre las nrodunniones comoaradas. Es decir, aue existiría un límite en la pro
128 Teorías cognitivas del aprendizaje
porción de constantes que pueden sustituirse por variables. Además, el tiempo que el sistema dedica a buscar generalizaciones es también limitado.
Pero estas restricciones siguen siendo insuficientes, pudiéndose producir aún sobregeneralizaciones. Por ello, se propone un segundo mecanismo de ajuste de las producciones, la discriminación, cuya función es, al contrario de la generaliza ción, restringir el ámbito de aplicación de una producción. Para que se realice una discriminación es necesario que el sistema disponga de casos de aplicación co rrecta e incorrecta de la producción, siendo medida la corrección por la adecua ción de la producción a las metas propuestas. Un algoritmo busca y compara los valores de las variables en las aplicaciones correctas de una producción. Una vez localizadas esas variables, el sistema elige una de ellas al azar como base para la discriminación. Se trata, por tanto, de un proceso de búsqueda aleatoria en la me
moria procedural (An d e r s o n, Be a s le y y Kl in e, 1980). Hay dos tipos de discrimi
nación: de acción cuando produce la aparición de una nueva acción y de condi
ción, cuando restringe las condiciones bajo las que se ejecuta una acción ya pre
sente en el sistema de producciones. En este último caso, la discriminación pue de producirse tanto sustituyendo una variable por una constante como añadiendo nuevas cláusulas a la condición de la producción.
Ni la generalización ni la discriminación eliminan las producciones originales. Unicamente generan nuevas producciones que compiten con aquéllas. Los pro cesos de ajuste se completan con un mecanismo de fortalecimiento de las pro ducciones, según el cual las producciones más fuertes emparejan sus condicio nes más rápidamente con la información contenida en la memoria de trabajo y tie nen más probabilidad de ser usadas. Los mecanismos de fortalecimiento de las producciones son muy similares a los descritos en el apartado anterior en rela ción con la activación de nodos declarativos. Al igual que sucedía con los nodos, la fuerza de una producción determina la cantidad de activación que recibe en re lación con otras producciones. Cuando se crea una producción, sea por compila ción o por ajuste de otras producciones, nace con una fuerza igual a uno. Cada vez que la producción se aplica con éxito incrementa su fuerza en otra unidad.
Cuando se aplica incorrectamente pierde el 25% de su fuerza. Anderson (1983)
reconoce que estos valores son un tanto arbitrarios, pero destaca la importancia de la relación, que hace que sea mayor el impacto de los castigos que el de los premios sobre la fuerza de una producción. Sin embargo, hay un rasgo importan te en los mecanismos de fortalecimiento del ACT. Cuando el sistema carece de in formación sobre la corrección con que ha sido aplicada una producción se compu ta, por defecto, como una aplicación correcta. De esta forma, la simple práctica o uso de una producción, aunque se carezca de información sobre su correción, fortalece la producción. Aunque ésta no cambia como consecuencia de la mera práctica, su ejecución se hace más rápida. Por último, al igual que sucediera con los nodos declarativos, la activación se propaga de una producción a otras simila res. La fuerza ganada por una producción se aplica también a todas sus generali zaciones.
Teorías computacionales 129
Aplicación del ACT a la formación de conceptos
Como hemos señalado, la teoría del aprendizaje basada en el ACT está orien
tada fundamentalmente a la adquisición de destrezas (An derso n, 1982). De he
cho, pueden encontrarse con facilidad muchos ejemplos en que el adiestramiento en una tarea responde a los tres estadios mencionados. Pensemos en una perso na que está aprendiendo a conducir. El instructor de la autoescuela le describe verbalmente cómo tiene que realizar el cambio de marchas. Al principio el apren diz debe verbalizar e intentar recordar de manera deliberada cada una de las acciones y el orden en que ha de ejecutarlas: levantar el pie del acelerador, pisar el embrague, mover la palanca de cambios, soltar suavemente el embrague y acelerar de nuevo. Cada una de estas acciones requiere toda la atención de esa persona. No puede realizar ninguna otra acción a la vez que ejecuta esa secuen cia. En términos del ACT, el aprendizaje se halla en el estadio declarativo. Los cambios de marchas son en esta fase bruscos, deliberados o conscientes y gene ralmente poco diestros, pudiendo olvidarse algún paso de la secuencia o realizar los en un orden inadecuado. Pero, como consecuencia de la práctica continuada, el conocimiento declarativo se va proceduralizando, las acciones se van haciendo automáticas. Además se van fundiendo en una misma secuencia. Las produccio nes que se van formando a partir del conocimiento declarativo se componen y automatizan. Nos hallamos en el estadio de la compilación. Las acciones dejan de ser deliberadas y pasan a constituir una sola acción. Las acciones se ajecutan con tal rapidez que «el cambio de marchas» es para el conductor un poco ave zado una única acción, que además no le impide realizar otras acciones a la vez (mirar un coche detenido en el arcén, tararear una canción, pensar en el próximo examen, etc.). Al estar compilada la secuencia de producciones, no gasta recur sos de la memoria de trabajo. A partir de aquí, suponemos que con el carné de conducir en el bolsillo, esa persona seguirá ajustando la ejecución del cambio de marchas mediante procesos automáticos de forma que la secuencia se realiza ca da vez con más precisión. Este aprendizaje por ajuste no termina nunca. Basta con cambiar de coche para tener que iniciar nuevamente el ajuste de las produc ciones que componen la destreza de «cambiar de marcha».
Pero el aprendizaje procedural del ACT no sólo es aplicable a este tipo de
destrezas motoras relativamente simples. ANDerson (1983) incluye también, como
destrezas que se aprenden por esos mismos mecanismos, otro tipo de habilida des más complejas como la toma de decisiones, la solución de problemas mate máticos o la generación del lenguaje. Imaginemos, por ejemplo, a una persona aficionada al ajedrez. Al principio, cada una de sus jugadas constituye una «uni dad cognitiva» aislada, que exige toda su atención. Sin embargo, los grandes ju gadores se caracterizan por tener automatizadas o compiladas secuencias ente
ras de jugadas que ejecutan con gran rapidez (Chasey Simón, 1973). Las primeras
diez jugadas de una partida entre Karpov y Kasparov pueden durar cinco o diez minutos. Las «aperturas» consisten en producciones compiladas cuyas variantes están también automatizadas. Los grandes maestros no tienen que pensar duran
130 Teorías cognitivas del aprendizaje
te la apertura sobre cada jugada, únicamente deben decidir qué secuencia de producciones -la defensa india de rey, la defensa siciliana o el gambito Salvio- van a seguir. Algo similar sucede con los expertos en otros dominios, como la so lución de problemas matemáticos, el diagnóstico médico o el macramé.
Al aplicarse a la adquisición de este tipo de destrezas complejas, el ACT pue de también considerarse una teoría del aprendizaje de conceptos. La secuencia de producciones identificada como «defensa india de rey» constituye un concep to y cumple las funciones de un concepto, reseñadas al comienzo del Capítulo IV.
Ninguna destreza compleja puede efectuarse sin la intervención de un concepto. De hecho, la teoría ACT ha sido aplicada en diversas ocasiones a la formación de conceptos (por ej., Anderson, Kline y Beasley, 1979; Elio y Anderson, 1981, 1984; Lewis y Anderson, 1985; Richards y Goldfarb, 1986). Anderson, Kline y Beasley (1979, págs. 293-294) describen así el proceso de categorización realiza do por el ACT: «Para cada instancia presentada, el ACT designa una producción que reconoce y/o categoriza esa instancia. Las generalizaciones se producirán mediante la comparación de pares de esas producciones. Si se proporciona in formación sobre la corrección de esas generalizaciones, puede realizarse el pro ceso de discriminación. Nuestra definición operativa de un concepto será la de esa serie de designaciones, generalizaciones y discriminaciones». Los proce sos que darían cuenta de la formación de conceptos serían, sobre todo, la gene ralización y la discriminación, ya que la compilación y el fortalecimiento mejoran la eficacia de una producción pero no dan lugar a cambios en las producciones (Anderson, 1987). Por ello la teoría ACT del aprendizaje de conceptos es estricta mente inductiva. Sus mecanismos inductivos, similares a los propuestos en diver sas teorías basadas en la inteligencia art'ifical, son tan sólo sintácticos, ya que « sólo atienden a la forma de la regla y a la forma de los contextos en que ésta tiene éxito o fracasa. No hay ningún intento de utilizar el conocimiento semánti co sobre el contexto para influir en las reglas que se forman. Una consecuencia de este rasgo en la teoría ACT es que la generalización y la discriminación se consideran procesos automáticos, no sujetos a influencias estratégicas ni a con trol consciente» (Anderson, 1987, pág. 205). Dicho en otras palabras, los con ceptos son conocimiento compilado y se adquieren por generalización y discrimi nación a partir de las primeras producciones formadas (véase Tabla 6.2.).
Anderson, Kline y Beasley (1979; también Elio y Anderson, 1981,1984) han comparado su teoría del aprendizaje de conceptos con algunas de las teorías de la formación de conceptos naturales que hemos revisado en el capítulo anterior. Concretamente, comparan el ACT tanto con las teorías de abstracción de prototi
pos como con las teorías del ejemplar. Elio y Anderson (1981) sitúan el ACT co
mo una variante de las teorías de frecuencia de rasgos, ya que se basa en proce sos de generalización a partir de la comparación de rasgos o condiciones de las producciones, pero, a diferencia de otros modelos, usa preferentemente la infor
mación sobre la coocurrencia de rasgos. Los propios autores (Anderson, Kline y
Beasley, 1979) reconocen la dificultad para diferenciar las predicciones de su teo ría de las que hacen los demás modelos. Sin embargo, cuando estas predicciones
Teonas computacionales 131
los fenómenos empíricos observados en la formación de categorías naturales,
tanto los que apoyan a las teorías del ejemplar (Me d in y Sc h a f f e r, 1978) como
los que sustentan a las teorías de la abstracción de prototipos (Ha y e s-Ro t h y Ha-
y e s-Ro t h, 1977; ROSCH, 1975). Además, en experimentos diseñados expre
samente para diferenciar entre estas teorías, Elio y An d e r s o n (1981) comproba
ron que la actuación de sus sujetos universitarios era, salvo en ciertosjdetalles,
más acorde con el ACT. Ello le permite a An d e r s o n (1983, pág. 255) afirmar que
«los mecanismos de aprendizaje del ACT se han mostrado superiores a los me canismos que almacenan correlaciones entre rasgos individuales y categorías (en lugar de correlaciones entre combinaciones de rasgos y categorías), a los mecanismos que forman un solo prototipo de la categoría (en lugar de múltiples producciones que describen diferentes tipos de miembros de la categoría) o a ios mecanismos que almacenan únicamente instancias individuales (en lugar de generalizaciones que resumen muchas instancias)».
Más recientemente, Ric h a r d s y Go l d f a r b (1986) han elaborado un modelo
de desarrollo conceptual parcialmente basado en el ACT. En realidad, su modelo, denominado «modelo de memoria episódica del desarrollo conceptual» intenta
integrar el ACT de An d e r s o n (1983) con la teoría episódica del desarrollo concep
tual de Ne l s o n (1978,1983). Según esta teoría, vinculada a las teorías del esque
ma que trataremos unas páginas más adelante, un solo encuentro con un ejem plar basta para form ar un prototipo. Cuando más adelante se encuentra otro ejemplar, activa la representación episódica y crea lazos asociativos entre ambos nodos. De esta forma, la probabilidad de que esos nodos se activen juntos
aumenta. Según Ric h a r d s y Go l d f a r b (1986) un concepto consiste «en una se
rie de rasgos que se vuelven activos simultáneamente».
En contra de las posiciones recientes de Tu lv in g (1983) con respecto a las re
laciones entre memoria episódica y semántica, Ric h a r d s y Go l d f a r b (1986) con
sideran que es la memoria episódica la que da lugar al conocimiento semántico y no al revés. El proceso mediante el que esto se realiza no es otro que la aplica
ción de los mecanismos de activación y ajuste del ACT. Así, por ejemplo, Ri
c h a r d s y Go l d f a r b (1986) describen cómo adquiere un niño el concepto «co
che» según su modelo (Figura 6.4). El primer ejemplar de coche al que se enfren ta ese niño cuando va de paseo con su madre tiene una serie de rasgos que son almacenados en la memoria. Cuando su madre le señala un segundo coche pro cesa también sus rasgos y los compara con los del «episodio» anterior. Aquellos rasgos comunes a los dos episodios tienen más probabilidades de asociarse a la etiqueta verbal. Esos rasgos comunes, al fortalecerse, pueden llegar a activarse de manera independiente a los demás rasgos. En el futuro se seguirán fortalecien do y activando mutuamente.
Ric h a r d s y Go l d f a r b (1986) aplican su modelo basado en el ACT a otros fe
nómenos distintos de los analizados por An d e r s o n, Klin e y Be a s l e y (1979). Así,
según los autores, su modelo explicaría algunos de los resultados recientes que han puesto en duda la universalidad de las teorías probabilísticas analizadas en el capítulo anterior, apoyando la existencia de modelos duales de la categorización.
132 Teorías cognitivas del aprendizaje
m a n, Ar m s t r o n g y GLEHM AN (1983) se deberían a que los rasgos comunes a to
dos los episodios constituyen el núcleo definitorio del concepto, mientras que aquellos otros rasgos más frecuentes, pero no presentes en todos los episodios,
serían característicos o meramente probabilísticos. De la misma forma explican Ri
c h a r d s y Go l d f a r b (1986) el cambio evolutivo observado por Ke il (1986, 1987)
de las características a la definición. Los rasgos centrales, comunes a todos los episodios, se irían fortaleciendo progresivamente y serían más fáciles de activar y de recuperar. episodio 1) (a) grande azul asiento de piel »volante cuatro ruedas lleva gente etiqueta verbal “coche" (b) episodio 2) episodio 2) grande azul asiento de piel volante cuatro ruedas lleva gente etiqueta verbal "coche" ♦ pequeño rojo
asiento de vin ilo '
grande
pequeño
de tamaño
grande medio pequeño
lleva gente piel vinilo
(c) Probabilidad de recuperar ciertos rasgos com o característicos de la categoría "coche" tras dos episodios
(d) Probabilidad de recuperar ciertos rasgos com o característicos de la categoría "coche" tras seis episodios
FIGURA 6.4. Proceso de adquisición del concepto « c o c h e » según el m odelo episódico del desa rrollo conceptual de Richards y G oldfarb (1986). Tras subir a un prim er coche (episodio 1; Fig. a) el niño tom a com o atributos que definen a un « c o c h e » las características de ese prim er coche. Tras el segundo episodio (Fig. b) algunos rasgos son com unes a am bos « e stím u lo s c o c h e » . Esos ras gos com unes tendrán m ayor p ro b a b ilid a d de ser asociados en la m em oria con la etiqueta v e r b a l
« c o c h e » (Fig. c). Tras varios « e p is o d io s » más de categorización de objetos com o coches, las probabilidades de recuperación de rasgos asociados a la etiqueta « c o c h e » habrán sufrido algunas variaciones (Fig. d) existiendo algunos rasgos centrales a la categoría (por ej., tiene cuatro ruedas y