lunes, 8 de julio de 2019

El CI tiene mas problemas de lo que piensas

Escribe Javier Tourón



Esta no es una entrada para todos lo públicos, pero me veo impelido a hacerla. Que los mitos son casi indestructibles no tiene duda. Hace escasas fechas a propósito de una noticia sobre altas capacidades en una Comunidad Autónoma la periodista volvía a hablar de "coeficiente" y del 2% de la OMS. Sigue habiendo gente que se empeña en apuntarse al CI, pensando (supongo) que hace algo bueno y valioso para las personas, pero no es así. Y ello por razones diversas, conceptuales unas y técnicas otras. Algunas de las conceptuales las puedes rescatar aquí. Bueno, más que rescatar te animaría a estudiarlas. Las técnicas van a continuación.
Cualquier persona con un poco de formación en psicometría debería ser prudente a la hora de establecer juicios sobre el CI de una persona ligados a una etiqueta, cromosoma de oro o estado del ser. Porque no, no es lo mismo ser una persona dotada que tener un CI alto. No digamos si hablamos de las llamadas "inteligencias fuera de la curva normal".
Pero es que al hecho que ya señalaba Alan Kaufman sobre el CI: “Se trata de una estupidez, de una interpretación errónea muy frecuente. No existe tal cosa como el CI de una persona. Este es un constructo que varía. Cambia el test de CI, y verás cómo cambia el CI. Cambia de examinador, el día de la prueba, el estado de humor de la persona evaluada o el nivel de alerta del examinador, y verás cómo cambia el CI. Evalúa a una misma persona doce veces y obtendrás doce CIs diferentes (Kaufman, 2009, p. 3), me temo que hay otras razones inherentes al problema mismo de la medida. Las que señalo a continuación están en la base misma del asunto que tratamos.
Mientras que en la teoría clásica de los tests (en adelante TCT) el objeto fundamental consiste en evaluar la bondad de los tests elaborados, siendo la fiabilidad y la conceptualización del error los aspectos nucleares, en la teoría de respuesta al ítem, también denominada en el pasado como Teoría del Rasgo Latente (en adelante TRI), el objeto central de análisis lo constituye el ítem, de forma que los índices que describen los tests proceden de los parámetros de los ítems, de modo que la TRI forma un todo coherente y compacto y se basa en unos supuestos comprobables. La TCT, como recordamos, es un tanto incoherente, pues los procedi­mientos de análisis de los ítems son independientes de los procedimientos de análisis del test.
La propia naturaleza de la TCT, por ejemplo, hace que la discriminación de un ítem dependa de las puntuaciones finales del test. Por lo tanto, un mismo ítem puede tener distintos índices de discriminación en función del conjunto de ítems con los que se presente. En la TRI, los parámetros de los ítems no dependen en absoluto de los ítems con los que se presentan. Por el contrario, la puntuación de los tests se hace en función de las respuestas de los sujetos a cada  ítem y de los parámetros de cada ítem.
Sin embargo, como apunta Muñiz (1990) citando a Lord (1980), "la TRI no contradice ni las asunciones ni las conclusiones fundamentales de la TCT, sino que hace asunciones adicionales que permiten responder cuestiones que la TCT no podía". Voy a dedicar los próximos párrafos a ir esbozando los aspectos fundamentales de este nuevo enfoque, sin pretensión de tratamiento monográfico o didácticamente autocontenido, sino que —siguiendo el esquema general lógico que, a nuestro juicio, estas páginas deben tener— me limitaré a un planteamiento conceptual que dé cuenta de la estructura y contenido de este enfoque, para ilustrar los problemas que tiene una medida de CI, o de cualquier otra variable psicológica o educativa basada en la TCT.
1) Los estadísticos de los ítems en la TCT dependen de las características de la distribución del rasgo en la muestra y en la población.
Esto parece bastante obvio. Los dos parámetros principales de los ítems en la TCT son el índice de dificultad y el índice de discriminación. El primero entendido como el porcentaje de aciertos y el segundo como un índice de correlación entre la puntuación total del test y las puntuaciones del ítem. No requiere mayor aclaración, pues es evidente que ambos parámetros dependen de la capacidad de los sujetos que forman parte de los grupos en los que se aplican los tests. Así, si la capacidad es alta, los índices de dificultad (entendidos como porcentaje de aciertos) también lo serán. Si la variabilidad del grupo es grande, los índices de discriminación aumentarán (variabilidad y correlación están intrínsecamente unidas).
2) Los estadísticos del test dependen de la muestra (o población) sobre los que se calculen.
Esto es claro. La fiabilidad, el error de medida, las relaciones de un test con otros dependen, en buena medida, de las características de las muestras, de sus medidas de tendencia central, variabilidad, etc. Basta con recordar cuáles son los términos básicos implicados en las expresiones de cálculo.
3) Las condiciones de paralelismo en las que se apoya la TCT son poco plausibles.
Básicamente en la TCT, el coeficiente de fiabilidad se define como un coeficiente de correlación entre las puntuaciones obtenidas en dos formas paralelas de un test (sobre las condiciones de paralelismo ver la nota al pie 19). Todos los demás coeficientes de fiabilidad propuestos son derivaciones de esta noción básica y ofrecen estimaciones de la verdadera fiabilidad del test, como es el caso del coeficiente a y sus casos particulares, KR20 y otros.
4) La puntuación total de un test en la TCT, a partir de la cual se realizan la mayor parte de las inferencias, depende de los ítems concretos que componen el test.
Dado que las puntuaciones en un test dependen directamente del conjunto de ítems que lo componen, no es posible estimar la aptitud o capacidad de una persona en el rasgo medido, sino en el rasgo a partir del test empleado. Es decir, que la estimación del rasgo depende del conjunto de ítems del test, con lo cual las generalizaciones y comparaciones están limitadas a sujetos que hayan respondido el mismo test.
5) El estimador de la puntuación verdadera depende del grupo de referencia.
Basta recordar que la estimación de la puntuación verdadera en la TCT se realiza a través de la regresión lineal y a partir de la puntuación observada (X). En efecto, como sabemos, la ecuación para el pronóstico de la puntuación verdadera a partir de la observada, si podemos asumir que las medias condicionales para los diferentes valores observados de X se ajustan a una línea recta, es una ecuación de regresión lineal de mínimos cuadrados. Es decir, que la puntuación estimada depende de dos componentes ponderados por la fiabilidad del test: la media del grupo y la puntuación observada.
6) La TCT no proporciona un modelo teórico para las respuestas de los sujetos a los ítems.
Esta limitación no tiene ninguna aclaración posible. Simplemente es así, la TCT no se plantea esta cuestión. Su foco de atención es el test globalmente considerado, no modelizar cómo pueden ser las respuestas de los sujetos a los ítems particulares.
7) Los supuestos sobre el error de medida son poco plausibles.
Es conveniente recordar, como sabemos, que la TCT supone que se cumple el supuesto de homocedasticidad para los errores; es decir, que la varianza de los errores es constante a lo largo de todas las puntuaciones del test. Este es un supuesto que no se cumple con frecuencia, aunque hay modelos que permiten tratar la heterocedasticidad (Cfr. Lord y Novick, 1968).
8) Los tests bajo la TCT no producen medidas ajustadas  a las condiciones particulares de los sujetos.
Los tests clásicos son iguales para todos los sujetos, están concebidos para sujetos de aptitud media, de modo que no son "económicos" ni adecuados para sujetos de características extremas. Es necesario poder emparejar las condiciones de los tests con las aptitudes de los sujetos.
Estas son las principales limitaciones que plantea la TCT, que no son poco importantes, como sabemos, y que la TRI pretende superar con un nuevo enfoque de la medida. Nuevo enfoque que tendrá que lograr, entre otras cosas:
"a) Que las características de los ítems no dependan del grupo en el que se calculen.
b) Que las puntuaciones que describan el comportamiento de los sujetos examinados en el test no dependan de los contenidos particulares de éste ni de su dificultad.
c) Que los modelos estén expresados en función del ítem y no del test completo.
d) Un modelo que no requiera del supuesto de estricto paralelismo u otras formas de equivalencia para establecer la fiabilidad del test.
e) Un modelo que proporcione medidas de precisión para cada nivel de aptitud, eliminando el supuesto de homocedasticidad de la varianza de error.
f) Un modelo que permita relacionar el rasgo o constructo con el rendimiento del sujeto en el ítem" (Martínez Arias, 1995).
Estas son, como parece claro, precisamente, las principales propiedades de la TRI, desarrollada en numerosos trabajos entre los que destacan los de Hambleton (1989); Hambleton y Swaminathan (1985); Hambleton, Swaminathan y Rogers (1991); Lord (1980) y Wright (1979), entre otros.
Las dos características esenciales de los diversos modelos que se agrupan bajo la TRI, se caracterizan porque:
a) Suponen un rasgo o aptitud único subyacente al rendimiento del examinando;
b) la relación entre el rasgo o la aptitud del sujeto y su respuesta a un ítem puede describirse por medio de una función monótona creciente, denominada Curva Característica del Ítem (CCI, en adelante), que establece las probabilidades de respuesta.
Así pues, y a modo de resumen, se puede señalar que, además de las aportaciones de tipo técnico que aportará la TRI a la hora de construir tests, por ejemplo, "su gran contribución se centra en la posibilidad de obtener mediciones invariantes respecto de los instrumentos utilizados y de los sujetos implicados. En la TCT el resultado de la medición de una variable depende del test utilizado (...). En la Teoría Clásica la medición de una variable es inseparable del instrumento utilizado para medirla y ello constituye una seria limitación, pues inevitablemente se acabará definiendo operativamente la variable por el instrumento con que se mide (...). Además, las propiedades del instrumento de medida, esto es, de los ítems y, por tanto, del test, están en función de los sujetos a los que se aplican (...). El acercamiento clásico se encontraba encerrado en esa incongruencia teórica: la medición depende del instrumento utilizado y las propiedades de éstos están en función de los objetos medidos, de los sujetos. El objetivo central de la TRI será solucionar este problema" (Muñiz, 1990).
Me temo que esto justifica la frase del principio: "(...) No existe tal cosa como el CI de una persona. Este es un constructo que varía. Cambia el test de CI, y verás cómo cambia el CI. Cambia de examinador, el día de la prueba, el estado de humor de la persona evaluada o el nivel de alerta del examinador, y verás cómo cambia el CI. Evalúa a una misma persona doce veces y obtendrás doce CIs diferentes".
Seamos prudentes y no etiquetemos a las personas. Evaluemos con prudencia sus resultados no solo en los tests, también en sus porfolios. Lo diré una última vez: no se trata de etiquetar, clasificar o denominar, sino de ayudar a las personas a superar sus limitaciones y a brillar en sus potencialidades. Vamos, ayudarles en su educación, que tiene que ser tan personalizada como cada persona es en sí misma.
Y si todavía te quedan dudas puedes leerte este artículo clásico de Robert Sternberg: Identifying the gifted through IQ: Why a little bit of knowledge is a dangerous thing. Journal Roeper Review  Volume 8, 1986 - Issue 3: The IQ Controversy
Tomado de Javier Tourón con permiso de su autor

No hay comentarios: