Análisis psicométrico de la escala de marcha y equilibrio de Tinetti con el modelo de Rasch

Psychometric analysis of the Performance Oriented Mobility Scale of Tinetti with the Rasch model

J.A. López Pina ^a^,

^a Facultad de Psicología, Universidad de Murcia, Murcia, España

Palabras Clave

Escala de marcha y equilibrio. Análisis psicométrico. Modelo de Rasch. Ajuste de modelos.

Keywords

PMOS scale. Psychometric analysis. Rasch model. Fit models.

Resumen

ObjetivoEn este estudio se presenta una aplicación del modelo de crédito parcial de la familia de modelos de Rasch a la escala de movilidad geriátrica PMOS (Tinetti, 1986, 1988) con vistas a determinar si ofrece una estructura unidimensional que permite obtener estimaciones de parámetros de habilidad y dificultad invariantes.
MaterialSe empleó una versión traducida al castellano de la escala PMOS, que se administró individualmente a los pacientes que colaboraron en el estudio.
MétodoDoscientos pacientes fueron evaluados con la escala PMOS. Las valoraciones de los 17 ítems fueron sometidas a un análisis psicométrico con el modelo de crédito parcial utilizando el programa ConQuest.
ResultadosDoce ítems de la PMOS se ajustaron al modelo unidimensional de Rasch, evidenciando que la habilidad de las personas se puede explicar en función de un solo atributo. El resto de ítems (1, 7, 13, 15 y 17) no obtuvieron estadísticos de ajuste que permitiera asegurar que su patrón de respuestas podría explicarse a través del modelo de Rasch.
ConclusionesLa metodología basada en el estudio del ajuste de los ítems a la familia de modelos de Rasch permite obtener estimaciones invariantes de los párametros de dificultad de los ítems y de habilidad de las personas. Además, el modelo de crédito parcial permite obtener estimaciones de los umbrales de las categorías con vistas a probar si los procesos discriminales de las personas son iguales para todos los ítems o varían de ítem a ítem.

Abstract

ObjectivesIn this study, we present an application of the partial credit model of the Rasch family of models to the PMOS scale of geriatric mobility (Tinetti, 1986, 1988) with the aim of determining whether it offers a unidimensional structure that enables us to obtain estimates of invariant parameters of ability and difficulty.
MaterialA Spanish translation of the PMOS scale was used. It was administered individually to the patients who took part in this study.
MethodTwo hundred patients were assessed using the PMOS scale. The evaluations of the 17 items were analyzed psychometrically with the partial credit model using the ConQuest program.
ResultsTwelve items of the PMOS fitted the unidimensional Rasch model, proving that the subjects’ ability can be explained using one single attribute. The other items (1, 7, 13, 15 and 17) did not obtain goodness-of-fit statistics that would guarantee that their response pattern could be explained using the Rasch model.
ConclusionsThe methodology based on the study of the fit of the items to the Rasch family of models enables us to obtain estimates of the invariant difficulty and ability parameters. Furthermore, the partial credit model enables us to obtain estimates of the thresholds of the categories with a view to testing whether the subjects’ discriminatory processes are the same for all the items or whether they vary from item to item.

Artículo

Durante gran parte del siglo pasado, el modelo de medida dominante en las ciencias sociales y de la salud fue el modelo clásico de test (MCT)¹^,²^,³. El MCT se basa en obtener una evidencia indirecta del error de medida cuando se aplica un test psicométrico a través de evaluar el grado en que la puntuación observada se acerca a la puntuación verdadera de una persona en el test. La puntuación observada es el único valor real que se puede obtener de un test, ya que el error y la puntuación verdadera de la persona son desconocidas, por lo que la puntuación observada o empírica será la herramienta básica del MCT para obtener alguna evidencia de la fiabilidad y validez de las puntuaciones.
Un problema importante del MCT es que no provee ningún procedimiento para asegurar que las puntuaciones observadas recogen realmente todas y cada una de las características del atributo que se desea medir. El MCT, en vez de centrarse en cómo cuantificar la variable que corresponde al atributo medido, asume que cada uno de los ítems que lo componen son ejemplares de las distintas características del atributo que se mide, cuyo peso en la puntuación total es desconocido, por lo que la puntuación observada es un mero conteo (suma) del número de ítems acertados, cuando los ítems son ejecución de tipo dicotómico, o marcados, si los ítems tienen más de dos categorías (ítems politómicos o tipo Likert). Pero contar es una operación matemática muy adecuada en diversos ambientes, por ejemplo, contar el número de estudiantes en una clase universitaria, pero por el mero hecho de contar no podemos asegurar que la variable construida sea una variable cuantitativa. Cuantificar una variable supone tener en cuenta dos operaciones básicas: orden y aditividad⁴^,⁵. Es decir, para cada uno de los ejemplares de la variable medida existe un número y sólo uno que lo representa y lo distingue de los demás, y además se pueden ordenar (relación de orden) en función de la cantidad de atributo medido; los números correspondientes a dos ejemplares del atributo se pueden sumar (aditividad), es decir, si a un ejemplar del atributo le corresponde el número 1 y a otro el número 2, existe (o puede existir) un tercero, tal que es propio afirmar que 3=2+1. No obstante, la aditividad dependerá siempre de la decisión de situar un estándar arbitrario contra el que se podrá conocer la cuantificación de ejemplares del atributo.
El MCT confía en la asunción, no probada experimentalmente en el laboratorio, de que un mero conteo de respuestas a los ítems que forman un test produce una variable cuantitativa; pero en realidad sólo confía y asume pero no prueba, sino por medios indirectos, cómo asegurar a través de jueces que los ítems contienen el atributo medido, establecer correlatos con otros instrumentos de medida y criterios externos para asegurar que las puntuaciones ocurren en la misma dirección o a través de estudiar las covarianzas o correlaciones entre los ítems con técnicas más o menos potentes de análisis factorial (componentes principales, ejes principales, máxima verosimilitud) exploratorio y confirmatorio.
Desde mediados del siglo xx , algunos investigadores no estuvieron satisfechos con esta forma de medir los atributos, por lo que volvieron su atención a las respuestas que las personas dan a los ítems evitando en todo momento utilizarlos como meros ejemplares para obtener un conteo. Así, comienza una nueva era en la medida psicológica en la que el eje central es el ítem que forma parte del test y no la puntuación empírica que resulta de contar el número de ítems acertados en el test. Además, este cambio de atención se centra, por una parte, en cómo deben construirse los ítems para que resulten mejores ejemplares de las características del atributo y en la posibilidad de estudiar si cada una de las respuestas a los ítems que componen el test pueden pronosticarse a través de un modelo matemático. Así, Lord⁶ fue uno de los primeros investigadores en ofrecer a la comunidad científica un modelo que estudia las respuestas a los ítems basado en la ojiva-normal, y posteriormente Birnbaum⁷ y Rasch⁸ofrecieron un modelo más simple basado en la función logística. En los últimos treinta años, estos modelos han sido encuadrados bajo el epígrafe de Teoría de la Respuesta al Ítem (TRI)⁹, aunque el modelo de Rasch⁸ y posteriores extensiones de éste tienen unas características peculiares que lo diferencian de otros modelos de TRI, por lo que se ha generado un ámbito de estudio propio de investigadores que sólo trabajan en este modelo y en otros de la misma familia¹⁰^,¹¹^,¹². La utilización de un modelo matemático para pronosticar cada una de las respuestas que una persona da a cada uno de los ítems de un test supone un cambio importante con respecto al MCT, ya que es necesario probar el ajuste de las respuestas obtenidas al modelo matemático especificado. Si las respuestas obtenidas por las personas siguen el modelo matemático especificado, entonces las propiedades del modelo (unidimensional e independencia local) son generalizables a los procesos de respuestas del test que las ha generado.
Desgraciadamente, en la actualidad es imposible asegurar con absoluta certeza que dos personas de igual habilidad responderán exactamente igual ante el mismo estímulo (el ítem), por lo que los modelos de la TRI, y el modelo de Rasch en concreto, son modelos probabilísticos cuyo objetivo es cuantificar la variable en las personas que de tal suerte que las estimaciones se han obtenido con el mínimo error estadístico posible.
Modelo de RaschEl modelo unidimensional de Rasch afirma que cada persona tiene una y sólo una habilidad esencial (θ) y el ítem tiene una y sólo una dificultad (δ) relacionada con la dimensión que se mide. La habilidad de las personas sólo se puede conocer enfrentando a esas personas con los ítems del test, mientras que la dificultad de los ítems sólo se puede conocer haciendo que las personas de distintas habilidades los contesten. Además, ambos parámetros producen escalas de intervalo cuyo origen y unidad de escala son arbitrarios.

P ( θ i ) = exp ( θ i - D j ) 1 + exp ( θ i - D j )

Para ítems dicotómicos (Acierto/Fallo, Sí/No), Rasch⁸ propuso que la relación entre la habilidad de las personas y la dificultad de los ítems se puede modelar probabilísticamente a través de la siguiente función matemática: donde θ_i es el parámetro de habilidad de la persona i, D_j es el parámetro de dificultad del ítem j, exp es el número e, y P (θ_i) es la probabilidad de que la persona de habilidad θ_iacierte el ítem. La ecuación es una función no lineal que genera una enorme complejidad a la hora de estimar los parámetros de habilidad de las personas y de dificultad de los ítems. No obstante, esta cuestión se simplifica, ya que la suma de las respuestas a través de los ítems o de las personas permite obtener estimadores suficientes¹³ de los correspondientes parámetros.
La relación no lineal entre ambos parámetros genera una complejidad adicional que sólo puede resolverse a través de la utilización de métodos de aproximación numérica cuya complejidad desborda el objetivo de este trabajo, pero que el lector interesado encontrará en cualquier texto de TRI¹⁴^,¹⁵ o modelo de Rasch¹¹^,¹²^,¹⁶ bajo el epígrafe de estimación de parámetros con el método de máxima verosimilitud bajo diversas variantes: condicional, conjunta, marginal.
Una condición esencial del modelo de Rasch y de otros modelos de TRI es que cualquier aplicación del modelo a una matriz de respuestas a los ítems de un test requiere un estudio del ajuste de los ítems y del test completo al modelo especificado. El modelo de Rasch dispone de una pléyade de estadísticos de ajuste para los ítems y para el test completo, entre los que destacan los estadísticos basados en residuales entre la respuesta dada y la probabilidad esperada que se operativizan bajo diversas distribuciones (normal, chi-cuadrado). Si la diferencia entre las respuestas a los ítems y las probabilidades de respuesta se eleva al cuadrado y se suma a través de todas las casillas de la matriz de respuestas, obtendremos medias cuadráticas basadas en residuales cuya distribución se aproxima a la distribución chi-cuadrado, cuya esperanza matemática es 1. La transformación Wilson–Hilferty (en este trabajo, transformación t) permite transformar las medias cuadráticas a la distribución normal.
Si el método de estimación de parámetros converge y los estadísticos de ajuste permiten afirmar que las respuestas de las personas pueden explicarse en función de la dificultad de los ítems que componen el test, entonces podemos asegurar que las estimaciones de los parámetros de las personas y de los ítems son independientes. Es decir que la habilidad estimada de cada persona no depende del número y tipo de ítems que ha contestado, ni la dificultad de los ítems depende del número y tipo de personas que lo han contestado. Este hecho es muy importante en la medida en ciencias de la salud, ya que en el MCT, la puntuación observada de las personas depende del número de ítems que contiene el test y la dificultad de los ítems depende del número de personas que lo contestan. Si el número de ítems cambia, las puntuaciones observadas de las personas cambian, y si el tamaño del grupo aumenta, los índices de dificultad de los ítems cambian en función de las características del grupo.
A diferencia del MCT que se aplica independientemente de la dimensionalidad del test y formato de los ítems, el modelo de Rasch es en realidad un precursor de una familia de modelos que, manteniendo su esencia, se adapta a las condiciones de medida en las que trabajamos. Así, existe una variante del modelo de Rasch para ítems con más de dos categorías (politómicos, también conocidos como tipo Likert) y para rangos antes que puntuaciones resultantes de la ejecución de una tarea. Estos modelos tienen variantes multidimensionales que permiten estimar parámetros en las dimensiones especificadas en el estudio.
Entre los modelos unidimensionales para ítems politómicos destacan el modelo de escalas de valoración¹⁷ y el modelo de crédito parcial¹². Ambos se caracterizan por producir, además de un parámetro de dificultad para cada ítem, k−1 parámetros para las categorías de los ítems. En el modelo de escalas de valoración, los parámetros de las categorías serán iguales para todos los ítems y siempre estarán ordenados de menor a mayor (categoría más baja a más alta), mientras que en el modelo de crédito parcial, los parámetros de las categorías pueden variar de ítem a ítem e incluso no estar ordenados. Para no extender en exceso este trabajo nos centraremos exclusivamente en el modelo de crédito parcial.
El modelo de crédito parcial

P ( θ ) = exp ( ∑ r = 0 k ( θ - D j ) ) ∑ H = 0 K exp ( ∑ r = 0 r ( θ - D j ) )

El modelo de crédito parcial¹² fue diseñado especialmente para ítems de ejecución cuyas categorías suponían un incremento de aprendizaje de una categoría a otra. El modelo, entonces, permite obtener estimaciones de los umbrales entre las categorías (parámetros de paso) que permiten determinar no sólo la dificultad del ítem en el grupo, sino si las categorías están bien ordenadas y espaciadas en cada uno de los ítems que componen el test. La función matemática de este modelo tiene la siguiente forma:donde D j = δ j - δ jk es el parámetro de dificultad del ítem j y δ_jk es el umbral de la categoría k en el ítem j, y el resto de parámetros se interpreta como en .Como en el modelo unidimensional de Rasch, en el modelo de crédito parcial es preciso estimar los parámetros de habilidad de las personas, dificultad de los ítems y de las categorías con un método de máxima verosimilitud, así como probar el ajuste de los datos al modelo.
Objetivo de este estudioEste estudio pretende presentar una didáctica de ambos modelos (Rasch dicotómico y crédito parcial) con una escala de movilidad ampliamente utilizada en el ámbito de las ciencias de la salud conocida como evaluación de la marcha y del equilibrio de Tinetti¹⁸^,¹⁹ (tabla 1^,tabla 2). La escala consta de 17 ítems (8 de marcha y 9 de equilibrio) que combina ítems con respuestas dicotómicas (ítems 1, 2, 3, 4, 5, 8, 9, 15 y 16) e ítems con respuestas politómicas (6, 7, 10, 11, 12, 13, 14 y 17). Una característica importante de la familia de modelos de Rasch es que los ítems que forman el test no necesariamente deben tener el mismo formato, ya que el algoritmo de estimación de parámetros trata cada ítem con el modelo apropiado en función del número de categorías que contiene. Nótese que el modelo de Rasch dicotómico no es más que un modelo de crédito parcial para ítems politómicos con sólo dos categorías.

Tabla 1a. Tests de evaluación de la marcha y el equilibrio de Tinetti ^18,19

Marcha	Cod	IH
Iniciación de la marcha (inmediatamente después de decir que ande) (ítem 1)
Algunas vacilaciones o múltiples intentos para empezar	0	0,84
No vacila.	1
Longitud y altura del paso
Movimiento del pie derecho (ítem 2) No sobrepasa al pie izquierdo con el paso. Sobrepasa al pie izquierdo. Movimiento del pie izquierdo (ítem 3) No sobrepasa al pie derecho con el paso. Sobrepasa al pie derecho. El pie izquierdo no se separa completamente del suelo con el peso. El pie izquierdo se separa completamente del suelo.
	0	0,69
	1


	0
	1	0,53
	1
	1
Simetría del paso (ítem 4)
La longitud de los pasos con los pies izquierdo y derecho no es igual.	0	0,64
La longitud parece igual.	1
Fluidez del paso (ítem 5)
Paradas entre los pasos	0	0,74
Los pasos parecen continuos.	1
Trayectoria (observar el trazado que realiza uno de los pies durante unos 3 m) (ítem 6)
Desviación grave de la trayectoria	0
Leve/moderada desviación o uso de ayudas para mantener la trayectoria	1	0,84
Sin desviación o uso de ayudas	2
Tronco (ítem 7)
Balanceo marcado o uso de ayudas	0	0,90
No balancea pero flexiona las rodillas o la espalda o separa los brazos al caminar.	1
No se balancea, no reflexiona, ni otras ayudas.	2
Postura al caminar (ítem 8)
Talones separados	0	0,71
Talones casi juntos al caminar	1

Cod: código asignado a cada opción del ítem; IH: índice de homogeneidad del ítem evaluado con la correlación biserial-puntual.

Tabla 1b. Test de evaluación de la marcha y el equilibrio de Tinetti ^18,19

Equilibrio	Cod	IH
Equilibrio sentado (ítem 9)
Se inclina o se desliza en la silla.	0	0,57
Se mantiene seguro.	1
Levantarse (ítem 10)
Es capaz, pero usa los brazos para ayudarse.	0	0,70
Es capaz sin usar los brazos.	1
Intentos para levantarse (ítem 11)
Incapaz sin ayuda	0
Es capaz, pero necesita más de un intento.	1	0,89
Es capaz de levantarse con sólo un intento.	2
Equilibrio en bipedestación inmediata (los primeros 5 s) (ítem 12)
Inestable (se tambalea, mueve los pies), marcado balanceo del tronco	0
Estable pero usa el andador, bastón o se agarra a otro objeto para mantenerse.	1	0,85
Estable sin andador, bastón u otros soportes	2
Equilibrio en bipedestación (ítem 13)
Inestable	0
Estable, pero con apoyo amplio (talones separados más de 10cm)	1	0,51
Estable, pero con bastón u otro soporte	2
Empujar (paciente en bipedestación con el tronco erecto y los pies tan juntos como sea posible). El examinador empuja suavemente en el esternón del paciente con la palma de la mano, tres veces (ítem 14).
Empieza a caerse.	0
Se tambalea, se agarra, pero se mantiene.	1	0,86
Estable	2
Ojos cerrados (en la posición de 6) (ítem 15)
Inestable	0	0,41
Estable	1
Vuelta de 360^o (ítem 16)
Pasos discontinuos	0
Continuos	1	0,67
Inestable (se tambalea, se agarra)	0
Estable	1
Sentarse (ítem 17)
Inseguro, calcula mal la distancia, cae en la silla.	0
Usa los brazos o el movimiento es brusco.	1	0,59
Seguro, movimiento suave	2

Cod: código asignado a cada opción del ítem; IH: índice de homogeneidad del ítem evaluado con la correlación biserial-puntual.

MétodoPacientesSe aplicó la escala de evaluación de la marcha y equilibrio de Tinetti¹⁸^,¹⁹ a un grupo de 200 personas con edad media de 74,38 años y desviación típica de 7,19. La edad mínima fue de 56 años y la edad máxima de 95 años. Del total, 134 (68%) eran mujeres y 64 (32%) eran varones; 45 (22,5%) estaban solteros, 75 (37,5%) estaban casados o convivían en pareja, 7 (3,5%) estaban separados, 72 (36%) estaban viudos y 1 (0,5%) no contestó esta cuestión. Ochenta y dos (41%) no tenían estudios, 87 (43,5%) habían cursado estudios elementales o primarios, 24 (12%) habían cursado estudios secundarios o de formación profesional, 3 (1,5%) habían realizado estudios universitarios y 4 (2%) no contestaron esta cuestión.
Con respecto a la convivencia, 52 (26%) afirmaron vivir solos y 148 (74%) no; 103 (51,5%) vivían en pareja, 92 (46%) no y 3 (2,5%) no contestaron. Por otra parte, 103 (51,5%) afirmaron vivir en el domicilio propio, 6 (3%) en el domicilio familiar, 81 (40,5%) en una residencia y 10 (5%) no contestaron. Además, 145 (72,5%) afirmaron asistir a una residencia durante el día, 46 (23%) no asistían a una residencia durante el día y 9 (4,5%) no contestaron. Por último, actualmente 24 (12%) estaban empleados, 2 (1%) tenían un trabajo independiente, 156 (78%) estaban jubilados, 11 (5,5%) afirmaban estar en otras situaciones y 7 (3,5%) no contestaron.
Estimación de parámetros con el modelo de Rasch dicotómico y el modelo de crédito parcialGeneralmente, la estimación de los parámetros de habilidad de las personas y de la dificultad de los ítems en el modelo de Rasch se lleva a cabo actualmente con alguno de los programas informáticos existentes en el mercado. En realidad, es posible realizar una estimación de parámetros a mano con el método PROX¹¹^,¹², pero la velocidad de los programas actuales ha popularizado la utilización de programas informáticos que implementan alguno de los procedimientos que hemos señalado anteriormente. Entre los más populares se encuentran WinSteps, ConQuest y RSP, aunque otros programas (BILOG y MULTILOG), que implementan modelos más generales de TRI, pueden estimar también los modelos de este trabajo. Todos estos programas tienen un coste, aunque no muy elevado. Existen versiones de estudiante y de prueba de estos programas, que se pueden descargar desde las siguientes páginas web: URL: www.rasch.org y desde URL: http://assess.com/xcart/home.php . Un programa libre y gratuito (RM-1) para estimar parámetros con el modelo unidimensional de Rasch para ítems dicotómicos se puede solicitar al autor de este trabajo.
En este trabajo utilizamos el programa ConQuest²⁰. Este programa permite estimar parámetros de una amplia variedad de la familia de modelos de Rasch tanto unidimensionales como multidimensionales. Además, su facilidad de manejo es elevada, al menos en los modelos más simples; es muy versátil, ya que dispone de comandos con muchas opciones y las salidas son directas y fácilmente interpretables e incorporables a cualquier informe técnico con un procesador de textos.
ConQuest admite dos formas de trabajo: una en entorno Windows y otra en entorno MS-DOS. En cualquier caso, en ambas formas, el programa requiere un archivo con las órdenes necesarias para ejecutar el análisis y otro archivo con la matriz de datos, aunque la matriz de datos puede ir en el mismo archivo de las órdenes. Una vez que se ejecuta el archivo de órdenes, si no se produce ningún problema de mala especificación de los comandos, ConQuest producirá un archivo con las estimaciones de los parámetros de los ítems, un mapa donde se despliega la distribución de las habilidades de las personas y las dificultades de los ítems, y de las categorías de los ítems en los ítems politómicos, y si se requiere, en un archivo aparte, una estimación de los parámetros de habilidad de las personas que forman el grupo de acuerdo con el método de estimación seleccionado. El archivo de comandos aparece en la figura 1.

Figura 1.

El comando Title especifica el título del estudio. El comando datafile especifica el nombre del archivo (y su extensión). El comando format especifica la estructura del archivo que contiene las respuestas. Así, en este caso, el archivo contiene 17 columnas, donde la primera columna corresponde al ítem 1 y la columna 17 corresponde al ítem 17. No existen espacios ni delimitadores entre las columnas. El comando model especifica el modelo que se empleará para el análisis. Así, el modelo de crédito parcial se llama en ConQuest: item+item * step. El comando estimate le dice al programa que estime los parámetros del modelo especificado en model. El comando show le dice al programa que escriba los resultados en un nuevo archivo con nombre y extensión (en este caso: tinet2.shw). El comandoitanal realiza un análisis de los ítems con el MCT, y por último, el comando quit cierra el programa y todos los archivos abiertos. Observe que todas las líneas finalizan con un punto y coma (;). Esto es obligatorio, ya que es el formato que se emplea en ConQuest para especificar el final de una orden o comando cualquiera.
ResultadosLas tabla 1^,tabla 2 presentan los índices de homogeneidad de cada ítem en cada una de las dos subescalas (marcha y equilibrio). La mayor parte de los ítems (1, 2, 5, 6, 7, 8, 10, 11, 12, 14 y 16) tienen índices de discriminación muy cercanos o por encima de 0,7; el resto, por encima de 0,5 (ítems 3, 4, 9, 13 y 17), menos el ítem 15 cuyo índice de discriminación ha sido 0,41. El hecho de que la mayor parte de los ítems tengan índices de discriminación tan elevados aventura la posibilidad de que estos ítems son en realidad prácticamente funciones de paso que permiten discriminar casi perfectamente el grado de marcha y equilibrio de estas personas, situación que no es corriente en otras escalas de medida. Además, este hecho se refleja en el elevado coeficiente de fiabilidad (alfa) encontrado de 0,92, que nos informa de una muy elevada intercorrelación entre las valoraciones dadas en los ítems de la escala.
La figura 2a presenta las estimaciones de los parámetros de dificultad de cada uno de los 17 ítems que componen la escala Tinetti, con sus correspondientes errores típicos y los estadísticos de ajuste basados en medias cuadráticas y sus correspondientes transformaciones t a la distribución normal aproximada. Además, cada estadístico de ajuste lleva aparejado un intervalo de confianza para las medias cuadráticas que permite juzgar si el parámetro obtenido se encuentra en el rango esperado según las características del grupo o no. La interpretación de los estadísticos de ajuste es crucial para decidir si los ítems siguen el modelo de Rasch. Generalmente, esta interpretación se realiza ítem a ítem, aunque otros programas disponen de estadísticos globales para decidir si todos los ítems que forman el test siguen el modelo especificado o no. En este caso, realizaremos la intepretación individualizada en función de cada uno de los ítems. Observe el lector que cada ítem dispone de dos estadísticos de ajuste: uno no ponderado (unweighted) y otro ponderado (weighted). El primero no pondera los residuales, por lo que puede alterarse fácilmente por resultados extremos, sujetos muy hábiles que fallan ítems fáciles o personas poco hábiles que aciertan ítems difíciles. El segundo pondera la estimación del residual en función de la cantidad de información que arrojan los ítems en el intervalo de habilidad, de modo que las personas con habilidad más cercana a la dificultad del ítem suelen influir más en el residual que las personas cuya habilidad está por debajo o por encima de la dificultad del ítem. Generalmente, ambos estadísticos se deben tener en cuenta para decidir si el ítem sigue el modelo de Rasch especificado. Cada uno de estos estadísticos tiene una esperanza matemática de 1, por lo que el ítem que ajusta el modelo perfectamente debe tener este valor. Si la media cuadrática es mayor que 1x, entonces el ítem tiene un x% más de variabilidad que la esperada por el modelo de Rasch, mientras que si la media cuadrática es menor que 1, entonces tiene un x% menos de variabilidad que la esperada por el modelo de Rasch. Como dijimos arriba, la transformación t de Wilson-Hifferty puede utilizarse también para decidir sobre el ajuste de los ítems. Así, esperamos que los ítems que se ajustan al modelo de Rasch tengan sus estadísticos t en el intervalo ± 2. Casi ningún ítem se ajusta al modelo de Rasch si utilizamos el estadístico no ponderado, aunque si tenemos en cuenta el estadístico de ajuste ponderado, la mayor parte de los ítems sigue el modelo de Rasch, excepto los ítems 1, 7, 13, 15 y 17. En principio, la estrategia aconsejada por los investigadores en este campo¹¹ consiste en modificar o eliminar estos ítems hasta encontrar una escala que se ajuste en todos sus ítems al modelo de Rasch. No todos los investigadores están de acuerdo con esta solución, ya que un proceso de eliminación o modificación de ítems poco cuidadosa puede alterar gravemente el contenido del test que estamos construyendo. En principio, pues, los ítems 2, 3, 4, 5, 6, 8, 9, 10, 11, 12, 14 y 16 formarían una escala de Rasch unidimensional para evaluar el grado de marcha y equilibrio en una muestra de personas mayores de las características que hemos utilizado en este estudio.

Figura 2.

Ahora podemos observar que los parámetros de dificultad de los ítems aparecen con decimales y números negativos. Esto es consecuencia del proceso de estimación de parámetros, ya que al partir de una muestra donde los parámetros de habilidad y dificultad son desconocidos, el programa informático tiene que fijar una escala para obtener los parámetros de la otra. ConQuest siempre fija la escala de dificultad de los ítems para que su media sea 0, así que los parámetros de dificultad mayores que 0 indican ítems difíciles, mientras que los parámetros de dificultad menores que 0 indican ítems fáciles. Generalmente, los parámetros de los ítems (y también de habilidad) suelen encontrarse en el intervalo ±3, aunque no necesariamente. El ítem 9 (equilibrio sentado) ha resultado ser el más fácil ( δ 9 = - 2 , 642 ) , indicando que las personas evaluadas en este grupo no tienen excesivos problemas de equilibrio cuando están sentados, mientras que el ítem 15 (ojos cerrados) ha resultado el más difícil ( δ 15 = 2 , 965 ) , indicando que ha sido el más difícil de cumplir por las personas que forman este grupo. Para una mejor visualización de las propiedades de estos ítems es corriente graficar las probabilidades de los ítems para cada uno de los posibles niveles de habilidad de las personas en este grupo. Las curvas resultantes se conocen como curvas características de los ítems (CCI), y en ítems dicotómicos son siempre monotónicas crecientes. La figura 3 presenta las CCI de algunos ítems de este test.

Figura 3.

Observe que las tres curvas siempre crecen desde menos habilidad (−3) hasta más habilidad (+3) y además su punto medio (punto de inflexión) coincide con el parámetro de habilidad que es igual a su parámetro de dificultad. Cuanto más fácil es el ítem, más hacia la izquierda estará la CCI, mientras que cuanto más difícil sea el ítem, más a la derecha se encontrará la CCI.
La figura 2b presenta las estimaciones de los parámetros de los umbrales de las catergorías para los ítems politómicos. En el caso de un ítem dicotómico existe un solo parámetro de cambio de categoría, de 0 a 1, por lo que este parámetro coincide con el parámetro de dificultad del ítem. En la tabla aparece cada ítem con sus correspondientes categorías; dado que los ítems politómicos de esta escala tienen tres categorías, el programa estima dos parámetros de umbral: el parámetro de paso de la categoría 0 a la categoría 1, y el parámetro de paso de la categoría 1 a la categoría 2. Observe que los parámetros de las categorías son iguales en cada ítem, ya que el algoritmo de estimación de parámetros impone la restricción de que la suma de los parámetros de las categorías sea 0. Como en el caso de los ítems dicotómicos, también es posible obtener las curvas características de las categorías en cada ítem politómico. La figura 4 presenta estas CCI para el ítem 6.

Figura 4.

En esta figura, la curva monotónica decreciente corresponde a la categoría 0 y la monotónica creciente corresponde a la categoría 2, mientras que la categoría central (1) se asemeja a una curva normal. Los puntos donde se cortan las curvas se corresponden con los parámetros de los umbrales de las categorías en este ítem. Así, las personas con baja habilidad (marcha y equilibrio) tienden a marcar la categoría 0 en este ítem, mientras que las personas con elevada movilidad tienden a marcar la categoría 2. Las personas de habilidad media tienden a marcar la categoría central. La figura 5presenta las CCI del ítem 13 que se interpreta de forma algo diferente.

Figura 5.

En la figura se aprecia que la mayor parte de las personas se sitúa en la categoría intermedia (1) en este ítem, siendo las personas de muy baja habilidad las que suelen marcar la categoría 0 y las personas de muy alta habilidad, que prácticamente no tienen problemas de marcha y equilibrio, las que marcan la categoría 2.
La importancia de estimar los umbrales de las categorías de los ítems politómicos se puede apreciar en la tabla 3. Hasta la aparición de estos modelos, el investigador tenía que asumir que las distancias entre las categorías de los ítems tipo Likert o politómicos eran iguales. Es decir, el proceso discriminal de cada persona para decidir marcar una categoría o la siguiente era igual, independientemente del número de categorías que contuviera el ítem (escalamiento Likert) (parte izquierda de la tabla 3). Pero, como el modelo de crédito parcial, los umbrales de decisión cambian de ítem a ítem y además pueden ser más estrechos o más amplios en función del proceso de decisión de las personas (parte derecha de la tabla 3). Ocurre en ocasiones que si se emplea un número elevado de categorías, como por otra parte es constumbre en los instrumentos construidos bajo el escalamiento Likert, el modelo de crédito parcial puede detectar categorías que no se han utilizado convenientemente, por lo que será necesario unir dos o más categorías adyacentes.

Tabla 2. Distancia entre las categorías en el escalamiento Likert y el modelo de crédito parcial

	Escalamiento Likert			Modelo de Rasch
Ítem 6	0	1	2	0	1	2
Ítem 7	0	1	2	0	1	2
Ítem 10	0	1	2	0	1	2
Ítem 11	0	1	2	0	1	2
Ítem 12	0	1	2	0	1	2
Ítem 13	0	1	2	0	1	2
Ítem 14	0	1	2	0	1	2
Ítem 15	0	1	2	0	1	2
Ítem 17	0	1	2	0	1	2

Dado que los parámetros de dificultad de los ítems y de habilidad de las personas se encuentran en la misma escala, el modelo de Rasch permite comparar sus distribuciones directamente (figura 6). La presentación de ambas distribuciones de forma vertical, una frente a otra, se conoce como mapa de Wright¹⁰^,²¹. Generalmente, el programa ConQuest centra la escala de dificultad de los ítems para tener media 0, con lo que los parámetros de dificultad de todos los ítems se distribuirán con más o menos amplitud alrededor de la media. Un objetivo importante del investigador que construye un test será seleccionar ítems que cubran el mayor rango posible de dificultades, de modo que todas las personas, independientemente de su habilidad, puedan ser evaluadas. En la figura 6 (parte derecha) aparece la distribución de los parámetros de los ítems que, como vemos, se encuentran alrededor de su media 0. La primera columna por la izquierda representa ambas escalas (habilidad y dificultad) en el rango de −4 a 11. El ítem más difícil (ítem 15) aparece en la parte superior de la distribución y el ítem más fácil (ítem 9) aparece en la parte inferior de la distribución. Observamos también que en la parte central se acumulan algunos ítems (5, 14 y 16,y 2, 6, 11 y 12) que quizás provocan cierta redundancia en la medida de las personas que ocupan el centro de la distribución. Sin embargo, esta situación es normal para este test, ya que fue construido bajo el MCT que prioriza los ítems de dificultad media frente a los ítems de dificultad baja o alta. Desde el punto de vista del modelo de Rasch hubiera sido deseable una mayor amplitud de dificultad entre los ítems cubriendo rangos de habilidad (intervalos −1 a −3 y +2 a +3) para los que no se dispone de ítems en este test. No obstante, el modelo de Rasch ofrece (figura 2a, abajo) un coeficiente que permite estimar la separabilidad de los parámetros. Este coeficiente varía entre 0 y 1, y en nuestro caso su cuantía ha sido de 0,986, lo que indica al investigador que la separabilidad de los parámetros de dificultad de estos ítems ha sido suficiente para evaluar la habilidad de las personas que forman este grupo.

Figura 6.

Justo a la izquierda de la distribución de los parámetros de dificultad, aparece la distribución de los parámetros de habilidad de las personas (marcados con una X). Si la habilidad media del grupo fuera igual a la dificultad media del test, ambas distribuciones estarían una frente a otra como en un espejo. Sin embargo, en este caso parece que el grupo de personas evaluado tuvo menos problemas de marcha y movilidad de los esperados, ya que la media de la distribución de la habilidad estuvo aproximadamente 4,5 puntos por encima de la media de dificultad del ítem.
La figura 7 es, de nuevo, un mapa de Wright, pero en este caso para las categorías de los ítems. Observe que los ítems dicotómicos sólo aparecen una vez, mientras que los ítems politómicos se repiten dos veces (p. ej. 11.1 y 11.2), ya que se han estimado dos umbrales para las categorías correspondientes. En esta figura, lo que podemos observar es si las estimaciones de los umbrales están ordenadas, síntoma de que las categorías han sido bien seleccionadas. Efectivamente, todas las estimaciones de los umbrales de la categoría 1 se encuentran por debajo de sus correspondientes estimaciones en la categoría 2 en cada ítem.

Figura 7.

DiscusiónEn este estudio realizado sobre la escala de marcha y equilibrio de Tinetti¹⁸^,¹⁹ hemos demostrado la potencialidad de la familia de modelos de Rasch para obtener una evaluación más exacta de las personas en el atributo medido, siguiendo un proceso de construcción y análisis de la escala paso a paso, que solventa la mayor parte de las asunciones y dificultades de la metodología ofrecida por el MCT.
La familia de modelos de Rasch no sólo permite obtener una evaluación más exacta del atributo, sino que a la vez es un medio para confirmar la presencia de uno y sólo un atributo medido a través de estadísticos de ajuste de los ítems. Además, las estimaciones de la habilidad de las personas no son un mero conteo de ítems contestados o acertados, sino que se estiman de acuerdo a un modelo matemático que incorpora supuestos a esas puntuaciones, como la unidimensionalidad de la medida y la independencia local de los ítems.
Si los datos presentan un buen ajuste al modelo de Rasch propuesto, entonces es posible afirmar que las estimaciones de los parámetros de los ítems y las estimaciones de los parámetros de habilidad de las personas son independientes entre sí, hecho largamente perseguido en la medida en ciencias de la salud y no conseguido hasta ahora con ningún otro modelo de medida conocido.
Conflicto de interesesLos autores no tienen ningún conflicto de intereses.

Bibliografía

1.Spearman C. . Demonstration of formulae for true measurement of correlation. Am J Psychol. 1907; 15:72-101.
2.Gulliksen H. . Theory of mental tests. New York: Wiley; 1950;
3.Lord FM, Novick M.R. . Statistical theories of mental test scores. Reading, MA: Addison Wesley; 1968;
4.Michell J. . Measurement in Psychology: A critical history of a methodological concept. Cambridge: Cambridge University Press; 1999;
5.Van der Linden W. . Fundamental measurement and the fundamentals of Rasch measurement. New Jersey: Ablex; 1994. 3-24.
6.Lord FM. A theory of test scores. Psychometric Monograph, Whole No. 7. New York: Psychometric Society; 1952.
7.Birnbaum A. . Some latent trait models and their use in inferring and examinee's ability. En: Lord F.M., Novick M.R., editors. Statistical theories of mental test scores. Reading, MA: Addison-Wesley; 1968.
8.Rasch G. . Probabilistic models for some intelligence and attainment test. Copenhagen: Danmarks paedogoiske Institut; 1960; (Chicago: University Chicago Press, 1980)
9.Lord F.M. . Applications of item response theory to practical testing problems. Hillsdale, NJ: Erlbaum; 1980;
10.Bond TG, Fox Ch.M. . Appying the Rasch model: Fundamental measurement in the human sciences. NJ: LEA; 2001;
11.Wright BD, Masters G.N. . Rating scale analysis. Chicago: MESA Press; 1982;
12.Wright BD, Stone M. . Best test design. Chicago: MESA Press; 1979;
13.Andrich D. . Rasch models for measurement. Beverly Hills: Sage; 1988;
14.Hambleton RK, Swaminathan N. . Item response theory: Principles and applications. Boston: Kluwer-Nijhoff; 1985;
15.Lopez Pina J.A. . Teoría de la respuesta al ítem: fundamentos. Barcelona: DM-PPU; 1995;
16.Smith EV, Smith R.M. . Introduction to Rasch measurement. Minnesota: JAM Press; 2004;
17.Andrich D. . A rating formulation for ordered response categories. Psychometrika. 1978; 43:561-73.
18.Tinetti M.E. . Performance oriented assessment of mobility problems in the elderly patient. J Am Geriatr Soc. 1986; 34:119-26.
Medline
19.Tinetti ME, Ginter S.F. . Identifying mobility dysfunction in the elderly. JAMA. 1988; 259:1190-3.
Medline
20.Wu ML, Adams RJ, Wilson MR, Haldane S.A. . ACERConQuest. Version 2.0: generalised item response modelling software. Victoria: ACER Press; 2007;
21.Wilson M. . Constructing measures: An item response modeling approach. NJ: LEA; 2005;

PHYSIOTHERAPY AND COMPLEMENTARY THERAPIES/ FISIOTERAPIA

quinta-feira, 9 de julho de 2015