Validez de la prueba - Test validity

La validez de la prueba es el grado en que una prueba (como una prueba química , física o académica ) mide con precisión lo que se supone que debe medir. En los campos de las pruebas psicológicas y las pruebas educativas , "la validez se refiere al grado en que la evidencia y la teoría apoyan las interpretaciones de los puntajes de las pruebas que implican los usos propuestos de las pruebas". Aunque los modelos clásicos dividieron el concepto en varias "validaciones" (como validez de contenido , validez de criterio y validez de constructo ), la visión actualmente dominante es que la validez es una única construcción unitaria.

La validez generalmente se considera el tema más importante en las pruebas psicológicas y educativas porque se refiere al significado que se le da a los resultados de las pruebas. Aunque muchos libros de texto presentan la validez como un constructo estático, varios modelos de validez han evolucionado desde las primeras recomendaciones publicadas para la construcción de pruebas psicológicas y educativas. Estos modelos se pueden clasificar en dos grupos principales: modelos clásicos, que incluyen varios tipos de validez, y modelos modernos, que presentan la validez como un solo constructo. Los modelos modernos reorganizan las "validez" clásicas en "aspectos" de validez o "tipos" de evidencia que respalda la validez.

La validez de la prueba puede ser probada / validada en sí misma usando pruebas de confiabilidad entre evaluadores , confiabilidad entre evaluadores , repetibilidad (confiabilidad prueba-reprueba) y otras características, generalmente a través de múltiples ejecuciones de la prueba cuyos resultados se comparan. El análisis estadístico ayuda a determinar si las diferencias entre los distintos resultados son lo suficientemente grandes como para ser un problema o si son aceptablemente pequeñas.

Antecedentes históricos

Aunque los psicólogos y educadores conocían varias facetas de la validez antes de la Segunda Guerra Mundial, sus métodos para establecer la validez se limitaban comúnmente a correlaciones de los resultados de las pruebas con algún criterio conocido. Bajo la dirección de Lee Cronbach , las Recomendaciones técnicas para pruebas psicológicas y técnicas de diagnóstico de 1954 intentaron aclarar y ampliar el alcance de la validez dividiéndola en cuatro partes: (a) validez concurrente , (b) validez predictiva , (c) validez de contenido y (d) validez de constructo . La publicación posterior de Cronbach y Meehl agruparon la validez predictiva y concurrente en una "orientación de criterio", que finalmente se convirtió en validez de criterio .

Durante las siguientes cuatro décadas, muchos teóricos, incluido el propio Cronbach, expresaron su insatisfacción con este modelo de validez tres en uno. Sus argumentos culminaron en el artículo de Samuel Messick de 1995 que describía la validez como un solo constructo, compuesto por seis "aspectos". En su opinión, varias inferencias hechas a partir de los puntajes de las pruebas pueden requerir diferentes tipos de evidencia, pero no diferentes validez.

Los Estándares de 1999 para Pruebas Educativas y Psicológicas codificaron en gran medida el modelo de Messick. Describen cinco tipos de evidencia que respalda la validez que incorporan cada uno de los aspectos de Messick y no mencionan el contenido, el criterio ni la validez de constructo de los modelos clásicos.

Proceso de validacion

De acuerdo con los Estándares de 1999 , la validación es el proceso de recopilación de evidencia para proporcionar “una base científica sólida” para interpretar las puntuaciones según lo propuesto por el desarrollador de la prueba y / o el usuario de la prueba. Por tanto, la validación comienza con un marco que define el alcance y los aspectos (en el caso de escalas multidimensionales) de la interpretación propuesta. El marco también incluye una justificación racional que vincula la interpretación con la prueba en cuestión.

Los investigadores de validez luego enumeran una serie de proposiciones que deben cumplirse para que la interpretación sea válida. O, a la inversa, pueden compilar una lista de cuestiones que pueden amenazar la validez de las interpretaciones. En cualquier caso, los investigadores proceden reuniendo evidencia, ya sea investigación empírica original, metanálisis o revisión de la literatura existente, o análisis lógico de los temas, para apoyar o cuestionar las proposiciones de la interpretación (o las amenazas a la validez de la interpretación). . Se enfatiza la calidad, más que la cantidad, de la evidencia.

Una sola interpretación de cualquier resultado de prueba puede requerir que varias proposiciones sean verdaderas (o puede ser cuestionada por cualquiera de un conjunto de amenazas a su validez). La evidencia sólida en apoyo de una sola proposición no disminuye el requisito de apoyar las otras proposiciones.

La evidencia para apoyar (o cuestionar) la validez de una interpretación se puede clasificar en una de cinco categorías:

  1. Evidencia basada en el contenido de la prueba
  2. Evidencia basada en procesos de respuesta
  3. Evidencia basada en estructura interna
  4. Evidencia basada en relaciones con otras variables
  5. Evidencia basada en las consecuencias de las pruebas

Las técnicas para recopilar cada tipo de evidencia solo deben emplearse cuando produzcan información que respalde o cuestione las proposiciones requeridas para la interpretación en cuestión.

Cada pieza de evidencia finalmente se integra en un argumento de validez. El argumento puede requerir una revisión de la prueba, su protocolo de administración o las construcciones teóricas que subyacen a las interpretaciones. Si la prueba y / o las interpretaciones de los resultados de la prueba se revisan de alguna manera, un nuevo proceso de validación debe recopilar evidencia para respaldar la nueva versión.

Ver también

Referencias

  1. ^ a b c d Asociación Americana de Investigación Educativa, Asociación Americana de Psicología y Consejo Nacional de Medición en Educación. (1999) Estándares para pruebas educativas y psicológicas . Washington, DC: Asociación Estadounidense de Investigación Educativa.
  2. ^ Guion, RM (1980). Sobre las doctrinas trinitarias de validez. Psicología profesional, 11 , 385-398.
  3. a b c d Messick, S. (1995). Validez de la evaluación psicológica: Validación de inferencias de las respuestas y actuaciones de las personas como investigación científica sobre el significado de la partitura. Psicólogo estadounidense, 50 , 741-749.
  4. ^ Popham, WJ (2008). Todo sobre la evaluación / Un grial incomprendido. Liderazgo educativo, 66 (1), 82-83.
  5. ^ Véase el texto por lo demás excelente: Nitko, JJ, Brookhart, SM (2004). Evaluación educativa de los estudiantes . Upper Saddle River, Nueva Jersey: Merrill-Prentice Hall.
  6. ^ a b Asociación Americana de Psicología, Asociación Americana de Investigación Educativa y Consejo Nacional de Medición en Educación. (1954). Recomendaciones técnicas para pruebas psicológicas y técnicas de diagnóstico . Washington, DC: La Asociación.
  7. ^ Angoff, WH (1988). Validez: un concepto en evolución. En H. Wainer y H. Braun (Eds.), Test Validity (págs. 19-32). Hillsdale, Nueva Jersey: Lawrence Erlbaum.
  8. ^ Cronbach, LJ y Meehl, PE (1955). La validez de constructo en las pruebas psicológicas. Boletín psicológico, 52 , 281-302.
  9. ^ Cronbach, LJ (1969). Validación de medidas educativas. Actas de la conferencia por invitación de 1969 sobre problemas de pruebas. Princeton , NJ: Educational Testing Service, 35-52.
  10. ^ Loevinger, J. (1957). Pruebas objetivas como instrumentos de la teoría psicológica. Informes psicológicos, 3 , 634-694.
  11. ^ Tenopyr, ML (1977). Confusión de construcción de contenido. Psicología del personal, 30 , 47-54.
  12. ^ Guion, RM (1977). Validez de contenido: la fuente de mi descontento. Medición psicológica aplicada, 1 , 1-10.