lunes, 17 de noviembre de 2025

Pruebas e instrumentos de evaluación en EaD (C.EaD-85)

 Por Lorenzo García Aretio

AUDIO   –   VÍDEO

Todas las entradas de la serie “80 años. Compendio EaD”, VER AQUÍ

Evaluar con rigor en educación a distancia y digital (EaD) no consiste en “elegir un tipo de examen”, sino en tomar decisiones de diseño que conecten los resultados de aprendizaje esperados con formatos de prueba capaces de representarlos con fidelidad, aplicables en e  ntornos mediados por tecnología y coherentes con la cultura académica del programa. Esta entrada ofrece una orientación práctica y fundamentada sobre pruebas e instrumentos que cualquier equipo de áreas disciplinares diversas puede adoptar con solvencia. Nos centraremos en qué capta cada formatocon qué criterios decidir su uso y cómo operarlo en EaD para que la evaluación enseñe mientras mide. Tomamos como punto de partida dos anclajes del Compendio:

  • Primero, el blueprint (tabla de especificación) que es el mapa que distribuye contenidos y procesos cognitivos con proporción y evita sesgos. Gracias a él, una prueba objetiva no se improvisa sino que su cobertura nace de esa distribución; del mismo modo, una tarea abierta o un proyecto reciben un peso justificado dentro del conjunto.
  • Segundo, la rúbrica que convierte el plan en criterios y niveles de calidad que orientan el juicio, la retroalimentación (feedback) y la orientación anticipatoria (feedforward). Sin blueprint ni rúbrica, los instrumentos se vuelven opacos; con ellos, ganan transparencia y sentido formativo.

La panorámica que proponemos recorre seis familias: pruebas objetivas (ítems cerrados), tareas abiertas (respuesta extendida), prácticas/proyectos/productos, evaluaciones orales y de desempeño, auto/coevaluación y diseños mixtos. No se trata de mejores o peores formatos, sino de ajuste al constructo:

  • las pruebas objetivas aportan muestreo y eficiencia;
  • las abiertas muestran calidad de razonamiento;
  • los proyectos revelan aplicación situada;
  • las orales añaden autoría y matiz;
  • la evaluación entre pares desarrolla el criterio del estudiante.

También veremos combinaciones útiles, por ejemplo, cuestionarios breves (quizzes) de comprensión + mini-caso con defensa breve, o portafolio + comprobación puntual oral, que permiten triangular evidencias. Finalmente, en EaD importan las condiciones de uso tanto como el formato:

  • accesibilidad (DUA y WCAG),
  • equidad (evitar barreras no esenciales de conectividad, horario o dispositivo),
  • integridad por diseño (evidencias de proceso, versiones, personalización razonable), y
  • ética (propósito pedagógico claro, datos mínimos, explicabilidad).

Cerraremos con mapas de combinación y pautas operativas en el LMS para que cualquier equipo pueda pasar del plan al criterio y del criterio a la acción con instrumentos que funcionen en la práctica y resistan la revisión académica.

Pueden acceder a más detalles sobre esta temática en trabajos publicados por este autor (García Aretio, 2020) en el apartado final de Fuentes.

FORMATOS DE PRUEBA E INSTRUMENTOS EN EaD

Pruebas objetivas (ítems cerrados)

  • Qué capturan. Permiten valorar con rapidez el reconocimiento/recuerdo y la comprensión de conceptos y relaciones, y, si los ítems están bien diseñados (enunciados situados, alternativas plausibles, justificación breve), pueden recoger también aplicación estructurada y pequeños ejercicios de razonamiento localizado.
  • Instrumentos típicos. Elección múltiple, verdadero/falso con breve justificación, emparejamiento, respuesta numérica o verbal breve.
  • Potencial en EaD. Son escalables, se corrigen de forma automatizada y permiten rutas y tiempos adaptables. Además, facilitan versionado para clases numerosas.
  • Condiciones de calidad.
    • Representación y equilibrio. Derivar el número y tipo de ítems desde una tabla de especificación para asegurar cobertura del temario y de los procesos cognitivos, evitando “zonas ciegas”.
    • Banco de ítems vivo. Clasificar cada ítem por contenidoproceso y dificultad, depurando los demasiado fáciles o confusos. Con cada edición, revisar la discriminación y ajustar el banco.
    • Integridad razonable. Aleatorizar orden de preguntas y alternativas, limitar ventanas de entrega sin convertir la prueba en una carrera, e incluir, cuando proceda, una justificación breve que eleve el nivel cognitivo y desincentive atajos.
    • Accesibilidad. Navegación consistente, foco visible, tamaños adecuados y alternativas textuales cuando sea necesario, conforme a WCAG.

Tareas abiertas de respuesta extendida

  • Qué capturan. Hacen visible la argumentación con evidencia, la resolución de problemas no estructurados, la integración de fuentes y la creación.
  • Instrumentos típicos. Ensayo, comentario crítico, informe técnico, problema de desarrollo, estudio de caso, encargo profesional.
  • Potencial en EaD. Admiten entrega multimodal (texto, audio, vídeo), versionado con huellas del proceso y comentarios anclados en el entorno virtual. Pueden completarse con una defensa breve síncrona o en diferido.
  • Condiciones de calidad. Usar rúbrica analítica de 4–6 criterios con niveles por calidad, publicarla desde el inicio y trabajar ejemplos anclados que muestren cómo se ve cada nivel. Declarar mínimos no compensables en los criterios nucleares (p. ej., argumentación).

Prácticas, proyectos y productos

  • Qué capturan. La aplicación situada de saberes, la planificación y la iteración de soluciones, así como la transferencia a contextos profesionales reales o simulados.
  • Instrumentos típicos. Proyecto por fases, póster o presentación rápida, prototipo, informe de políticas, microinvestigación, portafolio.
  • Potencial en EaD. Dejan evidencias de proceso (borradores, diarios, versiones), favorecen la evaluación iterativa (feedback → explicación de cambios → nueva versión) y el trabajo en equipo con registros de contribución.
  • Condiciones de calidad. Rúbrica con criterios de proceso (plan, uso de evidencias, iteración) y de producto (calidad técnica, adecuación al encargo), con hitos intermedios que generen señales tempranas de progreso.

Evaluaciones orales y de desempeño

  • Qué capturan. El lenguaje disciplinar, el razonamiento en voz alta, la toma de decisiones y la comunicación.
  • Instrumentos típicos. Oral estructurada, defensa breve de una solución o diseño, simulaciones, y adaptaciones virtuales de OSCE (exámenes clínicos objetivos estructurados).
  • Potencial en EaD. La grabación permite revisión y moderación; mostrar la rúbrica durante la interacción da transparencia; pequeñas píldoras orales pueden complementar la evidencia escrita y reforzar la autoría.
  • Condiciones de calidad. Publicar la estructura (familias de preguntas y tiempos), usar rúbrica de desempeño, garantizar equidad en franjas y apoyos, y ofrecer alternativas asincrónicas cuando no alteren el constructo.

Autoevaluación, coevaluación y evaluación entre pares

  • Qué capturan. La comprensión del estándar, el juicio criterial y la autorregulación.
  • Instrumentos típicos. Rúbricas simplificadas para revisión entre pares paneles de criterios con ejemplos anclados, y plantillas de auto-revisión con evidencias.
  • Potencial en EaD. Escalan bien en grupos grandes y aportan analítica rica sobre cómo interpreta el estudiantado los criterios.
  • Condiciones de calidad. Breve formación en lectura de rúbricas, calibración con ejemplos, reglas claras para agregar juicios de pares y moderación docente en casos de borde.

Instrumentos mixtos (híbridos)

  • Qué capturan. Combinan el muestreo amplio con momentos de demostración en profundidad.
  • Diseños típicos. Cuestionarios breves (quizzes) de comprensión + mini-caso con defensa breve; prueba adaptativa + microproyecto; portafolio + comprobación puntual oral.
  • Ventaja en EaD. Permiten triangular evidencias y sostener decisiones con menos dependencia de controles intrusivos.

CRITERIOS PARA DECIDIR: CUÁNDO USAR QUÉ (Y POR QUÉ)

Validez de contenido y de constructo

Pregunta guía. ¿El instrumento representa lo que declaramos evaluar?

  • Pruebas objetivas. Ofrecen cobertura y muestreo amplio del temario. Si el constructo central es aplicación situada o argumentación, conviene complementarlas con tareas abiertas.
  • Tareas abiertas. Muestran calidad del razonamiento y uso de evidencia; requieren rúbricas claras y ejemplos anclados para estabilizar el estándar entre docentes y grupos.

Consistencia (confiabilidad)

Pregunta guía. ¿Distintos docentes llegarían a decisiones similares?

  • Objetivas. La consistencia depende de la calidad del ítem y del mantenimiento del banco (dificultad, discriminación, revisión periódica).
  • Abiertas. Exigen criterios operacionales y calibración con ejemplos; una sesión breve de moderación al cierre reduce discrepancias en casos de borde.

Equidad y accesibilidad

Pregunta guía. ¿El instrumento mide lo esencial sin introducir barreras accesorias?

  • Accesibilidad. Redacción clara, jerarquía visual y navegación coherente según WCAG y Diseño Universal para el Aprendizaje (DUA).
  • Contexto EaD. Considerar conectividad, huso horario y dispositivos; ofrecer variantes equivalentes cuando no alteren el constructo (p. ej., exposición oral ↔ informe escrito si se valora “argumentar con evidencia”).

Integridad académica (prevención razonable)

Pregunta guía. ¿El diseño desincentiva fraude o atajos impropios sin invadir en exceso?

  • Estrategias de diseño. Personalización leve (contexto o datos locales), defensa breveevidencias de proceso (versiones, bitácoras), y trabajo previo con ejemplos anclados.
  • Recursos técnicos. Aleatorización y bancos suficientes en objetivas; en abiertas, coherencia entre la voz del texto y la voz oral en la defensa breve.

Factibilidad y coste de uso (para docentes y estudiantes)

Pregunta guía. ¿Podemos sostener el instrumento con nuestro tamaño de grupo y tiempos?

  • Objetivas. Mayor inversión de diseño (buenos ítems), baja carga de corrección; útiles en cohortes grandes si encajan con el constructo.
  • Abiertas. Requieren rúbrica y ejemplos; la valoración insume más tiempo, pero se vuelve viable con iteraciones cortas, comentarios anclados y reglas claras de agregación (ponderaciones, mínimos).

USOS Y CONFIGURACIONES EN EAD: DEL PLAN A LA OPERACIÓN

Pruebas objetivas en el LMS: buenas prácticas mínimas

  • Del blueprint al cuestionario. Convertir los pesos del blueprint (bloques/temas × procesos) en secciones o bancos del cuestionario. Evitar cuestionarios ensamblados sin distribución explícita, que dejan huecos en la cobertura.
  • Ítems de calidad. Enunciados claros, alternativas realmente plausibles, ausencia de pistas formales y, cuando proceda, una justificación breve que haga visible la decisión del estudiante.
  • Variedad controlada. Barajar ítems y alternativas, usar versiones paralelas, dar tiempos suficientes (para no dañar la validez) y prever márgenes por conectividad (equidad).
  • Postanálisis periódico. Revisar dificultad y discriminación de items tras cada uso; retirar o reescribir los ítems que no aportan información o inducen error por redacción.

Ensayos, casos y proyectos: flujo iterativo con rúbrica

  • Publicación y trabajo previo. Hacer pública la rúbrica desde el inicio y leer con el grupo uno o dos ejemplos anclados, señalando por qué un fragmento ilustra un nivel concreto.
  • Ciclo de mejora. Tras el primer feedback, solicitar una explicación de cambios (“qué modificaré, cómo y según qué criterio”) y registrar el proceso (versiones).
  • Defensa breve. Cuando convenga, organizar una defensa breve (3–5 minutos) para aclarar decisiones, fuentes y límites del diseño; ayuda a sostener autoría, desincentivar el fraude y consolidar el aprendizaje.
  • Moderación. Al cierre, revisar en equipo unos pocos casos de borde y dejar acuerdos para afinar descriptores y criterios en la próxima edición.

Portafolio (e-portfolio) en EaD: producto y proceso

  • Doble foco. Valorar tanto el producto (evidencias seleccionadas y razonadas) como el proceso (diarios, borradores, explicación de cambios).
  • Rúbrica dual e hitos. Usar una rúbrica con criterios para proceso y producto; fijar pocos hitos bien definidos (mejor tres evidencias comentadas y sólidas que diez superficiales).
  • Transparencia y sentido. Evitar el “cajón de sastre”: el portafolio debe ser un argumento de logro alineado con el blueprint, no un contenedor indiscriminado.

Evaluación oral y síncrona: eficiencia y equidad

  • Estructura visible. Publicar familias de preguntas, tiempos y criterios. Mostrar la rúbrica durante la interacción.
  • Registro y revisión. Grabar la intervención cuando sea posible y legal para permitir moderación o revisión.
  • Equidad en EaD. Ofrecer franjas alternativas y, si el constructo lo permite, una respuesta asincrónica equivalente (vídeo corto con pautas) para casos justificados.

Auto y coevaluación: desarrollar criterio

  • Andamiaje. Formar brevemente al estudiantado en lectura de rúbricas y uso de ejemplos anclados antes de pedir juicios.
  • Plantillas focalizadas. Emplear plantillas de revisión entre pares con 1–2 criterios foco por iteración (mejor profundidad que cantidad).
  • Agregación y moderación. Definir cómo se agregan los juicios (media simple o ponderada, mínimos por criterio) y establecer una moderación docente para casos de desacuerdo o desviación.

CALIDAD Y ÉTICA: CONDICIONES NO NEGOCIABLES EN EAD

Transparencia desde el inicio

Publicar las tablas (blueprint) (resumen legible), las rúbricas, ejemplos anclados y las reglas de calificación (pesos, mínimos no compensables, casos de borde). Esta transparencia enseña y protege la credibilidad del proceso.

Publicar blueprintrúbricasejemplos anclados y reglas de calificación (pesos, mínimos, frontera). La moderación sigue un protocolo ligero (calibración-sampleo-cierre). Las decisiones pueden apelarse con base en criterios (revisión de fragmentos anclados y, si procede, defensa breve).

Accesibilidad y equidad

Aplicar UDL y WCAG en consignas, plataformas y recursos; ofrecer variantes equivalentes cuando no afecten al constructo. Evitar cargar la evaluación con barreras de conectividad, horario o dispositivo que nada aportan al aprendizaje.

Integridad por diseño

Se deben preferir diseños que desincentiven atajos (personalización leve, defensa breve, evidencias de proceso) a controles masivos intrusivos. Si se usan herramientas de control, que sean proporcionales y explicadas (fines, límites, alternativas).

Mejora continua

Revisiones de ítems (dificultad), refinado de descriptores de rúbrica, banco de ejemplos anclados y moderación periódica entre docentes. Conviene documentar el argumento de validez a escala razonable (una página por asignatura).

CONCLUSIONES

Seleccionar y usar pruebas e instrumentos en EaD no es un ejercicio de catálogo, sino un acto de diseño pedagógico que debe partir del qué (resultados y procesos) para decidir el cómo (formato) y el por qué (criterios y usos). Veamos:

  • las pruebas objetivas aportan cobertura y eficiencia cuando el constructo lo permite;
  • las tareas abiertas y los proyectos aportan calidad de evidencia sobre razonamiento, integración y creación;
  • las defensas breves y las evaluaciones orales añaden autoría y matiz;
  • la auto y coevaluación desarrollan el criterio del estudiante.

En conjunto, estos formatos, combinados con sensatez, permiten triangular evidencias y sostener decisiones explicables.

El blueprint y la rúbrica siguen siendo el núcleo, el primero distribuye pesos y garantiza que lo importante aparezca en las pruebas; la segunda nombra lo que se valora y cómo se ve la calidad. Sin estos dos pilares, los instrumentos quedan a merced de la improvisación. Con ellos, ganan validezconsistencia y transparencia. El enfoque del Diálogo Didáctico Mediado recuerda, además, que todo instrumento sirve para enseñar mientras evalúa, porque:

  • la consigna clarifica,
  • el ejemplo anclado ilustra,
  • el feedback explica,
  • el feedforward programa la mejora, y
  • la defensa breve ayuda a comprender y a comprometerse con el propio trabajo.

En EaD, las condiciones de uso importan tanto como el formato:

  • accesibilidad (UDL/WCAG),
  • equidad (evitar barreras no esenciales),
  • integridad por diseño (evidencias de proceso, versiones, personalización razonable), y
  • ética (fines pedagógicos, minimización de datos, explicabilidad de decisiones).

Un sistema que publica sus criterios, cuida sus instrumentos y aprende de su propia práctica (revisando ítems, afinando rúbricas, moderando juicios) mejora de una edición a otra y acredita con justicia.

Para equipos no especialistas, el camino es claro y viable: empezar por una tabla de especificación sencilla, redactar una rúbrica funcional (cuatro o cinco criterios), elegir bien dos o tres instrumentos que, juntos, representen el constructo (p. ej., cuestionario de comprensión + caso con defensa + portafolio mínimo) y operarlos en el LMS con comentarios anclados y explicación de cambios. Con cada iteración, la evaluación gana nitidez y credibilidad; y el estudiante, oportunidades reales de aprender y mostrar lo que sabe hacer.

CUESTIONES PARA LA REFLEXIÓN Y EL DEBATE

  • ¿Podemos acordar, por titulación, programa o curso, dos o tres combinaciones tipo (p. ej., “cobertura + demostración”, “iterar para mejorar”) con ejemplos y rúbricas base, para evitar la dispersión instrumental y ganar comparabilidad?
  • ¿Cómo organizamos un banco de ítems con metadatos (contenido, proceso, dificultad) y un repositorio de ejemplos anclados por criterios y niveles, accesibles a todos los docentes de la titulación.

FUENTES

Para más detalles, pueden consultarse en este mismo blog trabajos anteriores del autor del Compendio, García Aretio, L. (2020):

OTRAS FUENTES:

  • American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (2014). Standards for educational and psychological testing. American Educational Research Association.
  • Brookhart, S. M. (2013). How to create and use rubrics for formative assessment and grading. ASCD.
  • CAST. (2024). UDL Guidelines 3.0https://udlguidelines.cast.org/
  • Dawson, P. (2018). Assessment rubrics: Towards clearer and more replicable design, research and practice. Assessment & Evaluation in Higher Education, 43(7), 1106–1119.
  • Haladyna, T. M., y Rodriguez, M. C. (2013). Developing and validating test items (3rd ed.). Routledge.
  • Panadero, E., y Jönsson, A. (2013). The use of scoring rubrics for formative assessment purposes revisited: A review. Educational Research Review, 9, 129–144.
  • W3C/WAI. (2024). Web Content Accessibility Guidelines (WCAG) 2.2. World Wide Web Consortium.
OpenEdition le sugiere que cite este post de la siguiente manera:
García Aretio (5 de noviembre de 2025). Pruebas e instrumentos de evaluación en EaD (C.EaD-85). Contextos universitarios mediados. Recuperado 9 de noviembre de 2025 de https://doi.org/10.58079/153gf

No hay comentarios: