Validez en Jaque: La crisis de instrumentos de evaluación de aprendizaje en los cursos eLearning en el contexto de la Inteligencia Artificial.

 


Cualquier profesora o profesor, o quien haya recibido un mínimo de formación en pedagogía y evaluación de aprendizajes, sabrá los tres principales requisitos que debe poseer cualquier instrumento que tenga por propósito recopilar evidencia del aprendizaje de sus estudiantes. Validez, confiabilidad y objetividad son características que le otorgan a un examen un mínimo de credibilidad para ser considerado como información veraz para acreditar que una persona aprendió lo que se esperaba que aprendiera.

Aunque en el cotidiano se suelen escuchar validez, confiabilidad y objetividad como si fueran la misma cosa, en realidad describen dimensiones bastante especificas en el proceso de evaluación. Vamos por parte. La validez (Linn, 1993) debe ser comprendida como la cualidad que posee el instrumento para evaluar lo que realmente de pretende medir. Por otro lado, la confiabilidad (Cronbach, 1971) es entendida como un atributo que considera la consistencia y estabilidad en el tiempo o entre evaluadores que puede tener el instrumento. Y, finalmente, la objetividad (Nitko & Brookhasrt, 2014) plantea como concepto la necesidad de que los resultados que se obtengan del instrumento no deben de depender del evaluador/a.

Sabemos que la oferta de cursos e-learning —especialmente aquellos en modalidad asincrónica— recurre con frecuencia a instrumentos de evaluación a distancia, los cuales pueden ser resueltos por los estudiantes en tiempos diferidos. Un ejemplo de ello son los MOOC (Massive Open Online Courses) y los cursos autogestionados, que suelen emplear mecanismos como cuestionarios y foros para que los participantes demuestren los conocimientos adquiridos. Si bien es cierto que estos formatos, al no contar con supervisión directa de docentes o tutores, han permitido tradicionalmente que los estudiantes consulten fuentes y apliquen estrategias de estudio para responder, el uso creciente de herramientas de Inteligencia Artificial Generativa (IAG) plantea un desafío preocupante para la continuidad y efectividad de este tipo de evaluación.

La IAG si bien otorga herramientas a los/as diseñadores instruccionales para el desarrollo de materiales y recursos en la implementación de cursos, cuando esta se encuentra disponible a los participantes de programas e-learning puede representar un problema serio de ética académica. Las actuales herramientas no tan sólo pueden chatear con los estudiantes del curso respectos a temas sobre los contenidos, sino que también pueden, por ellos, articular intervenciones en foros, o responder preguntas de opción múltiple o desarrollo en los exámenes en tiempos tan breves que ni siquiera da margen para procesos de aprendizaje informales o autónomos. Si bien anteriormente los estudiantes podían responder preguntas utilizando los apuntes del curso, esto al menos implicaba algún grado de aprendizaje, ya que requería procesos de búsqueda, análisis y estudio de las fuentes, en línea con el enfoque de “evaluación para el aprendizaje” (Ahumada, 2005). Sin embargo, lo que actualmente se comienza a evidenciar es que las herramientas de Inteligencia Artificial Generativa, en constante perfeccionamiento, ofrecen respuestas con tal rapidez y calidad que, en muchos casos —dados los diseños actuales de curso—, eliminan la necesidad de verificación por parte del estudiante. Como resultado, la evaluación pierde su valor tanto como instancia de aprendizaje como evidencia de este.

Por lo tanto, la validez de los instrumentos de evaluación en los cursos e-learning (sin presencialidad) están en franco proceso de duda en el actual contexto. ¿Cómo sabemos realmente si la evidencia, es decir, las respuestas se originaron por un proceso intelectual por parte de sus estudiantes y no por respuestas de algoritmos de IAG? No sabemos si se esta midiendo lo que se quiere medir. Del mismo modo, será interesante comenzar a analizar los datos de los resultados de estos exámenes en el transcurso de estos semestres o años, ya que las mediciones de confiabilidad también pueden estar arrojando alteraciones y mejoras irregulares en los rendimientos de instrumentos de evaluación en distintas implementaciones de cursos e-learning desde el 2023 a la fecha. Si bien es sabido que hay herramientas que se otorgan la cualidad de detectar textos elaborados por IAG, su margen de certeza siempre es probabilístico y por lo tanto la certeza de si hay plagio no existe en un 100%, lo que las hace ser herramientas no enteramente confiables. En el caso de exámenes de opción múltiple es mayor la ceguera ya que no hay ninguna posibilidad de detección a distancia más que apelar a la ética de los estudiantes.

La solución a este escenario de crisis de la validez y la confiabilidad de los instrumentos de evaluación en los cursos e-learning parece ir por la senda de retornar a modelos b-learning de evaluaciones presenciales, muy en sintonía con modelos de aprendizaje de clase invertida (Flipped Classroom) en donde las jornadas sean instancias de evaluación formativa o de recolección de información como evidencia de lo aprendido. La otra vía radica en el hecho de articular diseños instruccionales que apelen a la experiencia única y personal de los participantes y sus contextos cercanos, para la aplicación de significados en dimensiones vinculante al estudiante, lo que requiere del rediseño de consignas e instrumentos de evaluación y a un cuidadoso diseño didáctico.

La posición de prohibir inteligencia artificial en los procesos de aprendizaje, aunque puede ser tentador, no es el camino, ya que, durante los procesos de investigación, producción combinada de insumos de aprendizaje o dudas por parte de los estudiantes pueden ser magnificas herramientas de retroalimentación. El problema se centra en ciertas estrategias de evaluación de aprendizaje que han quedado obsoletas (Mc Luhan, 1964) porque el contexto tecnológico ha cambiado los escenarios sociales y educativos. El e-learning y todos los cursos diseñados previo al año 2023, momento en que se masifica la IAG, deben ser con urgencia reformulados (o a lo menos revisados curricularmente), ya que, de lo contrario, estamos en presencia de una clara ineficacia en los procesos de enseñanza-aprendizaje formales que requieren de la validez y confiabilidad de los instrumentos de evaluación que recogen evidencia de que el hecho educativo realmente ocurrió.

 

Referencias:

·         Ahumada Acevedo, P. (2005). Hacia una evaluación auténtica del aprendizaje. México: Paidós Educador.

·         Cronbach, L. J. (1971). Test validation. In R. L. Thorndike (Ed.), Educational measurement (2nd ed., pp. 443–507). American Council on Education.

·         Linn, R. L. (1993). Educational assessment: Expanded expectations and challenges. Educational Evaluation and Policy Analysis, 15(1), 1–16. https://doi.org/10.3102/01623737015001001

·         Nitko, A. J., & Brookhart, S. M. (2014). Educational assessment of students (7th ed.). Pearson.

 

Comentarios