Bases y perspectivas de la evaluación educativa

La evaluación del aprendizaje es una práctica de suma importancia en el ámbito educativo a la que, sin embargo, se le ha dado poco espacio en la reflexión de los estudiosos de este tema en nuestro país. El estado de conocimiento sobre la evaluación del aprendizaje en el II Congreso Nacional de Investigación Educativa (Martínez y cols., 1993) señala que son muy pocos los trabajos realizados sobre este aspecto de la evaluación educativa a lo largo de la década comprendida de 1982 a 1992 (se encontraron únicamente 81 estudios, tesis y artículos, en revisión exhaustiva).

La falta de interés teórico por el tema y el consiguiente poco espacio dedicado a su análisis en las instituciones formadoras de maestros ha llevado a la generalización de prácticas evaluativas del logro escolar con las siguientes características:

a) Falta de reflexión sobre las razones por las cuales se evalúa, dando prioridad al cumplimiento administrativo sobre la utilidad real de la información.

b) Procedimientos e instrumentos de evaluación poco planeados y mal estructurados.

c) Escaso análisis de lo obtenido en las evaluaciones, priorizando los intereses crediticios («aprobé o no», «quince alumnos reprobaron», etcétera) por sobre los logros académicos («he aprendido al cien por ciento este contenido», «ya hay un conocimiento generalizado de esta materia o no», etcétera).

d) Una serie de factores que distorsionan la medición de lo que los estudiantes realmente saben, tales como ligar la conducta a la calificación, las altas posibilidades de fraude o las pruebas que privilegian lo memorístico sobre lo reflexivo.

La evaluación educativa es una estrategia de recolección de información sobre los diferentes momentos, actores y auxiliares del proceso enseñanza-aprendizaje. Si bien es indispensable que cada profesor haga evaluaciones particulares y a profundidad de estos elementos al interior de su espacio de trabajo, es también necesario contar con perspectivas más generales de la labor académica que sirvan de monitor a la totalidad de la comunidad de las escuelas.

Por tanto, la evaluación masiva de estudiantes, la evaluación reflexivaentre los maestros y la evaluación institucional se presentan como prácticas útiles en el acopio de datos globales sobre la situación escolar. Múltiples circunstancias han hecho que en algunas ocasiones la evaluación general se lleve a cabo con una perspectiva de conteo y control que recaba datos con instrumentos que no han sido depurados, asigna calificativos por simple tradición numérica,1 y genera listados llenos de cifras a los que no se da un uso en el perfeccionamiento del esquema educativo.

Es conocido el hecho de que un instrumento y/o método de evaluación (desde una regla hasta un electroencefalógrafo) que va a ser utilizado en repetidas ocasiones, para sacar conclusiones al hacer comparaciones debe cumplir ciertos criterios de confiabilidad y validez, así como ser pertinente.

La confiabilidad se refiere a la estabilidad del instrumento a través del tiempo y de las muestras. Sabemos que las condiciones y cualidades de los actores educativos son dinámicas, así que esta primera definición no parece ser muy útil en el ámbito de la escuela. Una segunda aproximación refiere que la medida confiable es aquella que se encuentra libre de error. Sin embargo, aunque esto parece ser suficientemente exacto (nunca totalmente), en las ciencias naturales (por ejemplo, en la medición del contenido de sodio en un compuesto) y en las ciencias sociales es muy ingenuo pensar en alcanzar la exactitud (puede incluso plantearse la duda de la posibilidad o la necesidad de ella en el plano filosófico). Una definición que nos parece más viable para la tarea que nos ocupa es la de considerar semejante a lo que es semejante, y diferente a lo que lo es, lo cual acerca la noción cuantitativa de confiabilidad a la noción cualitativa de imparcialidad (Fernández Ríos, 1994).

Los estándares para la evaluación educativa y psicológica por medio de pruebas (apa, 1985) señalan que «la validez es la consideración más importante en la evaluación por medio de pruebas. El concepto se refiere a la pertinencia, significación y utilidad de las inferencias específicas que se hagan de los puntajes de una prueba». Es muy difundida la definición básica de validez en instrumentos de evaluación que indica que éstos son válidos cuando miden lo que pretenden medir (Magnusson, 1975). Sin embargo, este concepto de validez aparentemente tan simple se encuentra en el centro de una polémica que aún actualmente se lleva a cabo. Gray (1997), haciendo una pequeña revisión, señala que:

…en 1949 Cronbach declaró que la definición de validez como «la extensión con que una prueba mide lo que pretende medir» era comúnmente aceptada, aunque él prefería una ligera modificación: una prueba es válida en el grado en que sabemos qué mide o predice. Cureton (1951) provee una definición similar: la cuestión esencial de la validez en las pruebas es qué tan bien realizan la tarea para la cual se les está usando. La validez es definida entonces en términos de la correlación entre los puntajes de una prueba y los «verdaderos» puntajes del criterio. La perdurable definición de Anastasi (usada desde 1954 hasta 1997), «la validez es qué mide una prueba y qué tan bien lo hace», es también citada ampliamente.

Gray (op. cit.) señala también que, aunque Cronbach tendió a evitar redefinir el término surgido en 1949, en 1971 hizo un comentario que reavivó la controversia: «validación es el proceso de examinar la precisión de una predicción o inferencia específica hecha a partir de los puntajes de una prueba«, o bien, como señalan otros autores, «la validez se refiere no a las puntuaciones o datos en sí mismos, sino a las inferencias que se hagan a partir de ellos bajo determinadas circunstancias» (Cronbach, Vernon, cit. en Silva y Martorell, 1991); «lo que se valida no es el instrumento, sino la interpretación de los datos obtenidos por medio de un procedimiento especificado» (Aragón, 1990); «la validez depende de la ‘adecuación y pertinencia de inferencias y acciones’ basadas en los resultados de la evaluación» (Messick, 1989, en Linn y Baker, 1996).

Finalmente, es importante señalar que, aunque muchos autores (Rudner, 1993; Niemi, 1996; Aragón, op. cit.; Tourón, 1989; Burns, 1996; gao, 1991) reportan al menos tres tipos «clásicos» de validez, actualmente existe una tendencia a considerar un tipo único de validez (Gray, op. cit.; Silva y Martorell, op. cit., quienes incluso sugieren que el concepto de confiabilidad también es mucho más cercano al de validez de lo que se ha pensado), del cual, eso sí, se obtienen distintos tipos de evidencias:

Se ha sugerido que la validez de constructo abarca tanto a la validez de criterio como a la de contenido. Sheperd anotó que la validez de constructo incluye los requisitos teóricos y empíricos de la validez de contenido y de criterio. Anastasi (1986) coincide en que la validez de constructo subsume los requisitos de la validez de contenido y de criterio. (Stapleton, 1997)

Existen tres puntos de especial importancia en cuanto a la pertinencia de un procedimiento de evaluación:

1. Que el tipo de información arrojada sea realmente un indicador útil sobre los conocimientos y/o habilidades de la población.
2. Que existan criterios fundamentados para interpretar las cifras obtenidas en la examinación masiva.
3. Que la información obtenida llegue a los destinatarios que pueden darle utilidad, es decir, los profesores, planificadores académicos al interior de la escuela y los propios estudiantes.

Autor de esta obra:
Andrés Sánchez Moguel – http://educacion.jalisco.gob.mx/consulta/educar/