Sebastián Sarmiento
← Trabajo / Índice

Marco · Medición 2023

Un modelo de dominio que sobrevivió un currículo real

Cómo reemplazamos una lista de verificación de estándares con un modelo de dominio que los docentes podían utilizar — y que la estadística podía defender.

Confidencialidad — La institución, los datos y las herramientas propietarias están abstraídos. Lo que sigue es la lógica de decisión transferible, no una exposición interna.

01 — Contexto

Un programa de matemáticas había adoptado un enfoque de dominio sobre el papel, pero operaba en la práctica como una lista de verificación de cobertura. Los docentes marcaban estándares como “completados”; el sistema reportaba verde; y nadie podía decir qué autorizaba realmente creer sobre un estudiante a partir de una celda verde.

El encargo parecía un problema de reportes. Era un problema de medición disfrazado de problema de reportes.

02 — La decisión real

La decisión no era “¿qué panel de control?” Era: ¿cuál es la unidad de dominio, y qué evidencia autoriza la afirmación de que un estudiante lo posee? Todo lo que viene después — el diseño de ítems, los reportes, la intervención — queda determinado por esa única respuesta.

Un modelo de dominio es una afirmación sobre un aprendiz. Si no puedes decir qué haría que la afirmación fuera falsa, no estás midiendo — estás decorando.

03 — Mi rol

Lideré la estrategia curricular y fui responsable de la lógica de medición de principio a fin: definir los constructos, diseñar y validar ítems, y especificar cómo el modelo sería interpretado por los docentes y visualizado por el producto. Trabajé entre el aula, la psicometría y la ingeniería, traduciendo en las tres direcciones.

04 — Restricciones

01
Minutos, no horas
Los docentes debían interpretar un resultado de un vistazo.
02
Volumen de ítems finito
No podíamos evaluar directamente cada sub-habilidad.
03
Auditable
Los reportes debían sobrevivir el escrutinio de un jefe de departamento escéptico.

05 — La lógica utilizada

Modelamos cada objetivo de dominio como un constructo latente con un modelo de evidencia explícito, calibrado con la Teoría de Respuesta al Ítem para que la dificultad y la discriminación fueran propiedades de los ítems, no de las opiniones. Donde los objetivos eran secuenciales, el Rastreo Bayesiano del Conocimiento (BKT) trasladaba la creencia hacia adelante en lugar de reiniciarla en cada evaluación.

constructo       → modelo de evidencia → banco de ítems
respuesta        → calibración TRI     → estimación de habilidad
prior × evidencia → posterior BKT      → afirmación de dominio

06 — Alternativas consideradas

Un corte simple de porcentaje de respuestas correctas era lo más sencillo, pero confundía evidencia fácil y difícil. Un clasificador puramente basado en aprendizaje automático predecía bien, pero no podía explicarse a un docente ni defenderse en una auditoría. Elegimos el modelo que podíamos argumentar, aceptando un pequeño costo en ajuste bruto a cambio de una gran ganancia en legibilidad y rendición de cuentas.

07 — El sistema diseñado

El resultado no fue un panel de control, sino un objeto pequeño y honesto: una afirmación de dominio, la evidencia que la respalda y una confianza declarada — diseñado para que un docente pudiera disentir de él de manera inteligente.

Signature module La afirmación de dominio, diseccionada

Este estudiante puede modelar una relación lineal a partir de una tabla — no solo completar la hoja de trabajo que la contenía.

Afirmación
Enuncia el constructo, las condiciones y el "de nuevo".
Evidencia
Cuatro ítems en dos niveles de dificultad, más una tarea de transferencia.
Confianza
Alta — validada externamente, no autoconfirmada.
Fig. 1 — Reconstruida a partir de la tarjeta en producción; ejes renombrados, datos sintéticos.

08 — Artefactos abstraídos

09 — Validación y criterios de calidad

  • Los ítems pasaron estadísticas de ajuste y fueron revisados por relevancia para el constructo, no solo por dificultad.
  • Las afirmaciones de dominio se verificaron contra desempeño retenido, no contra sí mismas.
  • Una afirmación sobre la que un docente no pudiera actuar se trató como un defecto, no como una característica.

10 — Reflexiones

El trabajo más difícil fue decidir qué no medir. Un conjunto más pequeño de afirmaciones bien fundamentadas superó a un mapa completo de suposiciones — y es la parte que se transfiere a cada problema de medición que he enfrentado desde entonces.