Metodología del Ranking de Predicciones de IA y Derecho
Cómo evaluamos la capacidad predictiva: Brier Score, rúbrica de operacionalización y estructura temporal del Observatorio de Predicciones.
En diciembre de 2024, The National Law Review publicó 65 predicciones de expertos sobre el futuro de la IA y el derecho para 2025. Nuestro equipo tomó esas predicciones —que con el desglose totalizaron 141— y las verificó manualmente contra la realidad. Los resultados están en nuestro Observatorio de Predicciones EE.UU..
El ejercicio reveló un problema fundamental: las predicciones fueron recopiladas sin ninguna metodología científica. No incluían probabilidades asignadas, ni fechas límite concretas, ni criterios de verificación predefinidos. Muchas eran tan vagas que era casi imposible fallar —lo que en psicología se conoce como efecto Barnum.
Este documento describe la metodología que estamos desarrollando para el Ranking de Predicciones de IA y Derecho · México 2026. Se trata de un documento en construcción, que será pre-registrado próximamente en el Center for Open Science (cos.io) para garantizar transparencia y rigor metodológico.
El punto de partida
La siguiente tabla resume las diferencias entre el enfoque de recopilación de predicciones del NLR y el instrumento del LabDerIA:
| Criterio | NLR (2024) | LabDerIA (2026) |
|---|---|---|
| Probabilidad asignada | ✗ No | ✓ 5%–95% |
| Fecha límite de resolución | ✗ “In 2025” | ✓ Fecha exacta |
| Criterio de verificación | ✗ No | ✓ Predefinido por el predictor |
| Control del efecto Barnum | ✗ No | ✓ Rúbrica de operacionalización (0–5) |
| Meta-cognición | ✗ No | ✓ 3 niveles |
| Ranking calculable | ✗ No | ✓ Brier Score |
| Base teórica | ✗ Periodismo | ✓ Peer-reviewed |
Fundamento científico
Nuestra metodología se basa en la teoría de proper scoring rules desarrollada en estadística y ciencias de la predicción. Una proper scoring rule es una función de evaluación que incentiva al pronosticador a reportar su creencia verdadera: ni exagerar la confianza ni esconderse en la vaguedad.
La métrica central es el Brier Score, propuesto por Glenn Brier en 1950 [1]. Se calcula como el error cuadrático medio entre la probabilidad asignada y el resultado observado:
BS = (1/N) Σ (ft − ot)²
Donde ft es la probabilidad asignada y ot es el resultado (0 o 1). Un score de 0 es perfecto; 1 es pésimo. Si siempre asignas 50%, tu Brier Score será 0.25 — el baseline de “no saber nada”.
Murphy (1973) [2] demostró que el Brier Score se puede descomponer en tres componentes: calibración (¿cuando dices 70%, ocurre el 70% de las veces?), resolución (¿discriminas entre eventos que sí y no ocurren?), e incertidumbre (la dificultad inherente del fenómeno). Esta descomposición permite diagnosticar por qué un predictor falla.
Gneiting y Raftery (2007) [3] formalizaron la teoría general de las strictly proper scoring rules en el Journal of the American Statistical Association, demostrando que tanto el Brier Score como el log score son estrictamente propios: el puntaje esperado se maximiza únicamente cuando el pronosticador reporta su distribución de creencias verdadera.
Validación empírica: el Good Judgment Project
El marco más riguroso para evaluar predicciones sobre hechos sociales proviene del Good Judgment Project de Philip Tetlock y Barbara Mellers, financiado por IARPA (la agencia de investigación de la comunidad de inteligencia de EE.UU.). Entre 2011 y 2015, más de 5,000 pronosticadores emitieron más de un millón de predicciones sobre aproximadamente 500 preguntas geopolíticas.
Los resultados —documentados en más de 25 artículos peer-reviewed— demostraron que un pequeño grupo de “superforecasters” (el top 2%) superó consistentemente en 30% a analistas profesionales de inteligencia con acceso a información clasificada [4]. Mellers et al. (2014) [4] identificaron tres factores clave: entrenamiento en razonamiento probabilístico, trabajo en equipo, y tracking (accountability). Friedman et al. (2018) [5] demostraron específicamente que la precisión en las estimaciones de probabilidad tiene valor informativo, confirmando que la granularidad no es ruido sino señal.
Nuestro instrumento
Cada predicción registrada en nuestro sistema incluye siete campos:
- Predicción en texto libre
- Probabilidad explícita (5%–95% en incrementos de 5%)
- Fecha límite de resolución
- Criterio objetivo de verificación definido por el predictor
- Categoría temática
- Zona geográfica (México federal/estatal, EE.UU., UE, Latinoamérica, África, Asia/Pacífico, Global, Otro)
- Autoevaluación de confianza meta-cognitiva en tres niveles
La probabilidad explícita es lo que permite calcular Brier Scores reales. Sin ella, solo hay opiniones.
Control del efecto Barnum: rúbrica de operacionalización
El efecto Barnum es la tendencia a formular predicciones tan vagas que son casi imposibles de falsificar (“la IA transformará el derecho”). Para controlar este sesgo, el equipo del LabDerIA evalúa cada predicción mediante una rúbrica de operacionalización inspirada en los criterios de calidad de preguntas de plataformas como Metaculus y en el Clairvoyance Test de Tetlock: si le entregaras tu predicción a un clarividente genuino, ¿podría ver el futuro y decirte con certeza si se cumplió o no?
La rúbrica tiene cinco dimensiones, cada una binaria (0 = no cumple, 1 = cumple). Dos evaluadores independientes del equipo evalúan cada predicción; en caso de desacuerdo, un tercer evaluador desempata.
| # | Dimensión | ✗ No cumple | ✓ Cumple |
|---|---|---|---|
| D1 | Verificabilidad binaria. ¿Se puede resolver como SÍ o NO? | ”La IA transformará el derecho" | "El Senado aprobará un dictamen de ley federal de IA” |
| D2 | Especificación del actor. ¿Se identifica quién actúa? | ”Habrá más regulación" | "La SCJN emitirá un protocolo” |
| D3 | Especificación temporal. ¿Incluye horizonte temporal concreto? | ”Se adoptará IA en los tribunales" | "Antes de diciembre de 2026, al menos 5 tribunales federales usarán IA generativa” |
| D4 | Criterio de verificación observable. ¿Se puede verificar con fuente pública? | ”Mejorará la eficiencia judicial" | "Se publicará en el DOF” |
| D5 | Condición no trivial. ¿Hay incertidumbre genuina? | ”Las firmas seguirán invirtiendo en tecnología" | "Al menos una firma del top 10 cerrará su departamento de IA por falta de ROI” |
Clasificación por puntuación
El score resultante (0–5) se usa como filtro de calidad al ingreso, no como ponderación del Brier Score:
| Puntuación | Clasificación | Acción |
|---|---|---|
| 0–1 | Rechazada | Se pide al predictor que reformule con mayor precisión |
| 2 | Condicional | Se incluye provisionalmente; el equipo puede solicitar aclaración |
| 3–4 | Aceptada | Cumple estándares suficientes de operacionalización |
| 5 | Ejemplar | Pasa el Clairvoyance Test sin dificultad |
Esta decisión de diseño es deliberada. El Brier Score es una strictly proper scoring rule [3]: ya incentiva al pronosticador a reportar su creencia verdadera y penaliza matemáticamente la vaguedad. Ponderar el Brier Score por un índice adicional de especificidad rompería esta propiedad. En cambio, controlar la calidad al ingreso —como hacen los torneos IARPA y plataformas como Metaculus— preserva la pureza del scoring rule e incentiva a los participantes a formular predicciones bien operacionalizadas desde el inicio.
En el reporte publicable, complementamos el Brier Score con la descomposición de Murphy [2], que separa calibración, resolución e incertidumbre. La resolución —la capacidad del predictor de discriminar entre eventos que sí y que no ocurren— es un indicador natural de calidad predictiva que ya está contenido en el Brier Score sin necesidad de ajustes externos.
Estructura temporal
El ranking opera en dos tracks:
- Track Anual. Incluye predicciones con fecha límite dentro del año en curso y alimenta el ranking publicable cada enero.
- Track de Largo Plazo. Acumula predicciones con horizontes mayores a un año, que se incorporan al score acumulado del predictor conforme vencen.
Siguiendo la evidencia de Tetlock, el mínimo de 3 predicciones por participante permite análisis agregados, aunque se recomienda un mínimo de 10 para scores individuales más robustos.
¿Quieres poner a prueba tu capacidad predictiva? Participa en el Ranking de Predicciones de IA y Derecho · México 2026 y demuestra qué tan bien anticipas el futuro del derecho y la inteligencia artificial.
Referencias
- Brier, G.W. (1950). Verification of forecasts expressed in terms of probability. Monthly Weather Review, 78(1), 1–3. doi:10.1175/1520-0493(1950)078<0001:VOFEIT>2.0.CO;2
- Murphy, A.H. (1973). A new vector partition of the probability score. Journal of Applied Meteorology, 12, 595–600. doi:10.1175/1520-0450(1973)012<0595:ANVPOT>2.0.CO;2
- Gneiting, T. & Raftery, A.E. (2007). Strictly proper scoring rules, prediction, and estimation. Journal of the American Statistical Association, 102(477), 359–378. doi:10.1198/016214506000001437
- Mellers, B. et al. (2014). Psychological strategies for winning a geopolitical forecasting tournament. Psychological Science, 25(5), 1106–1115. doi:10.1177/0956797614524255
- Friedman, J.A., Baker, J.D., Mellers, B.A., Tetlock, P.E. & Zeckhauser, R. (2018). The value of precision in probability assessment: Evidence from a large-scale geopolitical forecasting tournament. International Studies Quarterly, 62, 410–422. doi:10.1093/isq/sqx078
- Mellers, B. et al. (2015). Identifying and cultivating superforecasters as a method of improving probabilistic predictions. Perspectives on Psychological Science, 10(3), 267–281. doi:10.1177/1745691615577794