Metodología del Ranking de Predicciones de IA y Derecho

Cómo evaluamos la capacidad predictiva: Brier Score, rúbrica de operacionalización y estructura temporal del Observatorio de Predicciones.

Por Philippe Prince Tritto · Publicado el 28 de febrero de 2026 ·

prediccionesmetodología

🌐 Read in English

En diciembre de 2024, The National Law Review publicó 65 predicciones de expertos sobre el futuro de la IA y el derecho para 2025. Nuestro equipo tomó esas predicciones —que con el desglose totalizaron 141— y las verificó manualmente contra la realidad. Los resultados están en nuestro Observatorio de Predicciones EE.UU..

El ejercicio reveló un problema fundamental: las predicciones fueron recopiladas sin ninguna metodología científica. No incluían probabilidades asignadas, ni fechas límite concretas, ni criterios de verificación predefinidos. Muchas eran tan vagas que era casi imposible fallar —lo que en psicología se conoce como efecto Barnum.

Este documento describe la metodología que estamos desarrollando para el Ranking de Predicciones de IA y Derecho · México 2026. Se trata de un documento en construcción, que será pre-registrado próximamente en el Center for Open Science (cos.io) para garantizar transparencia y rigor metodológico.

El punto de partida

La siguiente tabla resume las diferencias entre el enfoque de recopilación de predicciones del NLR y el instrumento del LabDerIA:

Criterio	NLR (2024)	LabDerIA (2026)
Probabilidad asignada	✗ No	✓ 5%–95%
Fecha límite de resolución	✗ “In 2025”	✓ Fecha exacta
Criterio de verificación	✗ No	✓ Predefinido por el predictor
Control del efecto Barnum	✗ No	✓ Rúbrica de operacionalización (0–5)
Meta-cognición	✗ No	✓ 3 niveles
Ranking calculable	✗ No	✓ Brier Score
Base teórica	✗ Periodismo	✓ Peer-reviewed

Fundamento científico

Nuestra metodología se basa en la teoría de proper scoring rules desarrollada en estadística y ciencias de la predicción. Una proper scoring rule es una función de evaluación que incentiva al pronosticador a reportar su creencia verdadera: ni exagerar la confianza ni esconderse en la vaguedad.

La métrica central es el Brier Score, propuesto por Glenn Brier en 1950 [1]. Se calcula como el error cuadrático medio entre la probabilidad asignada y el resultado observado:

BS = (1/N) Σ (ft − ot)²

Donde ft es la probabilidad asignada y ot es el resultado (0 o 1). Un score de 0 es perfecto; 1 es pésimo. Si siempre asignas 50%, tu Brier Score será 0.25 — el baseline de “no saber nada”.

Murphy (1973) [2] demostró que el Brier Score se puede descomponer en tres componentes: calibración (¿cuando dices 70%, ocurre el 70% de las veces?), resolución (¿discriminas entre eventos que sí y no ocurren?), e incertidumbre (la dificultad inherente del fenómeno). Esta descomposición permite diagnosticar por qué un predictor falla.

Gneiting y Raftery (2007) [3] formalizaron la teoría general de las strictly proper scoring rules en el Journal of the American Statistical Association, demostrando que tanto el Brier Score como el log score son estrictamente propios: el puntaje esperado se maximiza únicamente cuando el pronosticador reporta su distribución de creencias verdadera.

Validación empírica: el Good Judgment Project

El marco más riguroso para evaluar predicciones sobre hechos sociales proviene del Good Judgment Project de Philip Tetlock y Barbara Mellers, financiado por IARPA (la agencia de investigación de la comunidad de inteligencia de EE.UU.). Entre 2011 y 2015, más de 5,000 pronosticadores emitieron más de un millón de predicciones sobre aproximadamente 500 preguntas geopolíticas.

Los resultados —documentados en más de 25 artículos peer-reviewed— demostraron que un pequeño grupo de “superforecasters” (el top 2%) superó consistentemente en 30% a analistas profesionales de inteligencia con acceso a información clasificada [4]. Mellers et al. (2014) [4] identificaron tres factores clave: entrenamiento en razonamiento probabilístico, trabajo en equipo, y tracking (accountability). Friedman et al. (2018) [5] demostraron específicamente que la precisión en las estimaciones de probabilidad tiene valor informativo, confirmando que la granularidad no es ruido sino señal.

Nuestro instrumento

Cada predicción registrada en nuestro sistema incluye siete campos:

Predicción en texto libre
Probabilidad explícita (5%–95% en incrementos de 5%)
Fecha límite de resolución
Criterio objetivo de verificación definido por el predictor
Categoría temática
Zona geográfica (México federal/estatal, EE.UU., UE, Latinoamérica, África, Asia/Pacífico, Global, Otro)
Autoevaluación de confianza meta-cognitiva en tres niveles

La probabilidad explícita es lo que permite calcular Brier Scores reales. Sin ella, solo hay opiniones.

Control del efecto Barnum: rúbrica de operacionalización

El efecto Barnum es la tendencia a formular predicciones tan vagas que son casi imposibles de falsificar (“la IA transformará el derecho”). Para controlar este sesgo, el equipo del LabDerIA evalúa cada predicción mediante una rúbrica de operacionalización inspirada en los criterios de calidad de preguntas de plataformas como Metaculus y en el Clairvoyance Test de Tetlock: si le entregaras tu predicción a un clarividente genuino, ¿podría ver el futuro y decirte con certeza si se cumplió o no?

La rúbrica tiene cinco dimensiones, cada una binaria (0 = no cumple, 1 = cumple). Dos evaluadores independientes del equipo evalúan cada predicción; en caso de desacuerdo, un tercer evaluador desempata.

#	Dimensión	✗ No cumple	✓ Cumple
D1	Verificabilidad binaria. ¿Se puede resolver como SÍ o NO?	”La IA transformará el derecho"	"El Senado aprobará un dictamen de ley federal de IA”
D2	Especificación del actor. ¿Se identifica quién actúa?	”Habrá más regulación"	"La SCJN emitirá un protocolo”
D3	Especificación temporal. ¿Incluye horizonte temporal concreto?	”Se adoptará IA en los tribunales"	"Antes de diciembre de 2026, al menos 5 tribunales federales usarán IA generativa”
D4	Criterio de verificación observable. ¿Se puede verificar con fuente pública?	”Mejorará la eficiencia judicial"	"Se publicará en el DOF”
D5	Condición no trivial. ¿Hay incertidumbre genuina?	”Las firmas seguirán invirtiendo en tecnología"	"Al menos una firma del top 10 cerrará su departamento de IA por falta de ROI”

Clasificación por puntuación

El score resultante (0–5) se usa como filtro de calidad al ingreso, no como ponderación del Brier Score:

Puntuación	Clasificación	Acción
0–1	Rechazada	Se pide al predictor que reformule con mayor precisión
2	Condicional	Se incluye provisionalmente; el equipo puede solicitar aclaración
3–4	Aceptada	Cumple estándares suficientes de operacionalización
5	Ejemplar	Pasa el Clairvoyance Test sin dificultad

Esta decisión de diseño es deliberada. El Brier Score es una strictly proper scoring rule [3]: ya incentiva al pronosticador a reportar su creencia verdadera y penaliza matemáticamente la vaguedad. Ponderar el Brier Score por un índice adicional de especificidad rompería esta propiedad. En cambio, controlar la calidad al ingreso —como hacen los torneos IARPA y plataformas como Metaculus— preserva la pureza del scoring rule e incentiva a los participantes a formular predicciones bien operacionalizadas desde el inicio.

En el reporte publicable, complementamos el Brier Score con la descomposición de Murphy [2], que separa calibración, resolución e incertidumbre. La resolución —la capacidad del predictor de discriminar entre eventos que sí y que no ocurren— es un indicador natural de calidad predictiva que ya está contenido en el Brier Score sin necesidad de ajustes externos.

Estructura temporal

El ranking opera en dos tracks:

Track Anual. Incluye predicciones con fecha límite dentro del año en curso y alimenta el ranking publicable cada enero.
Track de Largo Plazo. Acumula predicciones con horizontes mayores a un año, que se incorporan al score acumulado del predictor conforme vencen.

Siguiendo la evidencia de Tetlock, el mínimo de 3 predicciones por participante permite análisis agregados, aunque se recomienda un mínimo de 10 para scores individuales más robustos.

¿Quieres poner a prueba tu capacidad predictiva? Participa en el Ranking de Predicciones de IA y Derecho · México 2026 y demuestra qué tan bien anticipas el futuro del derecho y la inteligencia artificial.

Referencias

Brier, G.W. (1950). Verification of forecasts expressed in terms of probability. Monthly Weather Review, 78(1), 1–3. doi:10.1175/1520-0493(1950)078<0001:VOFEIT>2.0.CO;2
Murphy, A.H. (1973). A new vector partition of the probability score. Journal of Applied Meteorology, 12, 595–600. doi:10.1175/1520-0450(1973)012<0595:ANVPOT>2.0.CO;2
Gneiting, T. & Raftery, A.E. (2007). Strictly proper scoring rules, prediction, and estimation. Journal of the American Statistical Association, 102(477), 359–378. doi:10.1198/016214506000001437
Mellers, B. et al. (2014). Psychological strategies for winning a geopolitical forecasting tournament. Psychological Science, 25(5), 1106–1115. doi:10.1177/0956797614524255
Friedman, J.A., Baker, J.D., Mellers, B.A., Tetlock, P.E. & Zeckhauser, R. (2018). The value of precision in probability assessment: Evidence from a large-scale geopolitical forecasting tournament. International Studies Quarterly, 62, 410–422. doi:10.1093/isq/sqx078
Mellers, B. et al. (2015). Identifying and cultivating superforecasters as a method of improving probabilistic predictions. Perspectives on Psychological Science, 10(3), 267–281. doi:10.1177/1745691615577794