La IA de OpenAI que resuelve problemas abiertos en FrontierMath

El 23 de marzo de 2026, el mundo de la investigación matemática vivió un hito: por primera vez una inteligencia artificial resolvió un problema abierto del banco de pruebas FrontierMath Open Problems. Esta colección, creada por Epoch AI, reúne problemas que no habían sido resueltos por humanos ni por sistemas de IA y cuyos resultados se pueden verificar automáticamente. El logro, alcanzado por la versión GPT‑5.4 Pro, abre un nuevo capítulo en la colaboración entre máquinas y matemáticos.

Qué es FrontierMath y por qué importa

FrontierMath es un banco de problemas pensado para medir la capacidad de las IA de avanzar su frontera de conocimiento. El lanzamiento inicial contiene catorce problemas que, además de ser inéditos, incluyen descripciones detalladas, prompts precisos y los primeros intentos de diferentes modelos. Todos ellos fueron clasificados por matemáticos según su importancia, desde resultados moderadamente interesantes hasta avances rompedores.

Las premisas del proyecto son claras: las soluciones deben poder comprobarse por un programa y, en el momento de su publicación, ninguno de los problemas debe estar resuelto. Además, el conjunto busca representar temas diversos —combinatoria, teoría de números, topología— y las estimaciones de tiempo indican que un experto humano tardaría entre semanas y años en resolver estos retos. Timothy Gowers, medalla Fields, ha descrito las preguntas como “extremadamente difíciles”.

El problema resuelto: una cuestión de hipergráficos

El problema que ha inaugurado esta nueva era procede de una línea de trabajo de Will Brian y Paul Larson en 2019. La versión de FrontierMath lo describe como un problema de tipo Ramsey sobre hipergráficos y lo clasifica como moderadamente interesante. Se trata de mejorar las cotas inferiores de la función , que representa el tamaño máximo de un hipergráfico sin vértices aislados que no contiene particiones de tamaño mayor que . Los organizadores proporcionan tres niveles: un calentamiento con cotas ya conocidas, un desafío puntual para específico y el problema completo que exige un algoritmo general.

Antes del avance de GPT‑5.4, los matemáticos sospechaban que las mejores cotas inferiores disponibles eran subóptimas y que existían construcciones más eficientes. Resolver el problema requería diseñar un algoritmo que, dado un , generara un hipergráfico que mejorara la cota por un factor constante.

Cómo la IA consiguió la solución

El mérito recae en GPT‑5.4 Pro, modelo de lenguaje general que OpenAI lanzó a principios de marzo de 2026. Kevin Barreto y Liam Price lograron extraer la solución tras varios intentos, y el propio Will Brian confirmó que el resultado era publicable. Según Brian, la construcción elimina una ineficiencia en las cotas conocidas y igualaba las cotas superior e inferior, algo especialmente valioso en combinatoria.

Tras la verificación inicial, Epoch AI probó su andamiaje de evaluación con otros modelos: Opus 4.6 (max), Gemini 3.1 Pro y GPT‑5.4 (xhigh) también encontraron soluciones válidas. En cambio, versiones anteriores como GPT‑5.2 u Opus 4.5 no lo lograron, mostrando el salto generacional.

El rendimiento general de la IA en FrontierMath también se disparó: de aproximadamente 5 % con GPT‑4 en 2024 a 50 % con GPT‑5.4 Pro en marzo de 2026. La resolución de un problema abierto —en lugar de acertar preguntas con soluciones conocidas— marca una diferencia crucial ya que indica que los modelos empiezan a generar razonamientos novedosos en lugar de repetir patrones aprendidos.

Una estrategia en tres pasos: Python, retroalimentación y Lean

Los registros de la evaluación revelan que GPT‑5.4 adoptó un enfoque híbrido entre búsqueda computacional y verificación formal, lejos de la simple redacción de demostraciones en lenguaje natural. El proceso se organizó así:

Construcción algorítmica: el modelo generó y ejecutó scripts en Python para crear decenas de miles de hipergráficos. Este enfoque permitía explorar el espacio de construcciones en segundos.
Refinamiento iterativo: al detectar que un script no alcanzaba la cota deseada, la IA analizaba los fallos y ajustaba parámetros, repitiendo la búsqueda hasta encontrar una construcción prometedora.
Formalización: una vez localizada la construcción correcta, la describía en el lenguaje de verificación formal Lean. Así se garantizaba que cada paso lógico fuera verificable por un núcleo automático.

Además, el modelo extendió una construcción de un artículo de 2022 a un caso de mayor dimensión, igualando el límite sospechado. Para verificar las cotas obtenidas, el sistema generó scripts que ejecutaban pruebas exhaustivas y permitió que el código sustituyera tareas tediosas de revisión humana.

Reacciones de la comunidad matemática

La resolución suscitó opiniones diversas. El propio Will Brian calificó el resultado de “emocionante”. Por su parte, el medallista Fields Terence Tao considera que las IA pueden aliviar la limitación de recursos en matemáticas, aportando construcciones que los expertos revisarán y mejorarán. Otros, como Kevin Buzzard, hablan de “brotes verdes” y advierten que, aunque prometedor, aún queda mucho recorrido. El lógico Joel David Hamkins se muestra escéptico y afirma que la utilidad de estas herramientas para su disciplina es “prácticamente nula”.

Consejos técnicos para explorar problemas similares

Para quienes quieran experimentar con este tipo de retos o entender mejor cómo funcionan estas soluciones, os compartimos algunos consejos prácticos:

Aprovecha Python para exploración algorítmica. La construcción de hipergráficos se presta a búsquedas masivas. Usa bibliotecas como networkx para representar grafos y añade heurísticas para evitar configuraciones redundantes.

Implementa bucles de retroalimentación. Tras cada intento, analiza las estructuras generadas: ¿qué parámetros limitaron el tamaño del hipergráfico? Ajustar sistemáticamente estas variables ayuda a converger hacia mejores cotas.

Automatiza la verificación. Diseña funciones que comprueben si un hipergráfico cumple las condiciones del problema (por ejemplo, no tener particiones demasiado grandes). Esto permite filtrar candidatos rápidamente.

Integra Lean u otro verificador formal. Aunque aprender un lenguaje de pruebas asistido por ordenador requiere tiempo, ofrece garantías de corrección y evita “alucinaciones” en los razonamientos. La plataforma Lean 4 posee bibliotecas para combinatoria y teoría de grafos que pueden servir de base.

Documenta cada paso. Mantener un registro de los scripts y parámetros probados facilitará reproducir resultados y compartir hallazgos con otros investigadores.

Valida con expertos. Incluso si el verificador formal acepta la demostración, consulta a matemáticos familiarizados con el tema; pueden detectar sutilezas no codificadas en el programa.

El primer problema resuelto de FrontierMath demuestra que los modelos de IA ya pueden contribuir a la matemática contemporánea, al menos en dominios donde las soluciones son verificables por ordenador. La combinación de búsqueda exhaustiva, análisis automático y verificación formal evidencia que el cuello de botella no era la inteligencia en sí misma, sino la falta de circuitos de retroalimentación entre prueba y verificación.

Si estos resultados se repiten en los trece problemas restantes del conjunto, podrían acortar los plazos para ver IA realizando aportaciones significativas en investigación científica y tecnológica. En The Black Box Lab seguiremos atentos a estos avances y explorando cómo incorporarlos a nuestras soluciones, siempre con un ojo crítico y la mente abierta.

Fuentes:

https://epoch.ai/frontiermath/open-problems/about/
https://www.mindstudio.ai/blog/frontier-math-benchmark-open-research-problems-ai-reasoning
https://winbuzzer.com/2026/03/24/gpt-54-pro-solves-open-math-problem-epoch-ai-frontiermath-xcxwbn/
https://www.remio.ai/post/gpt-5-4-solves-its-first-open-math-problem-from-frontiermath-benchmark

The Black Box Lab

La IA resuelve su primer problema en FrontierMath