El placer de escuchar

Un examen con 2.500 preguntas diseñado por científicos de todo el mundo acaba de medir a las IAs más potentes. El resultado muestra lo cerca que estamos —y lo lejos que seguimos— de la inteligencia artificial general

La inteligencia artificial avanza a una velocidad que hace difícil medir sus verdaderos límites. Para intentar responder a una pregunta cada vez más urgente —cuán cerca estamos de una inteligencia artificial general— un grupo de investigadores decidió diseñar un experimento radical. El resultado es Humanity’s Last Exam, una prueba que intenta evaluar si los modelos actuales pueden enfrentarse al conocimiento humano especializado en condiciones extremadamente exigentes.

Un examen diseñado para desafiar a la inteligencia artificial

Un examen con 2.500 preguntas diseñado por científicos de todo el mundo acaba de medir a las IAs más potentes. El resultado muestra lo cerca que estamos —y lo lejos que seguimos— de la inteligencia artificial general
© Unsplash / Resource Database.

El Humanity’s Last Exam fue elaborado por investigadores del Center for AI Safety y Scale AI, con el objetivo de crear un nuevo estándar para evaluar las capacidades reales de los grandes modelos de lenguaje. La prueba se publicó oficialmente en enero de 2025 y fue descrita en la revista científica Nature.

El examen incluye 2.500 preguntas distribuidas en más de 100 disciplinas, desde historia y mitología hasta física avanzada o matemáticas. La elaboración del cuestionario fue un esfuerzo internacional: participaron más de 1.000 expertos procedentes de 500 instituciones en 50 países.

El objetivo era simple en apariencia, pero extremadamente difícil en la práctica. Los investigadores querían comprobar si sistemas como ChatGPT, Gemini, Claude o DeepSeek podían aproximarse al conocimiento experto humano en distintos campos.

Un filtro extremo para evitar respuestas fáciles

El diseño del examen siguió criterios muy estrictos. Los investigadores rechazaron cualquier pregunta que pudiera encontrarse fácilmente en internet o que los modelos de IA fueran capaces de responder correctamente durante pruebas preliminares.

De más de 70.000 preguntas iniciales, solo unas 13.000 superaron el primer filtro automático, ya que lograban confundir a los modelos de inteligencia artificial existentes. Posteriormente, especialistas revisaron el material y redujeron el conjunto final a 2.500 preguntas, todas con un nivel equivalente al de estudios de doctorado.

El resultado es una batería extremadamente difícil que incluye desde cuestiones culturales hasta problemas avanzados de física, como el análisis de fuerzas y movimiento en sistemas sin fricción.

Resultados que muestran progreso… pero no dominio

Un examen con 2.500 preguntas diseñado por científicos de todo el mundo acaba de medir a las IAs más potentes. El resultado muestra lo cerca que estamos —y lo lejos que seguimos— de la inteligencia artificial general
© Eric Sucar / University of Pennsylvania.

Cuando se lanzó el examen, los modelos disponibles mostraban un rendimiento muy limitado. Uno de los primeros resultados publicados situaba al modelo o1 de OpenAI en cabeza con una puntuación de apenas 8,3 % de respuestas correctas. Sin embargo, el rápido desarrollo de los modelos de IA cambió el panorama en poco tiempo.

A febrero de 2026, la mejor marca registrada corresponde a Gemini 3 Deep Think, con un 48,4 % de aciertos. El salto es significativo, pero la comparación con expertos humanos deja claro que todavía existe una distancia importante. Los especialistas suelen alcanzar alrededor del 90 % de respuestas correctas en sus áreas de conocimiento.

Esto coloca a la inteligencia artificial en una posición intermedia: capaz de resolver problemas complejos, pero aún lejos del dominio experto humano.

Lo que realmente mide este examen

Los propios autores del estudio advierten que el Humanity’s Last Exam no debe interpretarse como una medida directa de inteligencia artificial general. Una puntuación alta en esta prueba indicaría que un sistema puede responder correctamente a preguntas cerradas y verificables sobre conocimiento avanzado.

Sin embargo, eso no implica necesariamente que posea capacidades como investigación autónoma, creatividad científica o razonamiento general comparable al humano. En otras palabras, el examen mide conocimiento especializado en un formato muy concreto, pero no captura todas las dimensiones de la inteligencia.

Un indicador del ritmo real del progreso de la IA

Aun así, el experimento revela algo importante. El rendimiento de los modelos ha pasado de cifras cercanas al 10 % a valores próximos al 50 % en poco más de un año. Ese salto refleja la velocidad a la que evolucionan los grandes modelos de lenguaje.

Para algunos investigadores, estos resultados sugieren que los sistemas actuales están empezando a moverse en un terreno donde ya no solo repiten información existente, sino que pueden manejar conceptos complejos en múltiples disciplinas.

Sin embargo, el mismo estudio deja claro que el camino hacia una AGI plenamente comparable a la inteligencia humana todavía no está completo. La inteligencia artificial puede aprobar partes del examen más difícil jamás diseñado para máquinas. Pero aún no está lista para escribir el siguiente capítulo de la ciencia por sí sola.

Actualizáte