• Neuronautas
  • Posts
  • 🧩¡Nueva Generación de Modelos de ChatGPT!

🧩¡Nueva Generación de Modelos de ChatGPT!

🎨En esta semana, la inteligencia artificial dio un salto hacia agentes más autónomos, visuales y conectados.🚀

Del 15 de Abril al 23 de Abril

¿Qué ha pasado?

  • 🧩Modelos o3 y o4-mini: Combinan razonamiento profundo con herramientas como búsqueda en internet y análisis de archivos o imágenes.

  • 🖼️Razonamiento con imágenes: Por primera vez, los modelos analizan visualmente dentro del mismo flujo de pensamiento, sin depender de otros modelos.

  • 🔍Search Arena: Un benchmark basado en preferencias humanas para medir la calidad de respuestas de modelos con acceso a internet.

OpenAI o3 y o4-mini

Nueva generación de la serie de modelos o de OpenAI, enfocados en pensar más antes de responder. Esta nueva generación de modelos incluye en su proceso de "razonamiento" búsquedas en internet, análisis de archivos, e incluso imágenes.

El modelo puede elegir de manera agéntica (como si fuera un agente) cuándo y dónde aplicar herramientas específicas (como búsqueda en internet o análisis de archivos) para llegar a una información específica dentro del razonamiento.

La combinación entre razonamiento de última generación y uso de herramientas alcanza un nivel de inteligencia superior al de modelos anteriores.

La idea es que estos avances se conviertan en un ChatGPT más autónomo y agéntico que pueda ejecutar tareas por ti en el futuro.

El modelo o4-mini es una versión más reducida y eficiente, lo que permite que sea menos costoso, manteniendo un nivel muy similar de inteligencia. También tiene límites de uso más amplios que o3 a través de ChatGPT.

Analizando su desempeño en los benchmarks más importantes, podemos ver que:

  • o3 logra un desempeño altísimo en las respuestas a preguntas más difíciles de disciplinas científicas. Esto se mide con el benchmark "Humanity's Last Exam", en el cual alcanza un 20.3% de precisión. El modelo más cercano es Gemini 2.5 Pro, que alcanzó 18.8%.

Los benchmarks son grandes conjuntos de datos que se utilizan para evaluar el desempeño de los LLMs en una habilidad específica, como responder preguntas cerradas complejísimas o resolver issues en un repositorio de GitHub.

Los resultados se pueden usar para medir la capacidad de estos modelos en inteligencia general, desarrollo de software, etc.

  • o4-mini alcanza el mejor rendimiento en problemas matemáticos de olimpiada, medido por el benchmark AIME 2025, superando nuevamente a Gemini 2.5 Pro.

  • o3 obtuvo un desempeño similar en tareas de ingeniería de software similar al líder por excelencia, Claude. o3 alcanzó un 69.1 en el benchmark SWE-Bench Verified, mientras que Claude Sonnet 3.7 Extended Thinking se mantiene el líder con un puntaje de 71.3.

Nueva capacidad: Pensar con imágenes

Por primera vez, un modelo de razonamiento puede analizar imágenes dentro de su proceso de pensamiento de manera nativa (sin usar otros modelos).

Los modelos pueden manipular, hacer zoom y girar imágenes para entender mejor de qué se tratan, lo que abre un mundo de posibilidades para el entendimiento de imágenes y su uso para resolver problemas de los usuarios.

El caso más impresionante fue uno donde se le pide al modelo buscar la frecuencia a la que llega un bus a la parada a partir de la imagen del bus. El modelo analiza la imagen para encontrar el nombre (borroso y alejado), y luego busca en internet los horarios de la parada.

Nuevo Benchmark: Search Arena

Se lanzó un nuevo benchmark enfocado en evaluar cómo las LLMs responden preguntas de actualidad con capacidad de búsqueda en internet.

Este benchmark está basado en preferencia humana, es decir, se evalúa el desempeño de un modelo en base a la preferencia de un evaluador humano al ser presentado con dos respuestas de modelos a la misma pregunta.

Basado en 7,000 votos, se estableció que los mejores modelos por mucho son:

  1. Gemini 2.5 Pro Grounding (Gemini 2.5 Pro con búsqueda en internet). Este modelo está disponible gratis en el Google AI Studio.

  2. Perplexity Sonar Reasoning Pro, el modelo de razonamiento pro de Perplexity.

En la evaluación se mostró que los aspectos más importantes para los humanos en las respuestas de los modelos fueron:

  • La referencia a plataformas web reconocidas, como YouTube, Medium, Reddit, etc.

  • El número de citas

  • Respuestas más profundas y largas

Es importante saber que los últimos modelos o3 y o4-mini no fueron evaluados en este análisis inicial. Probablemente estos modelos se encontrarían en posiciones altas en los rankings de búsqueda por su alto nivel de inteligencia.

Quizás te pueda interesar:

  • Claude lanza una nueva capacidad que le permite buscar en tu Gmail, Calendario y Google Docs para colaborar contigo en tu trabajo. Proponen esta capacidad para, por ejemplo, ayudar a equipos de marketing a planear lanzamientos de productos, o ayudar a padres a organizar su vida personal gestionando todos los compromisos y eventos. Mira un ejemplo. Todavía no está disponible en RD.

  • ElevenLabs lanza la plataforma Conversational AI para crear agentes de voz personalizados con IA. Ofrece herramientas completas para desarrolladores, incluyendo bases de conocimiento, monitoreo y control dinámico de agentes.

  • Este paper de DeepMind explora cómo los LLMs aprenderán principalmente a través de interacciones continuas con su entorno, generando sus propios datos en lugar de depender exclusivamente de datos humanos preexistentes. Este enfoque busca superar las limitaciones actuales del aprendizaje supervisado, permitiendo que la IA desarrolle capacidades más allá del conocimiento humano disponible.

¿Quieres promocionar tu empresa, producto, servicio o evento a una comunidad de empresarios e ingenieros de IA? Trabajemos juntos.