NEURONAUTAS

Todo lo que necesitas saber sobre IA esta semana

Semanas del 7 al 21 de julio

¿Qué es lo que se mueve?

  • 🛠️ ChatGPT Agent: OpenAI lanza un agente virtual capaz de ejecutar tareas en tu PC usando navegador, terminal y APIs dentro de una máquina virtual para automatizar reportes y presentaciones. Más aquí

  • 🔥 Grok 4: xAI presentó el modelo más inteligente del mundo hasta ahora, superando los modelos o3-pro de ChatGPT y Claude 4. Lee

  • 💻 Terminal-Bench y Warp: Warp es una nueva herramienta programación con IA a través de la terminal, que obtiene el puntaje más alto en Terminal-Bench. Ranking.

Actividades de la Semana

📌 Creando una Empresa Desde Cero con IA
Webinar Gratuito
🗓 Martes, 22 de julio – 🕕 7:00 PM
🔗 Únete al grupo: https://iavanza.do/formulario-webinar-semanal-iavanza

📌 Ciberseguridad 101 para Empresas
Webinar Gratuito impartido por Ing. Lorenzo A. Martínez
🗓 Jueves, 24 de julio – 🕕 7:00 PM
🔗 Únete al grupo: https://iavanza.do/formulario-webinar-semanal-iavanza

ChatGPT Agent: tu asistente virtual en acción

ChatGPT ya no es solo un chatbot: es un agente unificado que maneja una computadora virtual para completar tus flujos de trabajo complejos de principio a fin.

Casos de uso prácticos:

  • Actualizar dashboards y hojas de cálculo respetando tu formato, a partir de una nueva investigación en internet.

  • Planificar y reservar reuniones o viajes, ajustándose a tu horario en Google Calendar.

  • Prompt: “Revisa mi Google Calendar de la próxima semana y prepara un briefing de un párrafo para cada llamada con clientes, incluyendo las últimas noticias de su empresa“

Nota: Especifica tu tarea o prompt en una lista de pasos para instruir al agente de manera detallada y secuencial lo que debe realizar.

Cómo funciona:

  • Usa su navegador visual para interactuar con sitios diseñados para humanos.

  • Emplea un navegador de texto para búsquedas eficientes.

  • Ejecuta comandos en un terminal para procesar datos, generar gráficos o correr scripts.

  • Accede a APIs y conectores (Gmail, GitHub, etc.) para trabajar con tu información real.

  • Produce documentos editables (presentaciones, hojas de cálculo, diapositivas) listos para usar.

Lo importante es que tú mandas: ChatGPT Agent te pide confirmación antes de compras, envíos de correos o acciones críticas, y puedes interrumpirlo o tomar el control del navegador en cualquier momento.

Por ahora solo está disponible para planes pagos de ChatGPT. Ya está disponible para los usuario Pro, y estará disponible en unos días para los usuarios Plus.

Para activarlo, ve al menú de herramientas en el chat y selecciona agent mode.

Métricas

La capacidad de investigación y solución de problemas que trae ChatGPT Agent logró alcanzar un 41.6% de precisión en las preguntas científicas más difíciles del mundo (Humanity’s Last Exam).

En comparación, el último modelo más avanzado de ChatGPT (el modelo o3) solo logró responder el 20% de estas preguntas.

Sin embargo, ChatGPT Agent no logró superar el puntaje de Grok 4 Heavy, que alcanzó 44.4%.

Grok 4: El modelo más inteligente del mundo

Grok 4 es el nuevo modelo de xAI, la empresa de IA de Elon Musk, rompe las evaluaciones más avanzadas en matemáticas (AIME 2025), conocimiento general y científico (GPQA y HLE), y programación (LiveCodeBench).

Sin embargo, lo más impresionante de este modelo fue el puntaje obtenido en una de las evaluaciones más difíciles para LLMs que existe, el ARC-AGI-2.

Esta evaluación se centra en probar la capacidad de razonamiento y adaptabilidad de los modelos ante puzzles que los humanos pueden resolver fácilmente. Intenta resolver uno.

Grok 4 obtuvo un 16% de precisión en esta evaluación. El siguiente modelo más cercano fue Claude 4 Opus con un 8.6%.

Como lo hicieron?

  • Refuerzo a Gran Escala en la supercomputadora Colossus de 200,000 GPUs

  • Arquitectura reasoning-first que prioriza cadenas de pensamiento profundas.

  • Integración nativa de tool use: navegador, Python, APIs y búsqueda en tiempo real.

También lanzaron Grok 4 Heavy, una variante multi-agente que ejecuta múltiples hipótesis en paralelo, obteniendo métricas de inteligencia más altas todavía.

Por ahora, Grok 4 y Grok 4 Heavy solo están disponibles para suscriptores de los planes SuperGrok y SuperGrok Heavy. Y también a través de la API. Puedes suscribirte aquí.

Google AI Mode: llamadas y búsqueda avanzada

Google amplía su modo IA. Ahora Google puede llamar por ti a negocios locales y traerte precios o citas sin que muevas un dedo. Para usarlo:

  1. Busca “peluquerías cerca de mí”.

  2. Elige “Que la IA consulte precios”.

  3. Responde unas preguntas (tipo de solicitud, fecha y hora).

  4. Recibe info clara y citada.

Además, llega Deep Search, que realiza cientos de búsquedas, analiza la info y genera reportes citados, útil para decisiones de compra, estudios y trabajos.

Cómo usarlo:

  • En Google Search (EE. UU.), activa AI Mode.

  • Para llamadas, busca un negocio y selecciona la opción.

  • Para deep research, elige el modelo 2.5 Pro en el menú.

Con estas mejoras, Google busca desplazar a Perplexity y ChatGPT, ofreciendo un asistente de búsqueda más conversacional y capaz de actuar por ti.

Para programadores

El terminal: el IDE del futuro para agentes AI

La tendencia estaño es mover los agentes de IA del IDE al terminal. Herramientas como Claude Code y Gemini CLI permiten que los LLMs configuren entornos, instalen dependencias y generen código.

TerminalBench es un benchmark que mide estas habilidades a través de tareas como,

  • Compilar y empaquetar bases de código.

  • Descargar un dataset y entrenar un modelo clasificador.

  • Configurar un servidor

Bueno, el ranking lo lideran:

  1. Warp con varios modelos (52.0%). Una terminal con IA profundamente integrada. Permite usar la terminal con lenguaje natural, y utiliza contexto del historial de comandos, base de código, y tus acciones pasadas para recomendarte las mejores soluciones en debugging, y generación de código.

  2. Engine Labs con Claude 4 Sonnet (44.8%). Es presentado como un ingeniero de software remoto que resuelve issues y feature requests desde la nube, aplicando cambios directamente a un repositorio de GitHub.

  3. Claude Code con Claude 4 Opus (43.2%). La herramienta de programación asistida por IA en terminal más popular. Permite ejecutar comandos, resolver bugs y programar features desde la terminal.

Quizás quieras ver esto,

  • 🎬 Veo 3 imagen a video: sube una foto y Gemini genera clips 1080p con sonido; 40 M videos creados en 7 semanas. Más aquí

  • 🔧 Anthropic Claude Tool Directory: Anthropic estrena un directorio de herramientas para integrar Claude con Notion, Figma, Stripe y más. Facilita la conexión de tu flujo con un click. Chequea.

  • 🖥️ Google NotebookLM: Google añadió notebooks expertos en NotebookLM. Fuente.