- Neuronautas
- Posts
- NEURONAUTAS
NEURONAUTAS
Todo lo que necesitas saber sobre IA esta semana
Semanas del 7 al 21 de julio
¿Qué es lo que se mueve?
🛠️ ChatGPT Agent: OpenAI lanza un agente virtual capaz de ejecutar tareas en tu PC usando navegador, terminal y APIs dentro de una máquina virtual para automatizar reportes y presentaciones. Más aquí
🔥 Grok 4: xAI presentó el modelo más inteligente del mundo hasta ahora, superando los modelos o3-pro de ChatGPT y Claude 4. Lee
💻 Terminal-Bench y Warp: Warp es una nueva herramienta programación con IA a través de la terminal, que obtiene el puntaje más alto en Terminal-Bench. Ranking.
Actividades de la Semana
📌 Creando una Empresa Desde Cero con IA
Webinar Gratuito
🗓 Martes, 22 de julio – 🕕 7:00 PM
🔗 Únete al grupo: https://iavanza.do/formulario-webinar-semanal-iavanza
📌 Ciberseguridad 101 para Empresas
Webinar Gratuito impartido por Ing. Lorenzo A. Martínez
🗓 Jueves, 24 de julio – 🕕 7:00 PM
🔗 Únete al grupo: https://iavanza.do/formulario-webinar-semanal-iavanza
ChatGPT Agent: tu asistente virtual en acción
ChatGPT ya no es solo un chatbot: es un agente unificado que maneja una computadora virtual para completar tus flujos de trabajo complejos de principio a fin.
Casos de uso prácticos:
Actualizar dashboards y hojas de cálculo respetando tu formato, a partir de una nueva investigación en internet.
Planificar y reservar reuniones o viajes, ajustándose a tu horario en Google Calendar.
Prompt: “Revisa mi Google Calendar de la próxima semana y prepara un briefing de un párrafo para cada llamada con clientes, incluyendo las últimas noticias de su empresa“
Nota: Especifica tu tarea o prompt en una lista de pasos para instruir al agente de manera detallada y secuencial lo que debe realizar.
Cómo funciona:
Usa su navegador visual para interactuar con sitios diseñados para humanos.
Emplea un navegador de texto para búsquedas eficientes.
Ejecuta comandos en un terminal para procesar datos, generar gráficos o correr scripts.
Accede a APIs y conectores (Gmail, GitHub, etc.) para trabajar con tu información real.
Produce documentos editables (presentaciones, hojas de cálculo, diapositivas) listos para usar.
Lo importante es que tú mandas: ChatGPT Agent te pide confirmación antes de compras, envíos de correos o acciones críticas, y puedes interrumpirlo o tomar el control del navegador en cualquier momento.
Por ahora solo está disponible para planes pagos de ChatGPT. Ya está disponible para los usuario Pro, y estará disponible en unos días para los usuarios Plus.
Para activarlo, ve al menú de herramientas en el chat y selecciona agent mode.
Métricas
La capacidad de investigación y solución de problemas que trae ChatGPT Agent logró alcanzar un 41.6% de precisión en las preguntas científicas más difíciles del mundo (Humanity’s Last Exam).
En comparación, el último modelo más avanzado de ChatGPT (el modelo o3) solo logró responder el 20% de estas preguntas.
Sin embargo, ChatGPT Agent no logró superar el puntaje de Grok 4 Heavy, que alcanzó 44.4%.
Grok 4: El modelo más inteligente del mundo
Grok 4 es el nuevo modelo de xAI, la empresa de IA de Elon Musk, rompe las evaluaciones más avanzadas en matemáticas (AIME 2025), conocimiento general y científico (GPQA y HLE), y programación (LiveCodeBench).
Sin embargo, lo más impresionante de este modelo fue el puntaje obtenido en una de las evaluaciones más difíciles para LLMs que existe, el ARC-AGI-2.
Esta evaluación se centra en probar la capacidad de razonamiento y adaptabilidad de los modelos ante puzzles que los humanos pueden resolver fácilmente. Intenta resolver uno.
Grok 4 obtuvo un 16% de precisión en esta evaluación. El siguiente modelo más cercano fue Claude 4 Opus con un 8.6%.
Como lo hicieron?
Refuerzo a Gran Escala en la supercomputadora Colossus de 200,000 GPUs
Arquitectura reasoning-first que prioriza cadenas de pensamiento profundas.
Integración nativa de tool use: navegador, Python, APIs y búsqueda en tiempo real.
También lanzaron Grok 4 Heavy, una variante multi-agente que ejecuta múltiples hipótesis en paralelo, obteniendo métricas de inteligencia más altas todavía.
Por ahora, Grok 4 y Grok 4 Heavy solo están disponibles para suscriptores de los planes SuperGrok y SuperGrok Heavy. Y también a través de la API. Puedes suscribirte aquí.
Google AI Mode: llamadas y búsqueda avanzada
Google amplía su modo IA. Ahora Google puede llamar por ti a negocios locales y traerte precios o citas sin que muevas un dedo. Para usarlo:
Busca “peluquerías cerca de mí”.
Elige “Que la IA consulte precios”.
Responde unas preguntas (tipo de solicitud, fecha y hora).
Recibe info clara y citada.
Además, llega Deep Search, que realiza cientos de búsquedas, analiza la info y genera reportes citados, útil para decisiones de compra, estudios y trabajos.
Cómo usarlo:
En Google Search (EE. UU.), activa AI Mode.
Para llamadas, busca un negocio y selecciona la opción.
Para deep research, elige el modelo 2.5 Pro en el menú.
Con estas mejoras, Google busca desplazar a Perplexity y ChatGPT, ofreciendo un asistente de búsqueda más conversacional y capaz de actuar por ti.
Para programadores
El terminal: el IDE del futuro para agentes AI
La tendencia estaño es mover los agentes de IA del IDE al terminal. Herramientas como Claude Code y Gemini CLI permiten que los LLMs configuren entornos, instalen dependencias y generen código.
TerminalBench es un benchmark que mide estas habilidades a través de tareas como,
Compilar y empaquetar bases de código.
Descargar un dataset y entrenar un modelo clasificador.
Configurar un servidor
Bueno, el ranking lo lideran:
Warp con varios modelos (52.0%). Una terminal con IA profundamente integrada. Permite usar la terminal con lenguaje natural, y utiliza contexto del historial de comandos, base de código, y tus acciones pasadas para recomendarte las mejores soluciones en debugging, y generación de código.
Engine Labs con Claude 4 Sonnet (44.8%). Es presentado como un ingeniero de software remoto que resuelve issues y feature requests desde la nube, aplicando cambios directamente a un repositorio de GitHub.
Claude Code con Claude 4 Opus (43.2%). La herramienta de programación asistida por IA en terminal más popular. Permite ejecutar comandos, resolver bugs y programar features desde la terminal.
Quizás quieras ver esto,
🎬 Veo 3 imagen a video: sube una foto y Gemini genera clips 1080p con sonido; 40 M videos creados en 7 semanas. Más aquí
🔧 Anthropic Claude Tool Directory: Anthropic estrena un directorio de herramientas para integrar Claude con Notion, Figma, Stripe y más. Facilita la conexión de tu flujo con un click. Chequea.
🖥️ Google NotebookLM: Google añadió notebooks expertos en NotebookLM. Fuente.