🎬 Genera Videos con Audio con Veo 3

🚀 Google I/O revoluciona la IA: Veo 3, Claude 4 y un tsunami de innovación para creadores y devs 🌟

Del 19 al 23 de Mayo

A esta semana no le cupo un mandao’

Ocurrió el evento más importante de tecnología: El Google I/O, donde vimos el nuevo modelo Veo 3 generando video con audio, y un reguero de anuncios de IA y de nuevas herramientas para creadores y programadores.

  • 🎬 Veo 3: Google I/O reveló el modelo que genera video con audio nativo, sincroniza labios y sonidos ambientales, y entiende física de la escena.

  • 💡 OpenAI adquiere la startup de Jony Ive: OpenAI compró la startup de Jony Ive, un diseñador legendario de Apple que trabajó de la mano con Steve Jobs. Buscan desarrollar el iPhone del AI, un nuevo dispositivo que se adapte mejor a la IA. Detalles

  • 🤖 Claude Opus 4 y Sonnet 4: Anthropic presentó sus nuevos modelos que están dominando la programación y el razonamiento profundo con uso de herramientas y memoria extendida. Artículo

El Google I/O, que se dijo?

Después de decir “IA“ 121 veces, esto fue lo más importante del Google I/O:

🔍 Búsqueda con IA

  • 🤖 El Modo IA: te permite buscar en Google como si fuera hablando con ChatGPT. También introduce Deep Search para hacer grandes investigaciones y búsqueda con cámara en tiempo real para preguntarle al motor de búsqueda sobre lo que ves.

  • 🛒Capacidades Agénticas que del buscador que pueden hacerte reservaciones y buscarte los tickets más baratos para un evento.

Por ahora, estas capacidades solo están disponibles en USA. Más info del tema.

🎬 Generative Media & creatividad

  • Veo 3 genera clips de video de alta calidad con audio nativo (ruidos de ambiente, voces y efectos), sincronizando labios y respetando las leyes físicas de la escena. Mira un ejemplo.

  • Imagen 4 mejora la generación de imágenes con control detallado de estilo y coherencia. Chequea.

  • Lyria 2 pone en tus manos un estudio para crear música interactiva sin tener ni idea de notas. Más detalles.

  • Flow es la nueva herramienta de creación de películas que permite armar secuencias narrativas y escenas cinematográficas desde un editor visual intuitivo. Mira como se usa.

El primer cortometraje hecho con herramientas de IA de Google se llama ANCESTRA y saldrá el 13 de Junio en el Festival Tribeca. Aquí el trailer👀.

🎀Otros

  • 📺Google Beam, nueva herramienta para hacer videollamadas en 3D. Mira que jevi está.

  • 🕶Android XR, un sistema operativo basado en IA para lentes, que te permitiría contestar llamadas, acceder a apps de tu celular, ver traducciones en tiempo real, etc, todo sin usar tus manos. La demo.

Para programadores

Qué trajo el Google I/O para los programadores?

  • 🤖Jules, la competencia de Codex. Un agente asincronico que puede hacer tareas en su VM dedicada en un repositorio de GitHub, y al final, hacer un Pull Request. Pero, a diferencia de Codex, puedes probar Jules aquí.

  • 🎨Stitch. Genera diseños de interfaces webs y móviles de alta calidad a partir de imágenes o prompts. Luego, puedes exportarlo a Figma o a HTML+CSS. Pruébalo.

  • 💻Un Colab más agéntico. Colab pronto podrá generar código y resolver bugs de acuerdo en tus mismos notebooks. Mucho duraron.

Nueva Generación de Modelos Claude

Anthropic presentó Claude 4, integrado por los modelos Opus 4 y Sonnet 4, que permiten razonamientos largos y uso paralelo de herramientas. Claude 4 Sonnet está gratis desde aquí.

  • Claude Sonnet 4 alcanza un 80.2% de precisión en el benchmark SWE-Bench Verified, estableciendo un nuevo estado del arte en la generación de código.

  • Sin embargo, el Claude Opus 4 se considera el mejor modelo de programación del mundo debido a su capacidad de mantener un alto desempeño en tareas largas y complejas, así como en flujos de trabajo agénticos.

Algo muy importante es que también anunciaron el uso de herramientas en el razonamiento de sus modelos. Esto fue introducido por OpenAI en sus modelos o3 y o4-mini y le permitieron alcanzar grandes mejoras, pero no había sido implementado todavía por Claude.

Esto les permitirá incluir, por ejemplo, búsquedas y análisis de código, dentro de sus razonamientos, permitiéndoles fundamentar sus razonamientos en datos del mundo real, y alcanzando mejor desempeño en tareas del día a día.

Los precios son de $15 / $75 por millon de tokens (input/output) para Opus y $3 / $15 para Sonnet; este último está disponible incluso para usuarios gratuitos. Ambos modelos ya están operativos en Amazon Bedrock y Google Vertex AI, facilitando su uso en agentes corporativos.

Gemini Diffusion: Modelos de texto por refinamiento iterativo

Google DeepMind lanzó Gemini Diffusion, un experimento que aplica las técnicas de difusión al lenguaje. A diferencia de los modelos autorregresivos (que predicen un token a la vez), un modelo de difusión parte de ruido y refina bloques de texto por pasos, lo que permite:

  • Velocidad: genera contenido hasta 5× más rápido.

  • Coherencia: corrige errores durante la generación.

  • Iteración ágil: ideal para edición de texto, matemáticas y código.

En benchmarks de programación rinde casi igual que Gemini 2.0 Flash-Lite, y supera a modelos mayores en tareas matemáticas y multilingües. Para probarlo debes apuntarte al waitlist vía Google AI Studio.

Agenda de la Semana —
En colaboración con IAvanza

Cada semana, junto a IAvanza, destacamos eventos sobre
Inteligencia Artificial y emprendimiento para que
sigas creciendo con nosotros.
Conéctate, aprende y amplía tu red!

📌 Un Buen Lider x IA = Resultados
Evento Gratuito
🗓 Lunes, 26 de mayo – 🕕 7:00 PM
🔗 Separa tu cupo: https://acortar.link/OemD3o

📌 Martes de Puyadores
Encuentro Virtual de Comunidad de Inteligencia Artificial
🗓 Martes, 27 de mayo – 🕕 7:00 PM
🔗 Únete al grupo: https://acortar.link/BWymlL

📌 Webinar Gratuito sobre IA
🗓 Jueves, 29 de mayo – 🕕 7:00 PM
🔗 Únete al grupo: https://acortar.link/BWymlL