Google Lanza Música AI en Gemini: ¿Demasiado Tarde?

Resumen

Lyria 3 de Google se está implementando en Gemini, generando canciones completas de 30 segundos a partir de texto o imágenes.
El modelo produce pistas coherentes, pero tiene dificultades con géneros específicos y limita la duración de las canciones.
Competidores como Suno y Udio siguen liderando con canciones más largas, controles más profundos y flujos de trabajo más avanzados.

Google ha estado trabajando durante años en su modelo de música basado en inteligencia artificial. El martes, finalmente se lanzó para que todos pudieran utilizarlo.

Lyria 3, el último modelo de generación musical de Google DeepMind, se está lanzando en versión beta dentro de la aplicación Gemini. Los usuarios mayores de 18 años pueden describir una idea o subir una foto y recibir una pista completamente producida en cuestión de segundos, incluyendo letras, instrumentales y arte de portada generado por IA.

“Solo describe una idea o sube una foto, como ‘una balada R&B cómica sobre un calcetín buscando su pareja’, y en cuestión de segundos, Gemini la transformará en una pista pegajosa de alta calidad”, afirmó Google en su blog oficial. “Para llevar la creatividad aún más lejos, puedes pedirle a Gemini que se inspire en algo que subas”.

Probamos el sistema. La conclusión corta: funciona, es divertido y puede impresionar a quienes no han utilizado otros modelos avanzados como Suno o Udio. Sin embargo, para aquellos que ya lo han hecho, no reemplazará sus flujos de trabajo pronto.

Las pistas que produce Lyria 3 tienen una duración máxima de 30 segundos. Este es el límite actual, y Google lo aclara: el objetivo no es crear canciones comerciales pulidas, sino generar momentos compartibles. La salida que probamos era coherente, las letras coincidían con la idea inicial, y la calidad de producción era aceptable.

Aquí lo que pueden lograr Google, Suno y Udio con la misma solicitud:

Las dificultades comienzan cuando se desafían los límites. Lyria 3 parece tener un rango de géneros que maneja con soltura: pop, afrobeat, R&B y hip-hop ligero. Sin embargo, al probar indicaciones que pedían estilos más específicos o inusuales, el modelo tenía problemas para cumplir con esas solicitudes. La guía de indicaciones de DeepMind lo reconoce implícitamente: está llena de ejemplos de géneros populares y escasa en orientaciones para otros estilos.

Comparémoslo con Udio, que cuando se lanzó en 2024, ofrecía controles como un regulador de «intensidad del prompt», un ajustador de claridad para ruidos de fondo y la capacidad de excluir sonidos o estilos específicos mediante «prompts negativos». O Suno, que ha estado generando canciones completas de varios minutos con la estructura adecuada—versos, coros, puentes—y se considera el mejor modelo en este campo. Ambas herramientas permiten generar pistas de larga duración que se sienten como canciones reales, no como muestras. El límite de 30 segundos de Lyria 3 y su tendencia a desviarse de indicaciones inusuales lo sitúan en una categoría diferente.

También es importante mencionar el contexto legal. Tanto Suno como Udio fueron demandados por la Asociación de la Industria de Grabación de América en 2024 por supuestamente haber entrenado sus modelos con grabaciones con derechos de autor sin permiso. Udio llegó a un acuerdo con Warner Music en noviembre de 2025 y actualmente está en proceso de transición a una plataforma completamente licenciada, que será lanzada en 2026. El caso de Suno continúa.

Por su parte, Google asegura que ha sido «muy cuidadoso con los derechos de autor y los acuerdos con socios» en el entrenamiento de Lyria 3, y que el modelo evita deliberadamente imitar a artistas específicos. Si mencionas uno en una solicitud, Lyria lo toma como inspiración para el estado de ánimo en vez de como una instrucción directa.

En cuanto a la seguridad y la transparencia, todas las pistas generadas en Gemini vienen incrustadas con SynthID, la marca de agua de IA de Google. La empresa también ha añadido una verificación de audio a Gemini: puedes subir una pista y preguntar si fue hecha por IA de Google. Este tipo de herramientas de procedencia son cada vez más importantes a medida que el audio generado por IA inunda las plataformas de streaming; Deezer ya ha desplegado herramientas de detección para identificar y flaggear reproducciones falsas de música generada por IA.

Lyria 3 está disponible hoy para todos los usuarios de Gemini mayores de 18 años en inglés y algunos otros idiomas. La versión móvil se implementará en los próximos días. Los suscriptores de Google AI Plus, Pro y Ultra obtienen límites de generación más altos. El modelo también está expandiendo la función Dream Track de YouTube a nivel mundial, que anteriormente era exclusiva para EE. UU., permitiendo a los creadores de Shorts acceder a bandas sonoras generadas por IA para sus videos.

Resumen Diario Newsletter

Comienza cada día con las principales noticias del momento, además de historias originales, un podcast, videos y más.

Fuente: decrypt.co