Microsoft Lanza MAI-Image-2: ¡Mejor de lo Esperado!

Resumen

MAI-Image-2 de Microsoft es un modelo nuevo de generación de imágenes por IA de última generación.
Este modelo ubica a Microsoft como el tercer mejor laboratorio de IA en el ranking de la Image Arena, gracias a su fuerte realismo y capacidad de renderizar texto.
Sin embargo, filtros estrictos, límites de uso y características faltantes actualmente limitan su utilidad en el mundo real.

Microsoft ha estado desarrollando en silencio su propio generador de imágenes. Anunciado el jueves por el equipo de Superinteligencia en IA de la compañía, MAI-Image-2 ya ha alcanzado el puesto número 3 en el leaderboard de Arena.ai, solo por detrás de los modelos de Google y OpenAI. Esto convierte a Microsoft en un jugador legítimo en un campo que anteriormente había tercerizado a sus socios.

Es interesante notar que Microsoft ha estado pagando a OpenAI miles de millones para potenciar herramientas como Copilot y Bing Image Creator. Desarrollar un modelo de imagen competidor internamente es un movimiento empresarial intrigante.

MAI-Image-2 ya está disponible en el MAI Playground, mientras se realiza un despliegue gradual hacia Copilot y Bing Image Creator. El acceso a la API está actualmente limitado a ciertos clientes empresariales, con disponibilidad más amplia en Microsoft Foundry próximamente.

El equipo comenta que construyeron el modelo a través de conversaciones con fotógrafos, diseñadores y narradores visuales. Tres aspectos clave emergieron de estas charlas: un mayor fotorealismo, generación de texto más confiable dentro de las imágenes y una capacidad mejorada para construir escenas detalladas e imaginativas. Sin embargo, si este proceso se tradujo en una herramienta genuinamente útil sigue siendo un tema de debate.

Evaluando MAI-Image-2

Lo primero que se nota al abrir el MAI Playground es su diseño discreto. La interfaz es minimalista y limpia, visualmente situada entre Claude y Hume, sin la energía maximalista de Midjourney o la experiencia de chatbot que ofrece Gemini.

Las imágenes generadas son sorprendentemente fuertes. El fotorealismo es realmente uno de sus puntos fuertes: el modelo entiende bien la luz natural, las texturas de superficie y las relaciones espaciales. Aunque no alcanza el nivel de Google’s Nano Banana Pro, que sigue liderando la tabla por una razón, en algunas pruebas de realismo se acerca sorprendentemente.

Un mejor enfoque en la redacción de solicitudes probablemente lo empuje aún más; nuestros resultados iniciales mejoraron notablemente al afinar nuestras descripciones. Incluso escenas complejas y poco realistas, con parámetros que desafiaban la lógica, fueron manejadas adecuadamente por el modelo, superando a otros modelos en detalles como proporciones corporales, posición de extremidades, profundidad y posicionamiento espacial.

Por ejemplo, esta imagen de un perro montando una bicicleta en medio del océano es, sin duda, una de las más precisas que hemos producido en pruebas sin referencia.

La generación de texto es un verdadero punto destacado. MAI-Image-2 manejó tipografías complejas con una consistencia mucho mayor de lo que esperábamos: grandes bloques de texto en imágenes, carteles, señalización—sin los típicos errores que se observan en la mayoría de los modelos.

Incluso lo empujamos hacia texto multilingüe: fue capaz de generar algunos caracteres chinos hanzi, aunque la precisión no fue perfecta. Aun así, el hecho de que lo intentara y lograra parte del objetivo es notable.

El modelo comprende bien el estilo artístico, cambiando entre el realismo fotográfico, la estética del diseño gráfico y estilos ilustrados con facilidad. Lee las solicitudes con atención, incluidas las instrucciones estilísticas, y entrega algo coherente al final. Para una amplia gama de tareas visuales, es versátil.

Ahora, abordemos algunos aspectos más difíciles.

MAI-Image-2 es extremadamente filtrado, más que Google Imagen y OpenAI’s DALL-E. Realizamos nuestra prueba habitual con un dibujo de caricatura de una araña persiguiendo a una mujer y obtuvimos un rechazo rotundo. De nuevo, se trataba de un dibujo—de una araña. La moderación del contenido aquí está ajustada a un nivel que frustrará a cualquiera que trabaje en áreas creativas grises, ilustraciones de horror o cualquier cosa que se perciba como remotamente tensa.

Los límites de uso son igualmente restrictivos. Cada generación incluye un enfriamiento de 30 segundos. Después de 15 imágenes, quedas bloqueado durante 24 horas. Para pruebas casuales, esto puede manejarse. Sin embargo, para cualquier tipo de flujo de trabajo de producción, es un obstáculo importante en la interfaz nativa.

También existe solo una resolución: 1:1. Sin paisajes, sin retratos, sin relaciones de aspecto personalizadas. En 2026, esto es una limitación significativa, especialmente para contenido de redes sociales, que es precisamente donde Microsoft presumiblemente desea que se integre en Copilot.

Hablando de Copilot: MAI-Image-2 aún no está disponible ahí. El despliegue está en marcha, pero a partir de hoy, el producto en el que realmente querrías que estuviera no lo tiene.

Un último detalle que falta: este es puramente una herramienta de texto a imagen. No hay soporte para imagen a imagen, ni para inpainting, ni para outpainting, ni para imágenes de referencia. Para los usuarios que esperan algo parecido a las capacidades de edición de Firefly o Midjourney, esto se sentirá incompleto.

Nuestra opinión

MAI-Image-2 rinde mejor de lo que su posición en el ranking sugiere. En nuestras pruebas prácticas, superó a GPT-Image en calidad de imagen y generación de texto, lo cual es interesante dado que GPT-Image se sitúa por encima de él en el ranking de Arena.ai. Las posiciones de referencia no siempre cuentan toda la historia.

La lógica estratégica detrás de la creación de esto es clara. Microsoft ha estado licenciando los modelos de imagen de OpenAI para Copilot mientras al mismo tiempo financia a su mayor competidor, Anthropic. Tener un modelo interno capaz reduce la dependencia, disminuye costos a gran escala y le da a Microsoft algo sobre lo que iterar sin pedir permiso.

Desde esa perspectiva, MAI-Image-2 no necesita superar a Nano Banana. Solo necesita ser lo suficientemente bueno—y lo es.

El problema son las restricciones del producto. Los límites de generación, la política de contenido estricta, la salida solo de 1:1, las características de edición faltantes, etc.; estas son las limitaciones que limitan la utilidad en el mundo real. Un modelo tan capaz merece una infraestructura que esté a la altura.

MAI-Image-2 es una sólida base técnica restringida por decisiones de producto conservadoras. Una vez que Microsoft afloje las restricciones, esto se convertirá en un competidor serio. Por ahora, es un prometedor adelanto de lo que podría llegar a ser el stack de imágenes de Microsoft.

Fuente: decrypt.co