fbpx

Anomalías del generador de imágenes en Gemini

Después de numerosos mal funcionamientos que han generado controversia, Google retira temporalmente la generación de imágenes de Gemini.

En las últimas semanas, Google ha querido dar un nuevo impulso a su proyecto de IA. Sucesivamente, la empresa anunció la llegada de una función de generación de imágenes en Gemini, el cambio de nombre del chatbot (anteriormente conocido como Google Bard), la introducción de una fórmula de pago, el lanzamiento de una aplicación móvil y la disponibilidad de dos modelos de lenguaje de código abierto.

Pero los primeros problemas no tardaron en aparecer en el generador de imágenes. Muchos internautas notaron que el agente conversacional tendía a generar imágenes históricamente inexactas e incluso absurdas, además de promover la diversidad de representaciones a un nivel extremo. En una publicación de blog realizada el viernes 23 de febrero, Google indicó que retiraría temporalmente la función de su herramienta para corregir estos errores.

“Algunas de las imágenes generadas son inexactas, e incluso ofensivas. Agradecemos a los usuarios por sus comentarios y lamentamos que esta función no haya funcionado correctamente. Hemos reconocido el error y hemos pausado temporalmente la generación de imágenes de personas en Gemini mientras trabajamos en una versión mejorada.”

¿Cuáles son los errores cometidos por Gemini?

Las anomalías cometidas por Gemini se centran principalmente en dos tipos de errores:

Exageraciones históricas: Gemini ha priorizado la diversidad en todas sus imágenes, pero quizás en exceso. El ejemplo más destacado es la representación excesiva de soldados racializados en respuesta a la solicitud “¿Puedes generar una imagen de un soldado alemán en 1943?” De cuatro imágenes generadas, un hombre negro y una mujer asiática acompañan a soldados de origen caucásico. Si bien es cierto que había soldados negros en la Wehrmacht, eran una minoría.

Negativa a representar personas blancas: en ocasiones, el chatbot rechazó solicitudes específicas para representar personas blancas, mostrando un mensaje de error. En su publicación de blog, Google indica que Gemini “se negó a responder algunas preguntas, interpretando incorrectamente preguntas muy inocentes como sensibles”.

Además de una diversidad a veces exagerada, los vikingos con gafas contemporáneas y la existencia de una papisa no parecen basarse históricamente en ninguna realidad. Esto, a pesar de las solicitudes que no mencionaban los detalles generados en las imágenes.

Sin sorpresa, estos errores fueron ampliamente difundidos por grupos de extrema derecha, especialmente en X. Por su parte, Elon Musk publicó un meme acusando a OpenAI y Gemini de promover un enfoque “woke racista” y aprovechó la oportunidad para promocionar su propio chatbot, Grok. Sin embargo, a diferencia de las implicaciones del multimillonario, estos errores no se derivan de una intención discriminatoria, sino más bien de un esfuerzo por corregir los problemas existentes.

¿Por qué Gemini cometió estos errores?

Los generadores de imágenes basados en inteligencia artificial enfrentan un desafío complejo: al ser alimentados por una multitud de contenidos de la web, reflejan nuestros propios sesgos racistas o sexistas. Por ejemplo, en respuesta a la palabra clave “secretaria”, herramientas como DALL-E o Midjourney tienden a representar principalmente a mujeres, mientras que las personas racializadas suelen estar subrepresentadas. En un estudio sobre la representación médica por parte de la IA, el investigador Arsenii Alenichev destacó la dificultad que enfrentó Midjourney para generar imágenes de médicos negros, incluso cuando se solicitaba explícitamente.

En su comunicado, Google indica que ha ajustado su IA para que “no caiga en algunas de las trampas que hemos visto en el pasado con la tecnología de generación de imágenes”. Sin embargo, la empresa reconoce que no fue lo suficientemente precisa en estos ajustes, lo que causó los resultados mencionados anteriormente.

“Nuestros ajustes para garantizar que Gemini muestre una variedad de personas no tuvieron en cuenta los casos que claramente no deberían mostrar una variedad. En segundo lugar, con el tiempo, el modelo se volvió mucho más cauteloso de lo que habíamos previsto.”

Este evento refleja la dificultad de los generadores de imágenes, y de las herramientas de inteligencia artificial en general, para corregir los sesgos sexistas y racistas contenidos inicialmente en sus bases de datos. Las correcciones realizadas por Google podrían ayudar a encontrar un equilibrio más justo.

Jean-Luc Lenoble
https://www.linkedin.com/in/jeanluclenoble