12 estudios confirman la creatividad de la IA

Imagen abstracta representando la IA

Resumen: El futuro pertenece a los simbiontes. 12 estudios de investigación confirman que la creatividad de la IA supera a la humana en pura abundancia de ideas. Sin embargo, la cocreación funciona aún mejor, fusionando las concepciones generadas por la IA con el discernimiento y el refinamiento humanos.

Por Jakob Nielsen.

Estudios recientes han descubierto que la IA es más creativa que casi todos los humanos a la hora de generar una profusión de ideas nuevas y eclécticas. Describí la primera ronda de investigaciones en mi artículo del 9 de agosto y, debido a la asombrosa velocidad de los avances de la IA, ya tenemos más investigaciones que confirman esos hallazgos y añaden detalles intrigantes en una miríada de dominios, desde las llamadas de ventas hasta la sublime poesía japonesa:

  • La escritura creativa de relatos cortos mejoró alrededor de un 8% en novedad cuando los autores utilizaron IA generativa para las ideas de los relatos. [Estudio 4]
  • Los escritores menos creativos (según una prueba de creatividad independiente) se beneficiaron más de la IA que los escritores más creativos, por lo que la IA redujo la diferencia de habilidades. [Estudio 4]
  • Los escritores creativos querían mantener la iniciativa a la hora de escribir con herramientas de IA, pero la utilizaron gustosamente para rellenar huecos. Cuando se quedaban atascados, los escritores mantenían el impulso permitiendo que la IA hiciera avanzar el proyecto. Los escritores incluso encontraron inspiración beneficiosa en los frecuentes errores y en las ideas supuestamente “inútiles” generadas por la IA. [Estudio 5]
  • La co-escritura con la IA funcionó mejor de forma iterativa, tanto en el perfeccionamiento puntual como en la vuelta a etapas anteriores del proceso de creación, en lugar de proceder linealmente. Por ejemplo, los escritores podían volver a la fase de ideación y pedir más ideas a la IA cuando se quedaban atascados en la fase de implementación. [Estudio 5]
  • Las personas generaron un 18% más de ideas cuando se inspiraron en una imagen producida por IA que los participantes en el estudio a los que se mostró una fotografía tradicional para inspirarse. La explicación más probable es que la “rareza” del arte generado por IA suscitó asociaciones más amplias que las imágenes convencionales. [Estudio 6]
  • La IA produjo muchas más ideas en bruto que los humanos, y la originalidad de estas ideas se valoró más alto (3,2 frente a 2,6 en una escala de 5 puntos) al probar ChatGPT 4, mientras que ChatGPT 3 demostró paridad con los humanos. [Estudio 7]
  • GPT-4 obtuvo mejores resultados que el 91% de los humanos en una prueba estándar de creatividad, la Prueba de Usos Alternativos (AUT). Por supuesto, el 9% de los humanos siguen siendo más creativos que la IA actual en esta métrica. [Estudio 7]
  • La valoración de la belleza de los haikus generados por la IA fue superior a la de los poemas compuestos por poetas humanos de renombre (4,56 frente a 4,15 en una escala de 7 puntos) cuando los poemas de la IA habían sido preseleccionados por humanos a partir de un conjunto más amplio generado por la IA. [Estudio 8]
  • La cocreación de cuadros con una herramienta de imagen de IA igualó las condiciones estéticas entre artistas y no artistas, aunque este último grupo probablemente habría pintado cuadros terribles sin la IA (por desgracia, no se midió en la investigación). [Estudio 9]
  • Los agentes de ventas con asistencia de IA tuvieron un 133% más de éxito que los agentes sin ayuda a la hora de responder a preguntas para las que no habían sido entrenados previamente, lo que se consideró una medida de la creatividad de los agentes. De suma importancia comercial, los simbiontes IA-humanos cerraron un 61% más de ventas que los agentes de ventas sin ayuda. [Estudio 11]
  • La brecha entre los vendedores mejor clasificados y los peor clasificados se redujo mediante el uso de una herramienta de IA en el proceso de ventas. [Estudio 11]
  • Las ideas empresariales para mejorar el medio ambiente recibieron la misma calificación, tanto si las producían humanos como si las producía la IA, pero las ideas humanas recibieron puntuaciones más altas en cuanto a novedad. [Estudio 12]

En resumen, la IA no se limita a algoritmos estériles y proezas computacionales. Es un salto evolutivo en la capacidad creativa. No es mera maquinaria; la IA es un habilitador dinámico, un catalizador para dar rienda suelta a la imaginación y el discernimiento humanos.

La IA produce ideas creativas en tal abundancia que nuestra reserva de ideas florece. Al igual que los frutos maduros de un árbol de la creatividad, los humanos debemos cosechar juiciosamente las mejores ideas para perfeccionarlas y ponerlas en práctica. (“El árbol de la creatividad”, de Midjourney.)

Recapitulación de estudios “antiguos” de hace 9 días

El presente artículo debe considerarse una Parte 2 que continúa el análisis de mi primer artículo sobre la creatividad de la IA, al que me referiré como Parte 1 a partir de ahora. Esto también significa que numeraré los estudios que se comentan a continuación para continuar con los tres estudios tratados en la Parte 1. Recapitulemos las conclusiones de la primera parte:

  • ChatGPT supera al 99% de la población humana en pruebas sobre el número de ideas diferentes que puede producir y la originalidad de las mismas. [Estudio 1]
  • ChatGPT generó 7 veces más ideas de productos mejor valoradas que los estudiantes de élite de las escuelas de negocios. [Estudio 2]
  • La IA es 40 veces más eficiente que los humanos en cuanto a la rapidez con la que produce ideas. [Estudio 2]
  • El único aspecto en el que la IA fue ligeramente peor valorada que los humanos fue la novedad de las ideas de producto. [Estudio 2]

La misma conclusión en investigaciones muy diversas

El punto más crucial es que los 12 estudios (tanto los de la Parte 1 como los presentados aquí) coinciden en líneas generales: La IA es más creativa que los humanos, pero los humanos tienen ventaja en la novedad. Cuantos más estudios de investigación diferentes lleguen a la misma conclusión, más se convertirá esa conclusión en un hallazgo de investigación sólido en el que podemos confiar y que no es un accidente espurio de coincidencia estadística.

Recuerde que 1 de cada 20 hipótesis falsas se confirmará como “estadísticamente significativa” si el único objetivo en la vida de un investigador es tener un valor p inferior al 5%. No estoy diciendo que el 5% de los doctorados sean necesariamente falsos, aunque la crisis de replicación en muchos campos de investigación así lo sugiere. Dado que la tasa base de hipótesis falsas es probablemente mucho mayor que la de hipótesis verdaderas (y nuevas), más del 5% de los trabajos publicados son probablemente falsos. Por eso los artículos individuales son menos creíbles que una colección de artículos con conclusiones muy similares.

Diferentes científicos, laboratorios, métodos y protocolos de investigación, dominios muy diversos, diferentes aspectos específicos medidos, investigación en tres continentes; la misma conclusión. Es impresionante. Importa menos que haya alguna variación en las cifras exactas: es de esperar cuando los detalles del estudio difieren.

A continuación se analizan con más detalle cada uno de los estudios. (Me quito el sombrero ante Ethan Mollick por alertarme sobre los estudios 4, 7 y 12).

El futuro pertenece a los simbiontes: Co-creación Humano-AI

La conclusión más interesante de los 12 estudios sobre creatividad es que muchos de ellos confirman dos puntos que también se encontraron en la investigación sobre el impacto en la productividad del uso de la IA en las empresas:

  • La IA reduce las diferencias de cualificación entre los mejores trabajadores humanos y los menos cualificados. Y no lo hace ahogando a los que tienen más talento, sino elevando a los que rinden menos sin la ayuda de la IA. Esto se ha validado empíricamente tanto para la productividad como para la creatividad: La IA mejora toda la creatividad humana, pero los menos creativos reciben el impulso más significativo.
  • Los humanos y la IA trabajando juntos superan a cualquiera de los dos trabajando en solitario. Una vez más, esto es válido tanto para la productividad como para la creatividad.

Sí, la IA genera más ideas creativas que los humanos, y lo hace más rápido y a menor coste. La capacidad de la IA para producir conceptos de forma rápida y rentable no tiene parangón. La abundancia de ideas de la IA ha dado lugar a una nueva realidad en la que idear es gratis. En cualquier esfuerzo creativo, cuantos más tiros a puerta, más puntos se consiguen. Por lo tanto, más ideas en bruto siempre son buenas, porque la cantidad se convierte en calidad en la creatividad.

Cuantos más dardos lances a la diana, más veces darás en el blanco. (Diana de Midjourney.)

Con un mayor volumen de ideas surge la necesidad de filtrar la sobrecarga de ideas, permitiendo que sólo las más prometedoras sigan adelante. En nuestro modelo de sinergia, este filtro de selección lo proporciona el juicio experto de los experimentados profesionales humanos de UX.

Aumentar, no sustituir, es la estrategia ganadora. La IA no debe suplantar a los creadores humanos, sino potenciarles para que sean más creativos y productivos de lo que jamás podrían ser por sí solos, y mejor de lo que la propia IA podría por sí sola.

Esto significa que los simbiontes harán el futuro del trabajo creativo: las personas intrincadamente entrelazadas con la IA, ambas partes aportando contribuciones fundamentales. Es probable que la mayor contribución de la IA se produzca durante la fase de divergencia del modelo de diseño divergente-convergente. A continuación, los humanos impulsarán la convergencia, seleccionando las ideas más prometedoras para su aplicación. Pero los verdaderos creadores de simbiosis reconocerán la necesidad frecuente de alternar entre ambos lados y de iterar, volviendo a fases divergentes anteriores en lugar de proceder linealmente, como podrían implicar muchas de las imágenes del modelo de “doble diamante” que se ven en Internet.

El futuro pertenece a los simbiontes que combinan el torrente de generación de ideas de la IA con el juicio y el gusto humanos. Y no, no es necesario parecerse a un personaje de una película de SF para convertirse en un simbionte humano-AI aumentado, pero esta es la mejor imagen que su corresponsal (también conocido como el simbionte Jakob-Midjourney) pudo producir.

Resumen por Haiku

En honor al Estudio 8, he elaborado un haiku utilizando su estrategia ganadora para resumir este artículo, eligiendo la mejor sugerencia de ChatGPT y Claude (Claude ganó esta vez).

Las ideas fluyen sin fin Los humanos recogen los mejores frutos La creación asciende

El resto de este artículo recoge los detalles de cada uno de los estudios de investigación. Puede dejar de leer ahora si sólo le interesan las conclusiones ya expuestas. Pero la investigación tiene muchos detalles interesantes, así que le recomiendo que siga leyendo si tiene tiempo.

Estudio 4: Los humanos asistidos por IA son escritores más creativos que los humanos sin ayuda

Anil Doshi y Oliver Hauser, del University College de Londres y la Universidad de Exeter (Reino Unido), realizaron este estudio sobre la escritura literaria, que es un excelente ejemplo de creatividad en bruto en la que todo vale. Hay menos restricciones que cuando se escriben documentos comerciales (el ámbito de un estudio analizado en mi reseña sobre el aumento de la productividad derivado del uso de la IA en el proceso de escritura).

En este estudio, 293 participantes escribieron un relato corto de sólo 8 frases. Así que estamos lejos de estudiar a autores que producen novelas completas. Pero, al mismo tiempo, el impacto de los relatos ultracortos depende casi por completo de la pura creatividad, ya que hay muy poco margen para apoyarse en otros aspectos del oficio del escritor, como los giros argumentales y el desarrollo de los personajes.

Se probaron tres condiciones de escritura diferentes, con aproximadamente 1/3 de los participantes en el estudio asignados aleatoriamente a cada condición:

  • Personas que escriben a la antigua usanza, sin ayuda de la IA
  • Humanos que podrían utilizar la GPT-4 para generar una idea de 3 frases para su historia
  • Humanos que podrían utilizar la misma herramienta de IA para generar hasta 5 ideas

En los dos casos, los autores humanos escribieron el relato a su antojo, inspirándose tanto como quisieron en las ideas producidas por la IA.

A continuación, todas las historias fueron evaluadas por otro grupo de jueces humanos (600 en total) que puntuaron las historias en función de 3 características de novedad (si la historia era novedosa, original y poco frecuente), 3 características de utilidad (si la historia era apropiada, factible y publicable) y características emocionales. Por supuesto, los jueces no sabían qué historias procedían de cada condición de estudio.

En una escala del 1 al 9, la novedad fue valorada con un 3,85 por los humanos sin ayuda, mientras que los escritores asistidos por IA obtuvieron un 4,11. La diferencia fue estadísticamente significativa (p<0,001).

En la misma escala de valoración, la puntuación de utilidad fue de 5,02 para los humanos sin ayuda, frente a 5,34 para los escritores que contaron con asistencia de IA. Una vez más, la diferencia era significativa, p<0,001.

Los jueces no otorgaron puntuaciones muy altas en este estudio, pero los autores eran miembros del público en general y no escritores profesionales. Sería interesante realizar un estudio similar con relatos escritos por autores publicados.

En cualquier caso, la calidad de los relatos mejoró en el caso de los escritores que recibieron ayuda creativa de la IA. Además, las puntuaciones aumentaron más para los escritores que recibieron más ideas de la herramienta de IA.

Los escritores que podían pedir una sola idea generada por la IA obtuvieron una puntuación de 4,06 en novedad y 5,21 en utilidad. En cambio, los escritores que podían pedir 5 ideas de IA obtuvieron 4,16 en novedad y 5,48 en utilidad. (Ambas diferencias fueron significativas a p<0,05).

Dado que la ideación es gratuita con la IA, este estudio demuestra que debemos pedir a nuestras herramientas de IA que generen muchas ideas cuando colaboremos con ella en un proceso creativo.

Las escalas de valoración de 1 a 9 utilizadas en este estudio no son escalas de relación, por lo que no podemos calcular realmente el porcentaje de ganancia que se obtiene con el uso de la IA. (No se da el caso de que un artículo calificado con un 4 sea el doble de bueno que otro calificado con un 2.) Aun así, podemos obtener una estimación aproximada de la magnitud del beneficio de la IA calculando los porcentajes. Pero no los tomemos como algo más que un indicador de nuestro vecindario.

Teniendo en cuenta estas advertencias, el aumento de la novedad de las historias fue del 8,1% para el uso de 5 ideas generadas por IA y del 5,5% para el uso de una sola idea generada por IA. Se trata de ganancias pequeñas en comparación con lo que solemos ver cuando comprobamos el impacto del uso de la IA para ayudar a los trabajadores del conocimiento.

Los participantes en el estudio completaron una breve Tarea de Asociación Divergente (TAD) antes de escribir sus historias. Se trata de una prueba de creatividad rápida y sencilla en la que los participantes deben proporcionar 10 palabras lo más diferentes posible entre sí. Al comparar a los participantes con puntuaciones altas y bajas en la DAT, el estudio descubrió que el uso de ideas de historias proporcionadas por la IA producía las mayores mejoras para los participantes con puntuaciones bajas en la DAT. En otras palabras, las personas inherentemente menos creativas obtienen más beneficios al trabajar con IA en su escritura. Esto concuerda con investigaciones anteriores que han descubierto que la IA reduce las lagunas en las habilidades.

Estudio 5: En la co-escritura creativa, los humanos conservan la mayor parte de la iniciativa pero permiten que la IA tome el control cuando se atascan

Qian Wan y sus colegas de la City University de Hong Kong estudiaron la co-creación entre humanos e IA en dos ámbitos de creación de contenidos: la escritura de historias (como se hizo en el Estudio 4) y la escritura de eslóganes. Los participantes eran 15 estudiantes de habla china de campos creativos (por ejemplo, de medios creativos, arte y diseño, literatura, etc.). Así, a diferencia del Estudio 4, en el que se evaluó a gente normal, cabía esperar que estos participantes mostraran una creatividad superior a la media. A los usuarios se les aplicó una versión de la GPT-3.

Se trata de un estudio cualitativo, que es excelente para obtener información más profunda sobre los comportamientos de los usuarios que la que se puede extraer de los números producidos en la investigación cuantitativa. También me gusta que los participantes escribieran en chino en lugar de en inglés, lo que nos proporciona una dimensión adicional para juzgar la validez de la investigación sobre la creatividad de la IA que estoy analizando. Como ya he dicho antes, cuanto más difieren los estudios en varias dimensiones, más podemos creer en la aplicación general de las conclusiones si todos los resultados coinciden aproximadamente a pesar de esas diferencias.

En este estudio se prestó especial atención a la fase previa a la escritura, en la que los escritores gestionan las ideas de la historia y trazan lo que van a escribir. Se pidió a los participantes que pensaran en voz alta mientras desarrollaban sus ideas de escritura.

Las cuatro conclusiones principales de este estudio fueron:

  • La IA se percibió como útil a lo largo de tres fases distintas de su proceso de escritura: la ideación inicial, la iluminación (en la que las ideas vagas se hacen más concretas) y la puesta en práctica (redacción del texto final). En este estudio, no se dio el caso de que los escritores sólo apreciaran la IA por su profusión inicial de ideas en bruto. Durante la fase de iluminación, los participantes quedaron impresionados por la capacidad de la IA para transformar ideas vagas con conceptos fragmentados en ideas concretas y fascinantes.
  • El proceso de escritura solía ser iterativo, y los escritores volvían a la IA con indicaciones revisadas para obtener ideas más concretas. Los participantes también volvían a etapas anteriores del proceso de escritura cuando se encontraban bloqueados, en lugar de tratar las 3 fases como un proceso lineal en el que, por ejemplo, no se volvía a la ideación en bruto después de haber progresado hasta la etapa de iluminación con las ideas procedentes del primer intento de ideación del escritor.
  • Además de las rondas de ideación explícitas, los participantes encontraron inspiración en los resultados inesperados y la aleatoriedad de los resultados de la IA. De hecho, incluso los fracasos, como las ideas inútiles, fueron apreciados como semillas de inspiración. Dado que las actuales herramientas de IA son famosas por desviarse con frecuencia del camino, es un hallazgo feliz y una razón para advertir a los proveedores de herramientas de IA de que no aprieten sus guardarraíles y confinen la IA dentro de los límites del pensamiento ortodoxo.
  • Los escritores preferían mantener la iniciativa y controlar el proceso de escritura, sobre todo pidiéndole a la IA que elaborara o rellenara sus lagunas de escritura. Sólo cuando se encontraban con un bloqueo del escritor dejaban que la IA tomara la iniciativa y generara ideas desde cero. (A la IA se le concedió la iniciativa durante la ideación inicial, ya que los participantes dieron prioridad a su capacidad para generar muchas ideas diferentes. En las otras dos fases (iluminación y aplicación), los redactores asignaron a la IA un papel más de asistencia.

Por ejemplo, un autor de relatos de terror se inspiró en la caprichosa frase de AI “masa demoníaca“, imaginando una escena de repostería que sale mal.

Una participante estaba escribiendo sobre temas relacionados con la salud en la monitorización del ritmo cardíaco y quería incluir luciérnagas, que no es una conexión obvia. Se lo pidió a la IA y se vio recompensada con un escenario que funcionaría. Esta participante comentó: “Era una idea loca que no parecía tener sentido, pero la IA hace que funcione”.

Una observación importante es que los escritores no esperaban obtener resultados perfectos de una tarea determinada. En cambio, la IA se utilizó para evitar el bloqueo o la fijación del escritor, donde las ideas imperfectas, los resultados inesperados y la pura aleatoriedad de los resultados de la IA sirvieron de inspiración. Esta voluntad de tratar a la IA como un socio de los humanos, en lugar de esperar que lo haga todo por sí sola, parece fundamental para el éxito de las aplicaciones creativas de la tecnología.

El estudio ilustra el papel de la IA como valiosa colaboradora en el proceso de escritura creativa. Ya sea aumentando las ideas, superando el bloqueo del escritor o haciendo viables conceptos inverosímiles, las contribuciones de la IA son tangibles y estadísticamente significativas. Es una herramienta que enriquece el proceso creativo sin ahogar la iniciativa humana, una colaboración que respeta el control humano al tiempo que aprovecha la ilimitada capacidad de ideación de la IA.

Estudio 6: La extrañeza de las imágenes generadas por IA despierta la creatividad de los humanos

Jennifer Haase y sus colegas de la Universidad Humboldt de Berlín (Alemania) y del Instituto Weizenbaum (Alemania) están detrás del Estudio 6. Estos investigadores probaron un enfoque diferente de la colaboración entre humanos e IA estudiando el efecto del cambio de modalidad. Mientras que en los Estudios 4 y 5 se empleó la IA para generar texto que ayudara a los escritores a escribir, en este estudio se utilizó la IA para generar imágenes que ayudaran a los humanos a crear ideas. La herramienta de imagen de IA utilizada fue DALL-E-2.

El estudio contó con 298 participantes, aproximadamente un tercio en cada una de las tres condiciones:

  1. Los humanos producían ideas, sin imágenes que inspiraran a la persona.
  2. Los humanos producían ideas, con una fotografía tradicional como inspiración.
  3. Los humanos producían ideas, con una imagen generada por la IA como inspiración.

Los participantes constituían un término medio entre el público general analizado en el Estudio 4 y los especialistas en medios creativos analizados en el Estudio 5. Los participantes del Estudio 6 tenían el arte como afición y trabajaban en los sectores de las artes, el diseño, el ocio o el entretenimiento.

En todas las condiciones, los participantes recibieron la misma tarea: escribir el mayor número posible de usos alternativos en 3 minutos para cada uno de los 5 objetos (pelota, tenedor, pantalones, neumático y cepillo de dientes). Es lo que se conoce como Tarea de Usos Alternativos (AUT) y se ha utilizado en muchas investigaciones anteriores para medir la creatividad. Esta tarea produce dos puntuaciones: fluidez (el número total de usos alternativos enumerados) y originalidad. Lo ideal es que ambas puntuaciones sean altas.

Se sabe por investigaciones anteriores que los estímulos visuales pueden despertar la creatividad al desencadenar nuevas asociaciones. Esto se confirmó en este estudio con la puntuación de originalidad, que fue más alta en ambas condiciones de imagen en comparación con la condición en la que no se proporcionó ninguna imagen. En cuanto a la fluidez (el número total de ideas), los participantes que vieron imágenes generadas por IA superaron a los de la condición sin imágenes. Sin embargo, los participantes en la condición de imágenes tradicionales obtuvieron los peores resultados de todos.

El número de ideas generadas (la puntuación de fluidez) fue el siguiente:

  • – No se facilitan imágenes: 8.12
  • – Imagen tradicional proporcionada: 7.37
  • – Imagen generada por AI proporcionada: 8.66

Las diferencias entre condiciones fueron significativas al nivel p<0,05.

La originalidad de las ideas se valoró en una escala de 1 a 5, obteniéndose los siguientes resultados:

  • No se facilitan imágenes: 2.67
  • Imagen tradicional proporcionada: 2.78
  • Imagen generada por AI: 2.80

En este caso, la diferencia entre los dos tipos de imágenes no fue significativa, pero la diferencia entre los participantes con y sin imágenes sí lo fue en el nivel p<0,05.

Cualquiera que haya utilizado una herramienta de generación de imágenes por IA sabe que los resultados suelen presentar cierta rareza. Este estudio demuestra que este defecto puede convertirse en una característica: las personas que ven imágenes un tanto extrañas parecen volverse más creativas.

Este estudio subraya el potencial de la IA para despertar la creatividad adicional a través de estímulos visuales, lo que añade una nueva dimensión a nuestra comprensión de cómo puede aprovecharse la IA para fomentar la creatividad humana en múltiples modalidades.

Este último hallazgo resuena en mi flujo de trabajo como una observación puramente subjetiva, porque a menudo le pido a la IA que genere imágenes a partir de una indicación muy amplia antes de empezar a escribir. No puedo medir cuánto me inspira esto, pero me gusta el proceso. Aquí están las 4 imágenes generadas por Midjourney a partir del prompt “un tenedor”. (Esta es mi captura de pantalla, no imágenes del estudio.) En el estudio, a cada participante sólo se le mostró una imagen, pero como la ideación es libre cuando se utiliza IA, podríamos mostrar fácilmente a la gente un conjunto más amplio de imágenes, lo que probablemente despertaría aún más la creatividad. En este caso, la imagen superior derecha de un lago es totalmente descabellada, pero al igual que los participantes en el Estudio 5, un humano podría convertir esta rareza en algo valioso y creativo.

Estudio 7: ChatGPT 4 mucho más creativo que ChatGPT 3 y que los humanos medios

Este estudio también fue realizado por Jennifer Haase, de la Universidad Humboldt de Berlín, esta vez junto con Paul Hanel, de la Universidad de Essex (Reino Unido). En este estudio también se empleó el Test de Usos Alternativos (AUT) como instrumento de investigación. En esta ocasión, 100 humanos se enfrentaron a varios modelos de IA en otro concurso de ideación. Como recordatorio, las variables dependientes son la fluidez (el número de ideas) y la originalidad (lo diferentes que son las ideas).

Las puntuaciones de originalidad fueron las siguientes, en una escala de 1 a 5:

  • Humanos: 2,6
  • ChatGPT 3: 2,7
  • ChatGPT 4: 3,2

No podemos calcular un aumento porcentual a partir de esta escala de 1 a 5 utilizada en el estudio, pero está claro que ChatGPT 4 fue mucho mejor que los humanos y ChatGPT 3. En un año escaso, la creatividad de la IA pasó de la paridad con los humanos a una clara superioridad.

En cuanto a la fluidez, el documento no da detalles, pero afirma que la IA propuso entre 2 y 3 veces más ideas que los humanos.

En resumidas cuentas, GPT-4 obtuvo mejores resultados en la AUT que el 91% de los humanos, lo que confirma los resultados anteriores del Estudio 1 sobre la superioridad de la creatividad de la IA medida en pruebas tradicionales. (En el Estudio 1, la IA obtuvo mejores resultados que el 99% de los humanos en una prueba de creatividad más amplia).

Estudio 8: Los haikus de la IA superan a los poetas humanos después de la criba

Jimpei Hitsuwari y sus colegas de la Universidad de Kioto (Japón) realizaron este estudio. 385 participantes evaluaron la belleza de 80 poemas haiku. La mitad fueron compuestos por maestros de la poesía japonesa, como Kobayashi Issa (1763-1828) y Takahama Kyoshi (1874-1959), y la otra mitad por una IA especializada en la generación de haikus llamada “AI Issa-kun”. De los 40 haikus generados por la IA, la mitad procedían directamente de la máquina, mientras que tres humanos seleccionaron la otra mitad de un conjunto más amplio.

En una escala de valoración del 1 al 7, la belleza de los poemas se calificó de la siguiente manera:

  • Haikus compuestos por humanos: 4,15
  • Haikus generados por inteligencia artificial, directamente desde el ordenador: 4.14
  • Haikus generados por inteligencia artificial y depurados por humanos: 4.56

Se preguntó a los participantes si cada haiku había sido creado por un humano o por una IA, y los resultados mostraron que no podían distinguirlos.

Este estudio confirma las ventajas de la colaboración entre humanos e IA. En concreto, el estudio confirma el valor de la criba, en la que combinamos las ventajas de la producción ilimitada de ideas de la IA con el juicio de humanos experimentados para seleccionar la mejor opción.

Esta función es similar a la del editor de una revista de poesía, que también intentará seleccionar los mejores poemas para publicarlos. La diferencia es que los poetas humanos habrán sudado sobre los muchos poemas rechazados, lo que supone un importante desperdicio de vida humana. En cambio, con la IA la ideación es gratuita, así que se puede encargar al ordenador cualquier número de haikus sin gastar más que unos céntimos.

Casualmente, el enfoque ganador de este estudio es también la forma en que de vez en cuando consigo haikus para mis artículos. (El estudio calificó verdaderos haikus en japonés, mientras que yo tristemente tengo que conformarme con versiones en inglés). Pido a ChatGPT 4 que componga entre 5 y 7 haikus a partir de mi descripción del tema en cuestión. Y luego, confío en mi criterio para elegir los mejores haikus que infligir a los lectores.

Estudio 9: Las pinturas creadas conjuntamente por humanos e IA cerraron la brecha de habilidades

Yanru Lyu y sus colegas de la Universidad de Tecnología y Negocios de Pekín (China) y otras instituciones realizaron este estudio. Estos investigadores hicieron que seis artistas y seis no artistas crearan conjuntamente imágenes de pinturas al óleo con la herramienta de IA Midjourney. (Los resultados de los participantes eran imágenes de pinturas al óleo, no pinturas reales, que los no artistas probablemente no habrían podido pintar).

A continuación, 42 jueces con experiencia profesional en pintura o investigación artística puntuaron los 12 cuadros resultantes en función de su experiencia estética en una escala de 1 a 5 puntos. Las puntuaciones resultantes fueron prácticamente idénticas: 3,43 puntos para los artistas y 3,45 puntos para los no artistas.

La mayoría de las investigaciones concluyen que el uso de la IA reduce la diferencia de capacidades entre las personas que habrían tenido un rendimiento alto o bajo sin la ayuda de la IA. Pero este estudio no solo redujo la diferencia entre artistas y no artistas, sino que la erradicó.

De hecho, en la puntuación de “dulzura”, los no artistas fueron los que obtuvieron mejores resultados, con 3,54 frente a 3,43 de los artistas (significativo a p<0,001). Aunque los investigadores no explican este resultado, supongo que a los artistas profesionales les suelen gustar las obras atrevidas, mientras que los no artistas suelen preferir obras más reconfortantes. Así que cuando la IA iguala la capacidad de ejecutar una visión, los no artistas acaban creando cuadros que tienen un atractivo más inmediato de dulzura.

Otra cuestión es si una obra atrevida o dulce resistirá mejor el paso del tiempo. Uno de los cuadros favoritos de mi colección es un tanto melancólico, pero lo he colgado en el comedor junto con un naufragio (otro tema sombrío para un cuadro) y dos paisajes invernales, además de una alegre escena veraniega. Por supuesto, mis preferencias personales no son ni aquí ni allá. Tú ≠ Usuario, como decimos en el negocio de la UX, y aún es más cierto que yo ≠ Usuario.

Estudio 10: La gente prefiere las imágenes generadas por IA a las creadas por humanos

Este estudio fue realizado por Andrei Daniel Niculae, de la Universidad de Estudios Económicos de Bucarest (Rumanía). Analizó 417 valoraciones de imágenes creadas por la IA o por un ser humano. Para dos imágenes de montañas, el 86% de los encuestados prefirió la imagen generada por IA, mientras que el 14% prefirió la generada por un ser humano. Para dos imágenes de pueblos idílicos, la generada por IA fue la preferida por el 69%, y la generada por humanos, por el 31%. Para dos imágenes de un paisaje boscoso, la imagen generada por IA fue la preferida por el 78%, mientras que la generada por humanos lo fue por el 22%.

Este pequeño estudio de caso de imágenes relacionadas con el turismo no se presta a conclusiones firmes y generales. Pero es una pieza más del rompecabezas que estamos montando para ver el valor de la IA como herramienta creativa.

Estudio 11: La IA redujo la brecha de competencias entre los agentes comerciales y las ventas aumentaron

Nan Jia, de la Universidad del Sur de California, y sus colegas probaron si un asistente de inteligencia artificial ayudaría a los agentes de ventas a vender más cuando realizan llamadas de telemarketing. Y así fue: los agentes con asistencia de IA en las llamadas de ventas cerraron un 61% más de ventas que los agentes sin ayuda. Eso es lo esencial y lo único que necesitaría saber un jefe de ventas para firmar la compra de la herramienta de IA para su personal de ventas. (La diferencia fue significativa a p<0,05).

Este estudio se realizó en condiciones de campo (es decir, mientras los representantes realizaban llamadas de ventas reales) en una “gran empresa de telemarketing de Asia”. Siempre me gustan los datos procedentes del uso real de la empresa: por mucho que los datos recogidos en laboratorio sean mejores que no tener datos, siempre queda esa duda persistente sobre lo bien que se traslada el laboratorio al mundo real. Los autores analizaron las grabaciones de voz de 40 agentes comerciales mientras realizaban 3.144 llamadas de ventas.

Una segunda medida del estudio fue la capacidad de los agentes de ventas para responder a las preguntas de los clientes potenciales fuera del material proporcionado en la formación. Los autores lo consideran una medida de la creatividad de los vendedores. También en este caso, el uso de una herramienta de IA durante la llamada de ventas ayudó, ya que los agentes con IA fueron capaces de responder a un 133% más de preguntas novedosas que los agentes sin ayuda. (La diferencia fue significativa a p<0,05).

La capacidad de responder a preguntas novedosas también se analizó por separado para los mejores y los peores agentes de los equipos de ventas, en función de las ventas del mes anterior. Los mejores agentes sin IA obtuvieron una puntuación de 5, y los mejores agentes con IA obtuvieron una puntuación de 11, lo que supone un aumento de 6. Por el contrario, los peores agentes sin IA obtuvieron una puntuación de 1, y los peores agentes con IA obtuvieron una puntuación de 3, lo que supone un aumento de sólo 2.

Sin IA, los mejores agentes respondían a las preguntas 5,0 veces mejor que los peores, pero con la ayuda de la IA, los mejores agentes sólo respondían 3,7 veces mejor. Yo lo considero una reducción de la brecha entre los buenos y los malos vendedores cuando se utiliza IA. Los autores del artículo interpretan los datos de forma opuesta, ya que el aumento absoluto del rendimiento entre los dos grupos fue mayor en el caso de los mejores agentes.

Ambas son formas válidas de presentar los datos brutos, pero el rendimiento relativo es la forma de medir las diferencias de cualificación. ¿Cuánto mejor son los mejores que los peores? Entre otras cosas, es un indicador de cuánto hay que pagar a los empleados con distintos niveles de cualificación. Si los buenos vendedores son 5 veces mejores, hay que pagarles mucho. Y si sólo son 3,7 veces mejores, aún merecen más dinero, pero no tanto. Por lo tanto, añadir la herramienta de asistencia de IA al proceso de ventas debería reducir la diferencia de remuneración entre los agentes más destacados y los menos destacados. Otra forma de analizar los resultados es que los agentes inferiores rindieron un 200% más con la ayuda de la IA, mientras que los agentes superiores sólo mejoraron su rendimiento en un 120%. Una vez más, para mí, esto significa que la IA fue de más ayuda para los agentes de bajo rendimiento.

Estudio 12: Los humanos generaron más ideas novedosas, pero la calidad general de las ideas fue la misma gracias a la IA

Este estudio fue realizado por Léonard Boussioux, del MIT, y tres colegas de la Harvard Business School. Su ámbito era la generación de ideas de negocio para reutilizar, reciclar o compartir productos. Se recopilaron dos grupos de ideas: En primer lugar, un conjunto de 125 propuestas procedentes de un concurso en Internet para generar buenas ideas de negocio para el problema. Cualquiera podía presentar voluntariamente una propuesta para esta noble causa, pero además se le incentivó con un premio de 1.000 dólares a la mejor propuesta. Un segundo conjunto de 730 ideas fue generado por GPT-4.

¿Por qué tantas ideas de IA? Dado que con la IA la ideación es gratuita, los investigadores tomaron lo que pudieron producir en 5,5 horas. (Lo cual no es realmente gratis, aunque probablemente encargaron a un estudiante de posgrado que alimentara a GPT-4 con las instrucciones. Los autores calcularon que el coste directo del cálculo de inferencia fue de unos 27 dólares). En cambio, las 125 ideas generadas por humanos fueron la medida en que un premio de 1.000 dólares podría convencer a los internautas de participar en este reto para mejorar el medio ambiente.

Es cierto que se trata de una comparación extraña y no de un experimento controlado. Pero las dos condiciones son probablemente realistas en cuanto a lo que se puede obtener de un esfuerzo a mediana escala para recopilar ideas de humanos y de IA, respectivamente.

Se seleccionó aleatoriamente un subconjunto de las soluciones disponibles para su evaluación: 180 ideas generadas por IA y 54 generadas por humanos. Los autores emplearon a 145 evaluadores para juzgar 13 soluciones cada uno, con un total de 1.885 juicios. Los evaluadores puntuaron las soluciones propuestas en función de 5 criterios:

  • Novedad (en qué se diferencia de las soluciones existentes)
  • Viabilidad y escalabilidad (probabilidades de éxito y escalabilidad).
  • Impacto medioambiental (en qué medida beneficia al planeta)
  • Impacto financiero (qué valor financiero puede crear para las empresas).
  • Calidad general (en función de los 4 criterios, ¿cuál es la calidad general de la solución?)

Las soluciones generadas por humanos recibieron puntuaciones de novedad ligeramente superiores (3,54 en una escala de 1 a 5) a las soluciones de IA (3,15), siendo la diferencia significativa en el nivel p<0,05. Las puntuaciones de viabilidad, valor y calidad fueron prácticamente las mismas para la IA y los humanos. (La puntuación del impacto medioambiental no se analiza en el documento.

La conclusión de que los humanos recibieron puntuaciones de novedad más altas es similar a la del Estudio 2 (analizado en mi artículo de la Parte 1 sobre la creatividad de la IA.) En cambio, mientras que el Estudio 2 informó de un valor ligeramente más alto para las ideas de negocio generadas por la IA, el Estudio 12 descubrió que la IA y los humanos recibieron la misma puntuación.

Conclusión

En conjunto, los 12 estudios demuestran rotundamente:

  • La IA marca un nuevo hito en imaginación, ideación y creatividad en diversos ámbitos.
  • Pero el verdadero poder de la IA surge cuando se combina con el juicio y el discernimiento humanos.
  • Esta sinergia simbiótica eclipsa a los humanos o a la IA trabajando de forma aislada.
  • La IA también democratiza la creatividad al acercar a los aficionados a niveles de expertos.

El mandato es claro: aumentar, no sustituir. El futuro pertenece a la colaboración entre las personas y la inteligencia artificial. La creatividad, la productividad y la innovación alcanzarán nuevas cotas gracias a esta colaboración.

Pero debemos mantener a los humanos al volante. La IA proporciona abundante combustible para cohetes, pero nosotros debemos dirigir la nave espacial turboalimentada.

Referencias

  • [Estudio 4] Anil R Doshi y Oliver Hauser (2023): “Generative artificial intelligence enhances creativity” (8 de agosto de 2023). Disponible en SSRN: https://ssrn.com/abstract=4535536 o https://dx.doi.org/10.2139/ssrn.4535536
  • [Estudio 5] Qian Wan, Si-Yuan Hu, Yu Zhang, Pi-Hui Wang, Bo Wen y Zhicong Lu (2023): “‘It Felt Like Having a Second Mind’: Investigating Human-AI Co-creativity in Prewriting with Large Language Models”. ArXiv 2307.10811, DOI:10.48550/arXiv.2307.10811
  • [Estudio 6] Jennifer Haase, Djordje Djurica y Jan Mendling (2023): “El arte de inspirar creatividad: Exploring the Unique Impact of AI-generated Images” Actas de AMCIS 2023. 10. https://aisel.aisnet.org/amcis2023/sig_aiaa/sig_aiaa/10
  • [Estudio 7] Jennifer Haase y Paul H. P. Hanel (2023): “Artificial Muses: Generative Artificial Intelligence Chatbots Have Risen to Human-Level Creativity” ArXiV 21 de marzo de 2023, https://doi.org/10.48550/arXiv.2303.12003
  • [Estudio 8] Jimpei Hitsuwari, Yoshiyuki Ueda, Woojin Yun y Michio Nomura (2023): “¿Conduce la colaboración entre humanos e IA a un arte más creativo? Aesthetic evaluation of human-made and AI-generated haiku poetry”, Computers in Human Behavior vol. 139, febrero de 2023, artículo 107502. DOI: 10.1016/j.chb.2022.107502
  • [Estudio 9] Yanru Lyu, Xinxin Wang, Rungtai Lin y Jun Wu (2022): “Communication in Human-AI Co-Creation: Perceptual Analysis of Paintings Generated by Text-to-Image System” Applied Sciences 2022, 12(22), 11312; https://doi.org/10.3390/app122211312
  • [Estudio 10] Andrei Daniel Niculae (2023): “Uso empresarial: ¿está la IA superando a la creatividad humana?”. Cactus Tourism Journal Vol. 5, nº 1, 2023 Nueva Serie, páginas 53-63.
  • [Estudio 11] Nan Jia, Xueming Luo, Zheng Fang y Chengcheng Lia (2023): “When and How Artificial Intelligence Augments Employee Creativity”, Academy of Management Journal, marzo de 2023, https://doi.org/10.5465/amj.2022.0426.
  • [Estudio 12] Léonard Boussioux, Jacqueline N. Lane, Miaomiao Zhang, Vladimir Jacimovic y Karim R. Lakhani (2023). “¿El futuro sin multitudes? How Generative AI Is Shaping the Future of Human Crowdsourcing” Harvard Business School Technology & Operations Mgt. Unit Working Paper No. 24-005, 10 de agosto de 2023. https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4533642

Jakob Nielsen

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Abrir chat
1
Hola 👋
¿En qué podemos ayudarte?