Analizo los nuevos modelos de IA de Open AI y las tecnologías GPT-3
Empezamos:
¿Cuáles son las tecnologías que pueden analizar y reproducir cualquier lenguaje humano, lenguajes naturales o formales que sean?
Una respuesta es la siguiente: GPT-3
En el mundo de la Inteligencia Artificial, el modelo de lenguaje GPT-3 (Generative Pre-trained Transformer 3) de la empresa OpenAI está conquistando rápidamente la curiosidad del gran público. Estamos frente a un modelo que utiliza el deep learning para – por ejemplo – componer poesías, relatos, código informático y canciones de manera rápida, tan realistas que hacen pensar en "productos" escritos por un ser humano. Solo necesita una entrada humana para completar la obra. Pero la elocuencia de GPT-3 es mucho más que un truco "de salón". Los investigadores consideran que las técnicas utilizadas para crear GPT-3 podrían revelar el secreto de una Inteligencia Artificial más avanzada. ¿Todo bien, entonces? En realidad, la noticia de que solo Microsoft tendrá acceso al código base de la GPT-3 ha levantado más de una ceja. Veamos por qué.
GTP-3 utiliza sus algoritmos para generar texto. Estos algoritmos han sido entrenados previamente con una enorme base de datos.
Evalúa y procesa todos los datos que recibe para colmar las lagunas informativas.
Es capaz de generar texto a través de una sola frase y completar el resto de la escritura, procesando más de 175 mil millones de parámetros. Este dato es muy relevante, ya que la versión anterior, la GPT-2 presentada en 2019, procesaba solo 1,5 mil millones de parámetros. Los progresos en un año han sido sorprendentes.
Puede traducir textos a otros idiomas y adaptarlos a diferentes estilos de escritura, como el periodismo, la novela, etc. También puede escribir poesías o darnos la mejor respuesta a la pregunta que le hacemos.
En pocas palabras, la GTP-3 es capaz de abordar todo lo que está estructurado como un lenguaje: puede responder a preguntas, escribir ensayos, resumir textos largos, traducir, tomar notas e incluso escribir código informático.
Sí, has leído correctamente: GTP-3 también puede programar. Con gran sorpresa, se ha descubierto que es capaz de utilizar un plug-in para Figma, una herramienta de software comúnmente utilizada en el diseño de aplicaciones y sitios web. Esta característica podría tener implicaciones épicas para el desarrollo del código y el software en el futuro.
La cantidad de cosas que es capaz de hacer puede parecer increíble, pero sus capacidades potenciales son aún más asombrosas
¿Qué es el GPT-3 de OpenAI, nuevo modelo de inteligencia artificial
El GPT-3 se ha formado con una enorme cantidad de datos textuales. Pero ¿qué pasaría si entrenáramos a este modelo de lenguaje no solo con textos, sino también con imágenes? Una nueva investigación del Allen Institute for Artificial Intelligence (AI2) está llevando esta pregunta a su realización. Los investigadores han desarrollado un nuevo modelo "combinado" de texto e imágenes – conocido como modelo de lenguaje visual – capaz de generar imágenes con una descripción. Las imágenes parecen detalladas como los deepfake hiperrealistas generados por los GAN (Redes Generativas Adversarias), y podrían demostrar una nueva prometedora "dirección" para obtener una mejor Inteligencia Artificial, aportando novedades interesantes también al sector de la robótica. El modelo GPT-3 en detalle
La GPT-3 forma parte de un grupo de modelos de lenguaje conocidos como "transformer“, que se difundieron por primera vez con el lenguaje BERT de Google (Representaciones de codificador bidireccional desde transformadores). Antes del BERT, los modelos lingüísticos eran bastante malos; en la práctica, tenían suficiente poder predictivo como para ser útiles para aplicaciones como el autocompletado, pero no suficiente poder para generar una larga frase que siga las reglas gramaticales y el sentido lógico. El BERT cambió esta situación introduciendo una nueva técnica llamada "enmascaramiento": se trata de ocultar palabras diversas en una frase y pedir al modelo que llene el vacío. La idea es que si el modelo de lenguaje está obligado a hacer estos ejercicios – a menudo millones de veces – comienza poco a poco a descubrir la manera en que las palabras se ensamblan en frases, así como cómo las frases se ensamblan en párrafos. Como resultado, el texto se acerca cada vez más al sentido completo. Después de que el enmascaramiento se reveló muy eficaz, los investigadores buscaron aplicarlo a los modelos de lenguaje visual ocultando las palabras en las descripciones de las imágenes. Esta vez, el modelo podía mirar tanto las palabras circundantes como el contenido de la imagen para llenar el vacío. A través de millones de repeticiones, se descubren no solo los modelos entre las palabras, sino también las relaciones entre las palabras y los elementos de cada imagen. El resultado son modelos capaces de relacionar las descripciones textuales con los referentes visuales, justo como los niños pueden crear conexiones entre las palabras que aprenden y las cosas que ven. Los modelos pueden mirar una foto y redactar directamente una descripción, de manera completamente autónoma. O pueden responder a preguntas como "¿de qué color es la pelota?" relacionando la palabra "pelota" con el objeto esférico presente en la imagen. Pero los investigadores de AI2 querían saber si estos modelos habían desarrollado efectivamente una comprensión conceptual del mundo visual. Un niño que ha aprendido