#22 ¿De dónde vienen los datos que usa la IA Generativa?

Impulsando Negocios, Potenciando Personas

jun 16, 2024

Desde hace 2 años muchos de nosotros nos hemos lanzado a usar y abrazar las herramientas de inteligencia artificial generativa (chatGPT, Copilot, Midjourney…). Sin entender muy bien cómo funcionan, viéndolas como si de un truco de magia se tratara, les hacemos preguntas, demandas, para que creen un texto, un discurso, una traducción, que pongan la información en una tabla o representen un texto en formato de imagen. Además, hemos podido ver como día a día la precisión, calidad y funcionamiento de estas herramientas mejoraba de forma exponencial.

Y en esta carrera por el uso de estas herramientas, en la satisfacción de ver que permiten que hagamos en pocos minutos cosas que antes tardábamos horas, quizás hemos olvidado hacernos algunas preguntas.

¿de dónde salen los datos que estas herramientas usan?
¿tiene límite su uso?
¿cómo es que mejoran tan rápido? Y, ¿podrán seguir mejorando tan rápido?

Os propongo parar 3 minutos y tratar de poner en perspectiva estas preguntas.

¿De dónde salen los datos que estas herramientas usan?

Para que herramientas como ChatGPT o Copilot funcionen como lo hacen necesitan ser entrenadas con una gran cantidad de datos. Decimos aquello de “usan todo lo que hay en internet”. Pero ¿de dónde lo sacan?

En 2007 se fundó en California, Common Crawl, una fundación que tiene como objetivo que cualquier pueda acceder a todos los datos de Internet. De esta forma esta fundación mantiene un repositorio abierto y gratuito de datos de rastreo web que cualquiera puede utilizar. Cada tres meses se descargan Internet (hacen un crawling de todo internet que, medido en tokens, serían unos 5 trillones de tokens), lo ordenan (eliminan duplicidades, páginas no entradas…) y lo ponen en abierto y de forma gratuita para todo aquél que quiera utilizarlo.

Source: Common Crawl blog, representación de todos los datos de internet a abril 2024

Y aquí acuden todas las organizaciones que necesitan datos para entrenar a sus algoritmos. Adicionalmente a estos datos, que pueden representar entre e 70%-80% de la totalidad de datos que usan, muchas de ellas llegan a acuerdos con repositorios de datos (medios de comunicación, agencias de noticias…) para obtener también sus datos (muchas veces “cerrados”) y completar el entreno de sus algoritmos.

¿No te parece curioso que estas herramientas que hacen magia usen los datos descargados por una fundación y puestos a disposición de forma abierta y gratuita?

¿Tiene límite la escalda en el uso de la IA Generativa?

La IA no es nueva, de hecho, se considera que sus inicios fueron durante la década de los años 50. Entre otros motivos, su “lenta” evolución hasta los últimos 10 años se debió a que para que funcionen en todo su potencial necesitan mucha capacidad de cálculo. Hay que recordar que la IA Generativa es un proceso de correlación entre datos, de manera que se necesita poder calcular a la vez la correlación entre millones de datos para poder obtener una respuesta.

Una simple pregunta a GPT va a requerir millones de cálculos para correlacionar las palabras a usar en su respuesta y poderlas mostrar y ordenar de forma adecuada para que tengan sentido.

Después de un crecimiento prácticamente lineal en la capacidad de cálculo que los ordenadores ofrecían, es alrededor de 2012-2014 que se inicia un crecimiento exponencial de la capacidad de cálculo, el desarrollo de superordenadores, lo que permite prácticamente doblar cada año la capacidad total.

Pero ahora nos encontramos en un momento, como afirma Pep Martorell, director del Barcelona SuperComputing center (donde está alojado el que hoy en día es el superordenador con mayor capacidad de cálculo de Europa, el MareNostrum 5) en el que es físicamente imposible pensar que esta evolución podrá continuar. Con la tecnología actual es físicamente imposible poder construir chips (la base que permite el cálculo) para poder seguir creciendo esta capacidad de cálculo (situada en parámetros de 10⁶).

La conclusión es que no podemos esperar una evolución masiva en los próximos 2-4 años a la misma velocidad que hemos vivido en los últimos 3. Y, como afirma el Dr. Martorell, quizás estamos ante el momento en el que lo que veremos es una especialización, el cómo esta IA generativa tan potente dejará de correr como un caballo desbocado para empezar a especializarse y ofrecer soluciones concretas para sectores de actividad, ámbitos de investigación o, porque no, desarrollo de productos y servicios.

La próxima vez que hagas un prompt en ChatGpt ya sabes de donde vienen los datos y cual es su límite ;-)

Noticias:

Ahora ya sabemos cuanto cuesta, en dinero, entrenar a los algoritmos de IA Generativa (Gemini, GPT-4, LLama…).
¿Quieres hablar con tu yo del futuro? En el MIT han desarrollado un nuevo algoritmo de IA que simula ser TU en el futuro.
La potencia de cálculo y la consiguiente capacidad, de la IA, de correlacionar millones de datos ha permitido identificar más de 1 millón de nuevos antibióticos.
¿te imaginas poder crear sobre la marcha las series y películas que están viendo? Esta es la promesa de valor de valor de Showrunner, el “Netflix de la IA”.

Aplicaciones interesantes:

Proai.com: permite crear Planes de negocio de manera rápida, completa y muy profesional

Y, como siempre, Seguimos!

IA 4 BUSINESS

#22 ¿De dónde vienen los datos que usa la IA Generativa?

Impulsando Negocios, Potenciando Personas