"El objetivo no es competir con ChatGPT": hablamos con los creadores de ALIA, la IA 100% española, para entender su futuro
Este lunes se anunció el lanzamiento de los modelos de lenguaje ALIA. La iniciativa lleva años en desarrollo y es ahora cuando comienzan a verse los primeros frutos, aún modestos, pero prometedores. Para conocer más detalles de ALIA, en Xataka hemos hablado con Marta Villegas (@MartaVillegasM), responsable de la Unidad de Tecnologías del Lenguaje del Barcelona Supercomputing Center (BSC). Eso nos ha permitido aclarar el estado de proyecto, sus objetivos y sus próximos retos. De competir con ChatGPT, nada Lo primero que quisimos saber es cómo se había creado ALIA, y aquí Marta Villegas aclaró que el modelo está basado en la arquitectura de Llama –el modelo Open Source de Meta–, "pero el modelo ha sido entrenado desde cero y con pesos iniciales a cero". Esto es importante porque ALIA no es un modelo basado en Llama al que se le ha hecho un proceso de refinamiento o "fine-tuning". En esos casos, explicaba esta experta, "partes de un modelo entrenado con otros datos y con pesos inicializados, y lo haces para adaptar ese modelo a tus necesidades, bien porque tienes más datos y quieres que sea mejor o bien porque quizás quieres adaptarlo a un dominio en particular". Pero aquí, nos decía, "el vocabulario [conjunto de tokens] es completamente diferente". En otros modelos el corpus o conjunto de datos de entrenamiento pueden estar mayoritariamente en inglés, lo que hace que el conjunto de tokens admisibles se calcule a través del inglés. Eso, indica Villegas, haría que se adaptara menos eficientemente a otros idiomas. Precisamente eso es lo que se ha buscado con ALIA: reducir la relevancia del inglés para incrementar la de 35 idiomas de la Unión Europea y, en especial, el español, catalán, vasco y gallego. Cómo se ha entrenado a ALIA El proceso de entrenamiento de ALIA comenzó con algunos experimentos en abril de 2024. Es algo necesario porque como explicaba Villegas, "entrenar no es darle al botón tras alimentar los datos y ya está". Había que tener en cuenta que MareNostrum 5, el supercomputador sito en y gestionado por el BSC, acababa de entrar en funcionamiento a toda potencia y había una alta demanda para usarlo. MareNostrum 5 En ese proceso de entrenamiento el proyecto ALIA ha tenido disponibilidades graduales de la capacidad de cómputo de MareNostrum 5. Aunque durante un breve espacio de tiempo tuvieron acceso a 512 de los 1.120 nodos especializados del supercomputador, se usaron 256 nodos durante bastantes meses y desde septiembre están usando 128 nodos, "que son muchos", destaca Villegas. Durante el proceso de entrenamiento, nos comentaba, existen los llamados "checkpoints", en los que es posible evaluar cómo va el proceso de entrenamiento. Esas "pausas" permiten además actualizar ciertos datos de entrenamiento, como de hecho ocurrió en ese proceso en el que en un momento dado introdujeron un nuevo corpus con gran calidad que permitió reemplazar algunos datos que tenían. Esto es solo el principio: toca "instruir" y "alinear" ALIA Villegas nos explicaba que ALIA es un modelo fundacional: no está preparado para ser una alternativa a ChatGPT. Este último está basado en GPT-4, un modelo fundacional mucho más ambicioso y que contó con mucha más inversión. Aquí hay que diferenciar el modelo fundacional de los modelos "instruidos" y "alineados" con los que solemos interactuar. Como nos indicaba esta experta, "ALIA-40b es un modelo fundacional que no está instruido ni alineado. Para que un modelo sea un ChatGPT y entienda la conversación y tenga cierta memoria y sea "políticamente correcto" se “instruye” el modelo fundacional (que solo aprende a decir el próximo token) pasando un montón de textos". Aun así, el objetivo es ir planteando esas opciones gradualmente. "En marzo se espera que se lance la versión instruida de ALIA-40b, con un primer conjunto de instrucciones abiertas", nos comentaba Villegas. Se van a subcontratar esas instrucciones –las que permiten instruir estos modelos– y se van a invertir un millón de euros en ese conjunto de instrucciones de cero. Esos datos también se publicarán para que estén disponibles para instituciones y desarrolladores: si se ha pagado con dinero público, explica Villegas, es lógico que esos datos también sean públicos, algo que no suele ocurrir con otros modelos de IA de empresas privadas. En Xataka «Con MareNostrum 5 podríamos quedar entre los tres supercomputadores más rápidos del mundo, pero no es nuestro objetivo», Mateo Valero, director del BSC Mientras que la instrucción de modelos de IA permite proporcionar indicaciones sobre cómo responder y definir el contexto y propósito de esas respuestas, el alineamiento resuelve problemas como el de evitar sesgos discriminatorios, prevenir desinformación o proteger la privacidad. Precisamente esa falta de al
Este lunes se anunció el lanzamiento de los modelos de lenguaje ALIA. La iniciativa lleva años en desarrollo y es ahora cuando comienzan a verse los primeros frutos, aún modestos, pero prometedores.
Para conocer más detalles de ALIA, en Xataka hemos hablado con Marta Villegas (@MartaVillegasM), responsable de la Unidad de Tecnologías del Lenguaje del Barcelona Supercomputing Center (BSC). Eso nos ha permitido aclarar el estado de proyecto, sus objetivos y sus próximos retos.
De competir con ChatGPT, nada
Lo primero que quisimos saber es cómo se había creado ALIA, y aquí Marta Villegas aclaró que el modelo está basado en la arquitectura de Llama –el modelo Open Source de Meta–, "pero el modelo ha sido entrenado desde cero y con pesos iniciales a cero".
Esto es importante porque ALIA no es un modelo basado en Llama al que se le ha hecho un proceso de refinamiento o "fine-tuning". En esos casos, explicaba esta experta, "partes de un modelo entrenado con otros datos y con pesos inicializados, y lo haces para adaptar ese modelo a tus necesidades, bien porque tienes más datos y quieres que sea mejor o bien porque quizás quieres adaptarlo a un dominio en particular".
Pero aquí, nos decía, "el vocabulario [conjunto de tokens] es completamente diferente". En otros modelos el corpus o conjunto de datos de entrenamiento pueden estar mayoritariamente en inglés, lo que hace que el conjunto de tokens admisibles se calcule a través del inglés. Eso, indica Villegas, haría que se adaptara menos eficientemente a otros idiomas.
Precisamente eso es lo que se ha buscado con ALIA: reducir la relevancia del inglés para incrementar la de 35 idiomas de la Unión Europea y, en especial, el español, catalán, vasco y gallego.
Cómo se ha entrenado a ALIA
El proceso de entrenamiento de ALIA comenzó con algunos experimentos en abril de 2024. Es algo necesario porque como explicaba Villegas, "entrenar no es darle al botón tras alimentar los datos y ya está". Había que tener en cuenta que MareNostrum 5, el supercomputador sito en y gestionado por el BSC, acababa de entrar en funcionamiento a toda potencia y había una alta demanda para usarlo.
En ese proceso de entrenamiento el proyecto ALIA ha tenido disponibilidades graduales de la capacidad de cómputo de MareNostrum 5. Aunque durante un breve espacio de tiempo tuvieron acceso a 512 de los 1.120 nodos especializados del supercomputador, se usaron 256 nodos durante bastantes meses y desde septiembre están usando 128 nodos, "que son muchos", destaca Villegas.
Durante el proceso de entrenamiento, nos comentaba, existen los llamados "checkpoints", en los que es posible evaluar cómo va el proceso de entrenamiento. Esas "pausas" permiten además actualizar ciertos datos de entrenamiento, como de hecho ocurrió en ese proceso en el que en un momento dado introdujeron un nuevo corpus con gran calidad que permitió reemplazar algunos datos que tenían.
Esto es solo el principio: toca "instruir" y "alinear" ALIA
Villegas nos explicaba que ALIA es un modelo fundacional: no está preparado para ser una alternativa a ChatGPT. Este último está basado en GPT-4, un modelo fundacional mucho más ambicioso y que contó con mucha más inversión.
Aquí hay que diferenciar el modelo fundacional de los modelos "instruidos" y "alineados" con los que solemos interactuar. Como nos indicaba esta experta, "ALIA-40b es un modelo fundacional que no está instruido ni alineado. Para que un modelo sea un ChatGPT y entienda la conversación y tenga cierta memoria y sea "políticamente correcto" se “instruye” el modelo fundacional (que solo aprende a decir el próximo token) pasando un montón de textos".
Aun así, el objetivo es ir planteando esas opciones gradualmente. "En marzo se espera que se lance la versión instruida de ALIA-40b, con un primer conjunto de instrucciones abiertas", nos comentaba Villegas. Se van a subcontratar esas instrucciones –las que permiten instruir estos modelos– y se van a invertir un millón de euros en ese conjunto de instrucciones de cero.
Esos datos también se publicarán para que estén disponibles para instituciones y desarrolladores: si se ha pagado con dinero público, explica Villegas, es lógico que esos datos también sean públicos, algo que no suele ocurrir con otros modelos de IA de empresas privadas.
Mientras que la instrucción de modelos de IA permite proporcionar indicaciones sobre cómo responder y definir el contexto y propósito de esas respuestas, el alineamiento resuelve problemas como el de evitar sesgos discriminatorios, prevenir desinformación o proteger la privacidad.
Precisamente esa falta de alineamiento hace que al usar estos modelos en esta fase inicial puedan producirse respuestas con errores y sesgos que precisamente se mitigan en gran medida con esa fase de alineamiento.
ALIA y la competencia: ni es un rival de ChatGPT ni lo pretende
De hecho, destaca Villegas, "el objetivo no es competir con ChatGPT, para eso necesitaríamos 5.000 millones de dólares". ALIA-40b "es un buen modelo, y se podrá hacer un chatbot en el futuro porque la intención es instruirlo y alinearlo, pero eso llevara tiempo".
Era inevitable preguntar cómo pretende competir entonces ALIA con otros modelos, tanto cerrados y desarrollados por empresas privadas como modelos Open Source. Para ella "Hay una demanda de modelos intermedios que luego cada uno puede adaptar a su caso de uso específico, no todo el mundo puede usar ChatGPT por razones como la privacidad o el caso de uso".
Villegas quiso además destacar cómo esos modelos más pequeños pueden a llegar a tener un rendimiento excepcional en tareas específicas, y pueden trabajar a niveles de seguridad y de no compartir datos importantes.
No solo eso, revela: "además sacamos el know-how que sacamos como país , tenemos un elenco de investigadores jóvenes que tienen una experiencia estupenda en esto, y generar esta cantera de gente es importante".
Villegas no nos pudo dar datos sobre los dos primeros proyectos a los que teóricamente se aplicará ALIA. En el lanzamiento se habló de un chatbot interno que promete agilizar el trabajo de la Agencia Tributaria, y una solución destinada a la medicina de atención primaria que permitirá "un diagnóstico precoz y más preciso de las insuficiencias cardíacas".
Los próximos pasos de ALIA
Como adelantaba esta experta, se espera que en dos o tres meses contemos con una versión instruida de ALIA que poder usar de forma algo más cercana a como usamos ahora ChatGPT, por ejemplo.
Para lo que queda del año aparte de ese lanzamiento de instrucciones para poder instruir el modelo el objetivo es tener una primera versión de alineamiento que se acercará mucho más a lo que ahora tenemos con ChatGPT, Claude o Gemini, por ejemplo.
Es además importante tener un modelo de estas características porque como nos explica Villegas, esto "permite generar datos sintéticos para entrenar modelos más pequeños y muy concretos, aparte de usarlo en aplicaciones de todo tipo".
Hay otra curiosidad: el modelo "grande", ALIA-40b, también puede ser usado como una especie de "juez" (LLM as a judge) que permite evaluar y juzgar la calidad y precisión de las respuestas generados por otros modelos de IA. Es una forma de instruir y alinear modelos más pequeños, lo que deja aún más clara la relevancia de ALIA-40b como base para el futuro.
Así es ALIA por dentro
Como indican los datos publicados en HuggingFace, ALIA-40b es una familia de modelos de IA multilenguaje pre-entrenados de cero. Cuenta con variantes de 2B, 7B y 40B, y está publicado con licencia Open Source. En concreto, con licencia Apache 2.0. Todos sus scripts de entrenamiento, sus ficheros de configuración y sus pesos están disponibles en el repositorio de GitHub.
Para su entrenamiento se han usado 6,9 billones de tokens de datos “muy filtrados” con textos y código de 35 idiomas europeos. El conjunto de datos de entrenamiento también está ampliamente detallado en el ALIA-Kit en la web del proyecto, algo que es especialmente de agradecer y que aporta una transparencia total al proyecto.
Todos los modelos han sido entrenados en la supercomputadora MareNostrum 5 gestionada por el Barcelona Supercomputing Centre - Centro Nacional de Supercomputación (BSC-CNS). Consta de 1.120 nodos, cada uno de los cuales dispone de cuatro tarjetas NVIDIA Hopper con 64 GB de memoria HBM2, dos procesadores Intel 8460Y Sapphire Rapids, 512 GB de memoria principal (DDR) y 460 GB de almacenamiento.
Los datos de “pre-training” se centraron en darle más importancia al español y a las lenguas cooficiales (catalán, galicia, vasco). Se redujeron a la mitad los datos y código en inglés, se duplicaron los de estos idiomas usados en España y se mantuvieron igual el resto de idiomas tratados. Así, el inglés representa el 39,31% de esos datos, por un 16,12% del español, un 1,97% del catalán, un 0,31% del gallego y un 0,24% del vasco.
La fuente principal de los datos de entrenamiento es un dataset (conjunto de datos) llamado Colossal OSCAR (Open Source-large Crawled Aggregated coRpus), que representa el 53% del total de los tokens. Hay muchos datasets más, entre los que se encuentran por ejemplo CATalog (el mayor dataset del mundo en catalán) o Legal-ES, con datos del BOE, el Senado, o el Congreso.
Imágenes | BSC | ALIA
-
La noticia
"El objetivo no es competir con ChatGPT": hablamos con los creadores de ALIA, la IA 100% española, para entender su futuro
fue publicada originalmente en
Xataka
por
Javier Pastor
.
¿Cuál es tu Reacción?