Cada día emergen más y mejores Modelos de Lenguaje de Gran Escala (LLM) de código abierto en inglés, ya que la mayoría han sido entrenados principalmente en este idioma. Sin embargo, la situación es diferente en español, donde aún hay margen de mejora. Esta falta de desarrollo es aún más notable en lenguas como el gallego, catalán y euskera.
En este contexto, y en menos de un mes, un científico de datos de In2AI, Álvaro Pérez Pozo, junto a su compañero Javier de la Rosa, han logrado generar con éxito un nuevo LLM para los idiomas cooficiales en España, al que han bautizado como «Gronemauer – 7B«.
El reto consistía en que el modelo fuera reconocido como eficaz, y la forma de demostrarlo ha sido participando en el desafío “La Leaderboard”, organizado por la entidad “Somos NLP”, que buscaba desarrollar un LLM eficiente para estas lenguas. Este proyecto íntegramente español ha alcanzado la 5ª posición en el ranking general, un gran logro para estos dos profesionales que han dedicado recursos limitados a esta hazaña.
El modelo destaca por la eficiencia en el uso de recursos, ya que Álvaro y su compañero lograron realizar el entrenamiento utilizando una versión de Mistral sin coste alguno gracias al programa TPU Research Cloud de Google. Ahora, el modelo está disponible en Hugging Face para su uso público, ofreciendo una herramienta valiosa para la comunidad.
Sobre los LLM
Los Modelos de Lenguaje de Gran Escala (Large Language Models, LLM) son sistemas avanzados de inteligencia artificial que representan uno de los desarrollos más significativos en el campo del procesamiento del lenguaje natural, una rama específica de la IA que se especializa en comprender y generar texto de forma similar a como lo haría un humano.
Estos modelos se entrenan con enormes cantidades de texto, utilizando arquitecturas de redes neuronales profundas basadas principalmente en el mecanismo de atención (transformers), lo que les permite aprender patrones lingüísticos, relaciones semánticas y conocimientos generales del mundo. Esto les permite realizar tareas como responder preguntas, escribir texto, traducir idiomas, resumir documentos y generar código, todo ello como parte de la tendencia más amplia en IA hacia sistemas que pueden procesar y generar información de manera cada vez más sofisticada y contextualmente apropiada.
Aunque los modelos predominantes están optimizados para el inglés, actualmente existe una gran oportunidad para desarrollar LLM que mejoren su desempeño en las lenguas cooficiales de España, como lo ha demostrado Álvaro Pérez Pozo y su equipo.
Diferencia entre LLM propietarios y de código abierto
Los LLM propietarios y de código abierto representan dos enfoques fundamentalmente distintos en el desarrollo y distribución de modelos de lenguaje. Mientras que los modelos propietarios, como GPT-4 de OpenAI o Claude de Anthropic, son desarrollados por empresas privadas que mantienen en secreto sus algoritmos, datos de entrenamiento y arquitectura específica, ofreciendo acceso solo a través de APIs pagadas y con términos de uso restrictivos, los modelos de código abierto como Llama de Meta, Mistral o Falcon permiten a la comunidad acceder, estudiar, modificar y distribuir libremente su código fuente y pesos del modelo.
Esta apertura de los modelos de código abierto fomenta la innovación colaborativa, la transparencia y la posibilidad de personalización para casos de uso específicos. Sin embargo, su implementación efectiva puede requerir más recursos computacionales y experiencia técnica en comparación con las soluciones propietarias, que suelen ser más fáciles de integrar y utilizar de forma inmediata.
En el caso de los LLM de código abierto, los costos de uso pueden ser más elevados para lenguas cooficiales en comparación con el inglés, además de que la calidad de las respuestas en catalán, gallego y euskera suele ser inferior debido a la falta de datos de entrenamiento específicos. Aquí radica la importancia de desarrollar modelos como el de In2AI, que buscan mejorar el rendimiento en estas lenguas y reducir la brecha existente.
¿Qué es “Somos NLP”?
“Somos NLP” es una red internacional de estudiantes, profesionales e investigadores comprometidos con la democratización del Procesamiento del Lenguaje Natural (PLN) en español. Con un enfoque colaborativo, buscan acercar la inteligencia artificial a más de 600 millones de hispanohablantes en todo el mundo. Su misión es garantizar que tanto el español como las lenguas cooficiales, como el catalán, gallego y euskera, estén representados de manera justa y equitativa en el ámbito digital, contribuyendo así a una inteligencia artificial más inclusiva y accesible.
Para lograr este objetivo, “Somos NLP” impulsa la investigación, el desarrollo y la evaluación de herramientas y modelos de lenguaje que sean adaptados a las particularidades del idioma español y sus variantes. A través de diversas iniciativas, la red busca promover el uso de tecnologías avanzadas de inteligencia artificial que puedan comprender y generar contenido en español de manera precisa y contextual. Además, fomentan la creación de comunidades de aprendizaje, donde expertos y entusiastas puedan intercambiar conocimientos y colaborar en proyectos de impacto.
Uno de los esfuerzos más destacados de “Somos NLP” ha sido la evaluación de la eficacia de los LLM disponibles en el mercado para el español y las lenguas cooficiales de España, como el catalán, gallego y euskera. Este proyecto ha permitido analizar la capacidad de estos modelos para adaptarse a las necesidades lingüísticas de estas comunidades, identificando tanto sus fortalezas como las áreas de mejora. Gracias a esta labor, “Somos NLP” contribuye a la creación de una inteligencia artificial más inclusiva, que responda mejor a las necesidades de los hablantes de estas lenguas y refuerce la diversidad lingüística en el mundo digital.
¿Qué es “La Leaderboard”?
La “Leaderboard de Variedades del Español y Lenguas Oficiales” es la primera tabla de clasificación dedicada a evaluar modelos generativos en español y lenguas cooficiales. Impulsada por Somos NLP en colaboración con diversos grupos de investigación, esta iniciativa analiza y compara el rendimiento de los modelos en más de 50 tareas diferentes, que van desde la extracción de información hasta el razonamiento lógico. Abarca las principales lenguas de España: español, catalán, euskera y gallego, con el objetivo de impulsar el desarrollo y la mejora de la inteligencia artificial adaptada a estas comunidades lingüísticas.
Lo que distingue a esta Leaderboard es su carácter abierto y colaborativo, lo que permite a investigadores y profesionales del sector contribuir y beneficiarse de sus avances. A diferencia de otras tablas de clasificación en este ámbito, se centra específicamente en la diversidad lingüística del español y sus variantes. La Leaderboard está disponible para consulta pública en la plataforma de Hugging Face, ofreciendo una herramienta accesible para quienes buscan entender y mejorar el desempeño de los modelos de lenguaje en estas lenguas. Puedes acceder a ella en: https://huggingface.co/spaces/la-leaderboard/la-leaderboard.
El modelo creado por el equipo español está disponible en https://huggingface.co/bertin-project/Gromenauer-7B