Ni ChatGPT ni Deepseek: estas aplicaciones de inteligencia artificial también son gratuitas
Más allá de los nombres más conocidos, un vibrante ecosistema de modelos de lenguaje de código abierto ofrece capacidades avanzadas accesibles para todos

En la era de la digitalización y la inteligencia artificial, términos como ChatGPT o DeepSeek dominan a menudo las conversaciones sobre modelos de lenguaje grande (LLM). Estas potentes herramientas están transformando industrias enteras, desde la automatización de procesos robóticos hasta la gestión de documentos y el marketing digital. Sin embargo, el acceso a modelos de vanguardia no se limita únicamente a las plataformas propietarias. Existe un floreciente panorama de LLM de código abierto que no solo rivalizan en capacidad, sino que también están desempeñando un papel fundamental en la democratización y la innovación en el campo de la IA. Para investigadores, desarrolladores y cualquier entusiasta, estos modelos ofrecen una oportunidad única para explorar y construir sobre las bases de la IA más avanzada.
La disponibilidad de modelos de código abierto permite a la comunidad global profundizar en sus complejidades, personalizarlos para tareas específicas e incluso desarrollar nuevas aplicaciones sobre ellos. Este enfoque colaborativo acelera el progreso y fomenta la transparencia en un campo que avanza a pasos agigantados.
El auge del código abierto en IA
Meta, la compañía detrás de Facebook, ha hecho una apuesta audaz por el código abierto con su serie Llama. Su última iteración, Llama 3, ha sido calificada por revistas especializadas como un "avance transformador" que establece un nuevo estándar para modelos disponibles abiertamente en escalas de 8B y 70B parámetros. Este modelo fue entrenado con una cantidad masiva de datos de alta calidad, siete veces superior a la de su predecesor, incluyendo una cobertura significativa de código y más de 30 idiomas para futuras expansiones. Las mejoras en su arquitectura y proceso de entrenamiento le otorgan capacidades de razonamiento, generación de código y seguimiento de instrucciones notablemente sólidas. Desde la generación creativa de historias y poemas hasta la respuesta informada a preguntas y el resumen conciso, Llama 3 demuestra versatilidad en tareas lingüísticas complejas. Meta ya trabaja en versiones aún más grandes (400B+) que prometen ser multilingües y multimodales, compitiendo directamente con los mejores sistemas propietarios.
Otro gigante del código abierto es BLOOM, un proyecto colaborativo sin precedentes liderado por Hugging Face. Lanzado en 2022, este modelo de 176 mil millones de parámetros fue el resultado del esfuerzo de más de 1,000 investigadores voluntarios de más de 70 países. Lo que distingue a BLOOM es su naturaleza de acceso abierto total: el modelo, el código fuente y los datos de entrenamiento están disponibles gratuitamente bajo licencias permisivas. Entrenado en un vasto conjunto de datos de 1,6 TB, BLOOM destaca por sus capacidades multilingües, abarcando 46 lenguajes naturales y 13 de programación. Su desarrollo responsable y su facilidad de implementación a través de la biblioteca Hugging Face Transformers lo convierten en una herramienta accesible y poderosa para una variedad de tareas lingüísticas versátiles.
MosaicML Foundations ha aportado a este ecosistema el MPT-7B (MosaicML Pretrained Transformer). Este transformador de solo decodificador destaca por sus licencias comerciales, lo que lo convierte en un activo valioso para empresas y organizaciones que buscan integrar la IA en sus procesos. Entrenado en un extenso conjunto de datos de 1 billón de tokens, MPT-7B ofrece mejoras arquitectónicas que garantizan mayor estabilidad y rendimiento. Además del modelo base, MosaicML ha lanzado versiones especializadas como MPT-7B-Instruct para seguir órdenes o MPT-7B-StoryWriter para la creación de narrativas extensas, demostrando la flexibilidad de su enfoque.
Más allá del texto: diversidad de capacidades y acceso
El Instituto de Innovación Tecnológica (TII) de Abu Dhabi ha lanzado la serie Falcon 2, continuando el legado de sus modelos anteriores. El Falcon 2 11B ha demostrado superar a modelos como LLaMA 3 8B y rendir a la par de Gemma 7B en puntos de referencia, según verificaciones independientes. Su licencia permisiva TII Falcon 2.0, basada en Apache 2.0, fomenta el uso libre para investigación y la mayoría de aplicaciones comerciales, promoviendo un desarrollo responsable de la IA, tal y como recoge el portal especializado Unite.AI. Falcon 2 se entrenó con más de 5 billones de tokens, utilizando técnicas de filtrado y deduplicación para asegurar la calidad de los datos.
Una de las innovaciones más destacadas de la serie Falcon 2 es la variante Falcon 2 11B VLM, una versión multimodal que integra capacidades de visión a lenguaje. Esto permite al modelo comprender imágenes y generar texto basándose en entradas visuales y lingüísticas, abriendo la puerta a casos de uso potentes como la respuesta visual a preguntas o el subtitulado de imágenes. Las capacidades lingüísticas del Falcon 2 11B incluyen la generación de texto coherente, la respuesta a preguntas con conocimiento, el resumen de alta calidad y un rendimiento sólido en codificación y razonamiento. TII planea seguir ampliando la serie con modelos de mayor tamaño, manteniendo la eficiencia y el acceso abierto.
Finalmente, LMSYS ORG ha hecho una contribución significativa en IA con la creación de Vicuña-13B, un chatbot de código abierto afinado a partir de LLaMA. Lo notable de Vicuña-13B son sus impresionantes resultados en evaluaciones preliminares, donde logró más del 90% de la calidad de modelos propietarios como OpenAI ChatGPT y Google Bard, superando a LLaMA y Stanford Alpaca en la mayoría de los casos evaluados por GPT-4. Lo consiguió con un coste de entrenamiento sorprendentemente bajo, alrededor de 300 dólares para el modelo 13B, gracias al uso inteligente de técnicas como instancias puntuales, puntos de control de gradiente y atención flash. Además, Vicuña mejoró la receta de entrenamiento de modelos anteriores, manejando conversaciones de varios turnos y ampliando la longitud máxima del contexto para comprender interacciones más largas. Se ha construido un sistema de servicio distribuido y rentable para que Vicuña sea accesible públicamente.
Estos ejemplos demuestran que el panorama de los modelos de lenguaje grande es vasto y dinámico. Llama 3, BLOOM, MPT-7B, Falcon 2 y Vicuña-13B (todas analizadas y recopiladas a través de medios especializados para poder elaborar este artículo) son solo algunas de las pruebas de que el poder de la IA avanzada está cada vez más al alcance de todos, impulsando la innovación y permitiendo nuevas posibilidades en la era digital. Explorar y aprovechar las capacidades que ofrecen estos LLM de código abierto es clave para el futuro desarrollo de la inteligencia artificial.