esCorpius-m
Las avanzadas habilidades cognitivas de los grandes modelos de lenguaje se basan en la extensa cantidad de datos de texto no estructurado que reciben durante su entrenamiento. Los datos son cruciales, y se necesitan muchos de ellos. En consecuencia, los modelos más capaces recientes se entrenan en billones de tokens (escala larga). Obtener estos datos no sería posible sin depender de datos de Internet obtenidos a través del «rastreo» de la web, que implica buscar y recopilar sistemáticamente datos de sitios web y fuentes en línea. El archivo web más importante para la información recopilada es Common Crawl, que contiene petabytes de datos recopilados desde 2008. La mayoría de los conjuntos de datos abiertos utilizados para entrenar modelos grandes se crearon utilizando algún proceso para procesar Common Crawl.
Los procesos para crear conjuntos de datos recopilados suelen incluir varias etapas, como limpieza, detección de idiomas, identificación de contenido y eliminación de duplicados. La eliminación de duplicados probablemente sea la etapa más importante en el proceso porque un conjunto de datos con una alta cantidad de datos duplicados perjudica significativamente el rendimiento de los modelos entrenados con él. Esto se debe a la superposición entre los conjuntos de entrenamiento, validación y prueba, lo que resulta en una precisión artificialmente alta y menos pasos de entrenamiento. Los creadores recientes de conjuntos de datos recopilados a menudo utilizan una combinación de técnicas de eliminación de duplicados, que incluyen la coincidencia exacta de fragmentos de texto y técnicas suaves como SimHash, Local Sensitive Hashing, MinHash y otras.
La principal desventaja de la mayoría de los conjuntos de datos recopilados y los modelos resultantes es que están predominantemente centrados en el inglés. Existe una notoria desigualdad en la disponibilidad y calidad de los modelos y datos para otros idiomas. La mayoría de la investigación en procesamiento de lenguaje natural se concentra en el inglés, y el chino mandarín es el segundo idioma más estudiado. En contraste, idiomas como el español, a pesar de tener un gran número de hablantes en todo el mundo, reciben significativamente menos atención. Esta situación tiene consecuencias negativas, como un acceso desigual a la tecnología de procesamiento de lenguaje natural clínico para personas que hablan diferentes idiomas.
La actuación de ChatGPT en tareas estándar de procesamiento de lenguaje natural también empeora notablemente, especialmente para idiomas con recursos medios y especialmente bajos, dependiendo de la tarea específica. Para abordar este problema y mejorar las capacidades de los modelos generativos en entornos multilingües, recientemente se han lanzado varios conjuntos de datos multilingües.
El primer conjunto de datos en cuestión es ROOTS, que se utilizó como conjunto de datos de entrenamiento para BLOOM. ROOTS es el resultado de los esfuerzos colaborativos de científicos europeos y comprende 1,6 billones de tokens en 46 idiomas, incluido un subconjunto dedicado a los lenguajes de programación. Este conjunto de datos se destaca debido a la incorporación de heurísticas manuales durante el proceso de creación del corpus, que incluye la selección de URL y el establecimiento de umbrales de filtrado de calidad. Las métricas de filtrado de calidad diseñadas por los creadores de ROOTS también se han aplicado en el desarrollo de CulturaX.
CulturaX representa un conjunto de datos masivo recién desarrollado diseñado exclusivamente para entrenar modelos generativos multilingües con 6,3 billones de tokens en 167 idiomas. Este conjunto de datos se crea procesando mC4 y OSCAR, dos conjuntos de datos multilingües anteriores de menor calidad. El proceso de desarrollo implica varias etapas, como el filtrado de URL basado en una lista curada de URL apropiadas, la identificación de idiomas mediante una combinación de cld3 y FastText, el filtrado basado en la selección automática de umbrales para métricas derivadas de ROOTS y la eliminación de duplicados de datos mediante MinHash y URL, entre otros.
LHF Labs desarrolló otro conjunto de datos multilingües llamado esCorpius-m, que es adecuado para entrenar modelos de lenguaje. Contiene 0,3 billones de tokens en 34 idiomas.
- Este conjunto de datos es notablemente más limpio que la mayoría de los corpus más avanzados y se ha eliminado cuidadosamente la duplicación de datos.
- Conserva tanto los límites de documentos como de párrafos, lo que permite que los modelos de lenguaje procesen el texto de manera similar a como lo hacen los humanos. Esta característica desbloquea el potencial de la Generación de Lenguaje Natural para comprender representaciones de párrafos.
- Además, los datos descargados mantienen un rastro claro del origen de cada documento. Este nivel de trazabilidad permite la aplicación del derecho de los propietarios individuales de sitios web a retirar sus datos o los datos de individuos citados en sitios web, tal como lo protege el Reglamento General de Protección de Datos (GDPR).
- Adicionalmente, proporciona los medios para excluir sistemáticamente sitios web que hayan sido incluidos en listas negras.
En resumen, este es un conjunto de datos multilingüe de alta calidad que se destaca en la limpieza de contenido y la eliminación de duplicados. En ciertos idiomas, como el español, se presenta como el corpus web más grande de esta calidad disponible para el desarrollo de grandes modelos de lenguaje.