La tendance actuelle est à la disparition massive des langues, souvent liée à la mort des derniers locuteurs, au manque de documentation et aux tensions sociopolitiques, malgré l'émergence de nouvelles langues comme les créoles et les dialectes distincts. Le texte souligne l'importance de la documentation de la diversité linguistique et son lien avec les logiciels libres. Il aborde les défis liés à la définition des langues, les facteurs influençant la différenciation des langues et la question actuelle de l'extinction des langues. L'importance de la documentation des langues pour la préservation de la diversité et de la connaissance est soulignée, de même que le processus de description des langues et la constitution de corpus annotés pour la recherche. Différents outils logiciels comme ELAN et FLEX sont présentés pour l'annotation linguistique. Différentes ressources de catalogage des langues, comme Ethnologue et Glottolog, sont comparées et les défis liés à l'identification et à la catégorisation des langues sont discutés. Des archives en ligne telles que Pangloss, ORTOLANG et Paradisec sont mentionnées pour le partage de données linguistiques. La compilation de corpus linguistiques, y compris DoReCo et Multi-CAST, est expliquée, avec un accès aux données dans différents formats et sous différents droits d'utilisation.
Source https://linuxfr.org/news/les-langues-peu-documentees-et-le-libre-quelques-enjeux-scientifiques