Sciences

13.03.2025

La conférence universitaire annuelle sur la linguistique coréenne à l’heure de l’intelligence articielle organisée par l’Institut national de la langue coréenne à la chambre de commerce et d’industrie de Corée, à Séoul, le 4 décembre 2024. © Institut national de la langue coréenne

La conférence universitaire annuelle sur les ressources linguistiques et l'intelligence artificielle organisée par l’Institut national de la langue coréenne à la chambre de commerce et d’industrie de Corée, à Séoul, le 4 décembre 2024. © Institut national de la langue coréenne



Par Margareth Theresia

En linguistique, il existe une branche qui s'efforce de rassembler les connaissances essentielles à l’enseignement des langues et à l’élaboration des dictionnaires dans une base de données, que l’on appelle corpus. Les données qui le constituent se concentrent dans le discours et dans les nuances que les mots peuvent avoir pour les locuteurs de ces langues. Cette branche, c’est la linguistique des corpus.

À l’Institut national de la langue coréenne, on fait appel à l’intelligence artificielle pour élaborer ces corpus. Le rôle de l’IA est de les alimenter en travaillant sur des documents écrits et parlés, tels que des scripts de vidéos YouTube, des blogs, des conservations écrites via messagerie instantanée.

Trois types de corpus sont actuellement en cours de développement par l’Institut national de la langue coréenne. Le corpus brut, qui est une version électronique des documents originaux, le corpus annoté, qui comprend des analyses spécifiques propres aux phrases et aux unités lexicales, et le corpus parallèle, qui combine deux langues.

À gauche, le « Translation Guidelines for Building a Korean-Foreign Language Parallel Corpus », publié en 2023. À droite, le poster de la conférence internationale sur le sujet organisée le 4 décembre dernier. © Institut national de la langue coréenne

À gauche, le « Translation Guidelines for Building a Korean-Foreign Language Parallel Corpus », publié en 2023. À droite, le poster de la conférence internationale sur le sujet organisée le 4 décembre dernier. © Institut national de la langue coréenne


« L’élaboration de corpus bilingues avait pour but de concrétiser l’introduction des technologies de l’IA dans la linguistique, mais aussi de fournir un moteur de croissance pour l’industrie de la langue coréenne », explique Park Miyoung, de l’Institut national de la langue coréenne.

Ces corpus bilingues trouvent toute leur utilité dans le sens où ils compensent l’absence de manuel de traduction officiel dans ces langues avec le coréen. Le ministère de la Culture, des Sports et du Tourisme avait annoncé en 2021 un plan pour l’introduction de la big data dans l’industrie linguistique coréenne.

Huit langues sont concernées : le vietnamien, l'indonésien, le thaï, l'hindi, le khmer, le tagalog, le russe et l'ouzbek. La demande en traduction et en enseignement en coréen est particulièrement élevée chez les locuteurs de ces langues, sans compter qu'elles demeurent « trop invisibles dans l’administration et les services publics, alors que le nombre de leurs locuteurs s’installant en Corée augmente chaque année », précise Park Miyoung.

Les corpus bilingues disponibles depuis 2021 sur le site Modu Corpus. © Institut national de la langue coréenne

Les corpus bilingues disponibles depuis 2021 sur le site Modu Corpus. © Institut national de la langue coréenne


Ces corpus sont ainsi largement utilisés dans le développement des nouvelles technologies de la traduction, comme celles des géants Naver et SK Telecom, ainsi que pour former les futurs experts du domaine. « En plus du texte, nos corpus intègreront des images, de la voix et du texte, pour devenir de plus en plus diversifiés », ajoute Park Miyoung.

Les corpus de l’Institut national de la langue coréenne sont accessibles gratuitement sur demande sur le site dédié.

margareth@korea.kr