Les outils d’intelligence artificielle tels que ChatGPT font rapidement évoluer notre façon de communiquer et de travailler, mais il reste encore beaucoup de chemin à parcourir avant que nous n’en réalisions tous les avantages.

« Pour permettre aux utilisateurs de bénéficier de l’IA, nous devons l’adapter à des tâches spécifiques en nous appuyant sur des ensembles de données spéciaux », explique Vuk Batanović, chef du laboratoire de traitement du langage naturel au sein du Centre d’innovation de la faculté de génie électrique de l’université de Belgrade.

Au Centre d’innovation, des scientifiques et des étudiants développent un ensemble de ressources et d’outils destinés au traitement automatique des textes en serbe, une langue parlée par 12 millions de personnes. Leur projet COMtext.SR se concentre sur les textes juridiques, un domaine que les outils universitaires ou commerciaux en langue serbe n’ont pas encore couvert. Ce domaine revêt une importance considérable pour la gouvernance publique, les organisations non gouvernementales et les entreprises, en particulier dans le contexte de l’intégration à l’UE et de la convergence avec les normes de l’UE.

Créé en 2006 pour constituer un gisement d’innovations en matière d’ingénierie électrique et de technologies de l’information, ce centre possède un équipement financé dans le cadre d’un prêt de 200 millions d’euros octroyé par la Banque européenne d’investissement. Il a reçu le soutien de l’Instrument d’aide de préadhésion de l’Union européenne, de la Banque de développement du Conseil de l’Europe et de l’État serbe.

Quand les ordinateurs comprennent le langage humain

Le traitement du langage naturel, qui s’appuie sur l’apprentissage automatique et profond pour enseigner aux ordinateurs comment traiter le langage humain, est utilisé dans des modèles de langage avancés tels que BERT (Bidirectional Encoder Representations from Transformers) et GPT (Generative Pre-trained Transformer).

Sur la base de ces modèles, les ordinateurs peuvent analyser la morphologie, la structure syntaxique et la sémantique d’un texte.

« Le projet COMtext.SR vise spécifiquement à créer des données annotées fiables, vérifiées par des experts, en vue du développement de grands modèles de langage en langue serbe », poursuit Vuk Batanović. « Ce domaine peut donc être d’une grande valeur sur le plan pratique, car un vaste corpus de connaissances humaines se présente sous forme de textes. Toutefois, les ordinateurs ne sont pas en mesure de le traiter sans solutions adéquates de traitement du langage naturel. »

Couvrant les deux variantes de la langue serbe – l’ékavien (parlé principalement par les Serbes de Serbie) et l’ijékavien (parlé par les Serbes de Bosnie-Herzégovine, de Croatie et du Monténégro), le projet COMtext.SR met ses conclusions à la disposition du public au profit des particuliers, des entreprises, des institutions publiques et des start-up. Pour ces bénéficiaires, l’examen de documents, l’assistance aux clients, la recherche de textes et la création de contenus seront bientôt plus rapides et plus efficaces. Le Centre d’innovation a publié ses conclusions en janvier.

Rapprocher la science et l’industrie

Des projets tels que COMtext.SR incarnent la réussite de la collaboration entre la recherche universitaire et l’industrie en vue de jeter un pont entre les connaissances, la créativité et les idées.

« Le Centre d’innovation s’efforce de créer des solutions et des services innovants, et d’améliorer ceux qui existent déjà, en fonction des besoins du marché », expose Ilija Radovanović, directeur adjoint du Centre d’innovation. « Nos projets ont un caractère pluridisciplinaire et pratique, et les nouvelles solutions sont axées sur les utilisateurs finals et sur la résolution de défis industriels et sociaux en prise avec la vie réelle. »

En outre, quels sont les défis à long terme en ce qui concerne le traitement du langage naturel à l’échelle mondiale ?

Selon Vuk Batanović, « il sera essentiel, dans son développement futur, qu’il parvienne à associer le raisonnement logique à l’approche statistique des modèles de langage. »