Die Universität Belgrad entwickelt Sprachverarbeitungstools auf Serbisch – um Firmen schneller und effizienter zu machen

KI-Tools wie ChatGPT verändern unsere Kommunikation und unsere Arbeitsweise. Dabei stehen wir gerade erst am Anfang und schöpfen ihre Möglichkeiten noch längst nicht aus.

„Wenn wir von der KI profitieren wollen, müssen wir sie für ihre Aufgaben optimieren. Dafür brauchen wir spezielle Datensätze“, erklärt Vuk Batanović. Er leitet das Labor für Sprachdatenverarbeitung am Innovationszentrum der Schule für Elektrotechnik der Universität von Belgrad.

Am Innovationszentrum entwickeln Forschende und Studierende Tools und Ressourcen für die automatische Verarbeitung von Texten auf Serbisch, einer Sprache, die von zwölf Millionen Menschen gesprochen wird. Bei ihrem Projekt COMtext.SR geht es vor allem um juristische Texte. Diese Textsorte wird von bestehenden akademischen oder kommerziellen Tools in serbischer Sprache noch nicht abgedeckt. Dabei ist sie für die öffentliche Verwaltung, nichtstaatliche Organisationen und Unternehmen von großer Bedeutung – gerade mit Blick auf einen EU-Beitritt und die Annäherung an EU-Standards.

Das Innovationszentrum wurde 2006 mit Geld aus einem 200-Millionen-Euro-Kredit der Europäischen Investitionsbank eingerichtet. Es soll für Innovationen im Bereich Elektrotechnik und IT sorgen. Unterstützt wird es dabei vom Instrument für Heranführungshilfe der EU, von der Entwicklungsbank des Europarates und der serbischen Regierung.



Wenn Computer die menschliche Sprache verstehen

Bei fortgeschrittenen Sprachmodellen werden Computer darauf trainiert, mit maschinellem Lernen und Deep Learning natürliche Sprache zu verarbeiten. Beispiele für solche Modelle sind BERT (Bidirectional Encoder Representations from Transformers) und GPT (Generative Pre-trained Transformer).

Mit ihrer Hilfe können Computer die Wörter, die Struktur und den Sinn von Sätzen und Texten analysieren.

„Wir wollen mit COMtext.SR vor allem zuverlässige annotierte Daten generieren, die fachlich verifiziert sind – als Grundlage für die Entwicklung großer Sprachmodelle auf Serbisch“, erklärt Batanović. Dieses Gebiet birgt enormes praktisches Potenzial, denn ein riesiger Pool an menschlichem Wissen liegt in Textform vor. Aber ohne passende Lösungen für die Verarbeitung natürlicher Sprache können Computer diesen Pool nicht verwerten.“

Das COMtext.SR-Projekt deckt zwei Varianten des Serbischen ab: ekavisch (vor allem in Serbien gesprochen) und ijekavisch (in Bosnien und Herzegowina, Kroatien und Montenegro). Die Projektergebnisse werden veröffentlicht und können von Einzelpersonen, Unternehmen, öffentlichen Einrichtungen und Start-ups genutzt werden.  Vieles lässt sich damit schneller und effizienter erledigen: Dokumente prüfen, Kunden unterstützen, Texte durchsuchen und Inhalte erstellen. Das Innovationszentrum hat seine Ergebnisse im Januar veröffentlicht.

Wissenschaft und Industrie zusammenbringen

Projekte wie COMtext.SR zeigen eindrucksvoll, wie sich Wissen, Kreativität und Ideen erfolgreich miteinander verknüpfen lassen, wenn akademische Forschung und Industrie zusammenarbeiten.  

„Ziel des Innovationszentrums ist es, neue Lösungen und Dienstleistungen anzubieten und bestehende Angebote zu verbessern, je nachdem, was der Markt braucht“, erklärt Ilija Radovanović, der stellvertretende Direktor des Innovationszentrums. „Unsere Projekte sind multidisziplinär und praxisbezogen. Dabei haben wir immer die Endnutzer im Blick und schauen, was Industrie und Gesellschaft wirklich voranbringt.

Und wo liegen generell die langfristigen Herausforderungen bei der Verarbeitung natürlicher Sprache?

„Zentral für die zukünftige Entwicklung wird sein, dass das logische Denken erfolgreich mit dem statistischen Ansatz für Sprachmodelle verknüpft wird“, erklärt Batanović.