
Veliki jezikovni model za slovenščino krepi tehnološko suverenost Slovenije na področju umetne inteligence
Veliki jezikovni model za slovenščino GaMS, razvit v okviru projekta PoVeJMo, že dobiva prve praktične uporabe v medicini, industriji, kulturni dediščini in informatiki. Po besedah partnerjev projekta predstavlja pomemben korak k razvoju odprte in varne umetne inteligence za slovenščino ter krepitvi tehnološke suverenosti Slovenije.
Projekt PoVeJMo je med letoma 2023 in 2026 vodil Center za jezikovne vire in tehnologije Univerze v Ljubljani pod vodstvom Simona Kreka. Kot so na današnjem zaključnem dogodku projekta, ki je potekal na Fakulteti za računalništvo in informatiko Univerze v Ljubljani, predstavili partnerji projekta, je bil cilj razviti veliki jezikovni model za slovenščino, hkrati pa vzpostaviti temeljno infrastrukturo za razvoj umetne inteligence v slovenskem jeziku.
Rezultat projekta je prvi odprtokodni veliki generativni jezikovni model za slovenščino GaMS. Izurili so ga na slovenskih besedilih, zato, kot so poudarili, dobro razume jezikovne posebnosti in je namenjen uporabi v raziskovanju, izobraževanju, gospodarstvu ter javnem sektorju. Vse različice modela so odprto dostopne in jih je mogoče lokalno prilagoditi različnim potrebam.
Projekt je po besedah vodje projekta Simona Kreka potekal v dveh delih. Prvi je bil namenjen razvoju temeljne infrastrukture, kar je vključevalo zbiranje slovenskih besedil, pripravo podatkovnih zbirk in razvoj samega modela. Drugi pa je bil namenjen razvoju praktičnih aplikacij, pri katerih so sodelovala podjetja. Ob tem je opozoril, da bo za nadaljnji razvoj ključnega pomena dostop do kakovostnih slovenskih besedil in ustrezno ravnovesje med varovanjem avtorskih pravic ter razvojem umetne inteligence.
Vodja razvoja modela Marko Robnik Šikonja je povedal, da GaMS sodi med najuspešnejše odprtodostopne velike jezikovne modele svojega velikostnega razreda. Pojasnil je, da je njegov razvoj zahteval ogromne količine slovenskih besedil in računske moči, zato so poleg slovenskega superračunalnika Vega uporabili tudi evropski superračunalnik Leonardo v Bologni.
Po besedah prodekana ljubljanske fakultete za računalništvo in informatiko Slavka Žitnika bo nadaljnji razvoj modela omogočila tudi nova superračunalniška infrastruktura Frida, ki so jo pred kratkim zagnali na fakulteti.
Glavni razvijalec Domen Vreš je predstavil najnovejše različice modela GaMS. Poudaril je, da podpira bistveno daljše dokumente in je kulturno prilagojen slovenščini, kar pomeni, da bolje razume slovenski način izražanja, domače reference in kulturni kontekst. “Ni več ameriški John, ki poskuša govoriti slovensko, ampak precej bolj naš slovenski Janez,” je ponazoril.
Napovedal je tudi nadaljnji razvoj modela z novimi funkcionalnostmi, ki mu bodo omogočale samostojnejše izvajanje nalog, ter možnost njegovega dodatnega učenja v okviru Slovenske tovarne umetne inteligence.
V drugem delu projekta so podjetja osnovni model prilagodila konkretnim potrebam gospodarstva. Better ga je uporabil za razvoj rešitve, ki iz pogovora med zdravnikom in pacientom samodejno pripravi strukturirano medicinsko dokumentacijo. Vitasis je razvil robustne modele za prepoznavanje slovenskega govora, prilagojene medicinskemu in industrijskemu okolju. Špica je model prilagodila za glasovno upravljanje skladiščnih in proizvodnih procesov v več jezikih, Semantika za pripravo večjezičnih muzejskih vsebin in interaktivnih predstavitev kulturne dediščine, XLab pa za generiranje opisov računalniške infrastrukture v programski kodi.
Prorektor Univerze v Ljubljani Matjaž Drevenšek je poudaril, da razvoj umetne inteligence ni več le tehnološko, temveč tudi jezikovno vprašanje. Po njegovih besedah projekt PoVeJMo dokazuje, da lahko tudi manjše jezikovne skupnosti razvijajo vrhunske tehnologije v svojem jeziku. “To je dokaz tehnološke suverenosti in odgovornosti do prihodnjih generacij,” je zaključil.





