Upoznajte SrBERTa prvi jezički model za pravne tekstove na srpskoj ćirilici
Komentari
Ilustracija (Foto: Unsplash/Helloquence)
Projekat SrBERTa, rezultat zajedničkog napora Nemanje Petrovića, njegovog mentora Miloša Bogdanovića i koleginice Jelene Tošić, pri čemu su svo troje koautori ovog modela.
Petrović naglašava da je inicijalna ideja za razvoj SrBERTa potekla od profesora Bogdanovića, koji je prepoznao potrebu za unapređenjem jezičkih modela za srpski jezik, naročito u kontekstu prava.
Put od-ideje do realizacije uključivao je, kaže, niz koraka:
- Prvo smo se posvetili prikupljanju podataka, s posebnim fokusom na podacima za fino podešavanje, a zatim je došlo treniranje modela koje je trajalo par meseci. Pored same arhitekture modela, razvili smo i visoko kvalitetan skup podataka za obuku, koji ćemo takođe staviti na raspolaganje javnosti.
Kada su u pitanju finansije, projekat je podržao Elektronski fakultet, što je omogućilo razvoj projekta bez potrebe za dodatnim sredstvima.
Međutim, kako bi idejni tvorci postigli još bolje rezultate i razvili naprednije jezičke modele, Nemanja navodi da će im u budućnosti biti potrebni dodatni računarski resursi. Stoga, trenutno istražuju moguće opcije za obezbeđivanje ovih resursa kako bi nastavili sa napredovanjem u ovoj važnoj oblasti.
Ono što, prema Nemanjinim rečima, izdvaja njihov jezički model, jeste njegova specijalizacija za pravne tekstove. Naime, pravni jezik karakterišu specifične jezičke konstrukcije i terminologija, što često izazov za jezičko modelovanje.
- SrBERTa model nije samo obučen za razumevanje srpskog jezika, već smo uložili napor da ga fino podesimo i specifično treniramo za pravne tekstove. To znači da je model sposoban da bolje razume i interpretira zakonske tekstove, pružajući preciznije i korisnije rezultate u ovom specifičnom kontekstu – navodi Petrović.
Ova specijalizacija ga čini perfektim za razvoj alata za pravne stručnjake, advokate i sve one koji se bave pravnom dokumentacijom, jer pruža veći nivo razumevanja i efikasnosti u obradi pravnih tekstova. U poređenju sa GPT modelima, BERT se izdvaja po svojoj sposobnosti za analizu i razumevanje konteksta zahvaljujući bidirekcionalnom enkodiranju.
Obuka trajala skoro 13 dana
Nemanja objašnjava kako je proces obuke AI modela za razumevanje ćiriličnog pisma bio je složen i uključivao je nekoliko koraka. Pre svega, model je morao biti obučen da razume srpski jezik, što se naziva pre- training. Za ovu fazu tim je koristio OSCAR skup podataka, koji je besplatan i javno dostupan na više jezika, a nastao putem web skraping-a podataka sa interneta, uključujući novinske članke, blogove i druge izvore. Za srpski i ćirilicu, ovaj skup podataka sadrži 7,7 GB podataka i oko 600 miliona reči, zbog čega je proces učenja našeeg jezika bio veoma iscrpan:
Učenje srpskog jezika na dostupnim računarskim resursima trajalo je gotovo 13 dana. Nakon ovog koraka, modelu je prosleđen poseban skup podataka sa pravnim tekstovima koji smo sami kreirali.Ovaj korak omogućio je modelu da ne samo razume srpski jezik, već i srpski pravni jezik, sa svim svojim specifičnostima i terminologijom.
Ograničeni hardverski resursi nisu im omogućili da kreiraju optimalnu arhitekturu modela koja bi još bolje naučila jezik. Ipak, planiraju da unaprede model kada dobiju pristup boljem hardveru, što će omogućiti još bolje rezultate u razumevanju i obradi srpskog jezika.
Sam naziv – SrBERTa – sugeriše da je ovaj jezički model zasnovan na BERT arhitekturi. U poređenju sa GPT modelima, BERT se izdvaja po svojoj sposobnosti za analizu i razumevanje konteksta zahvaljujući bidirekcionalnom enkodiranju.
Nemanja objašnjava da ova karakteristika omogućava BERT-u da uzme u obzir sve reči u rečenici, kako pre, tako i posle određene reči, pružajući dublje razumevanje konteksta. To podrazumeva da BERT može bolje razumeti kako se termini koriste u specifičnom okruženju i kako se odnose jedan prema drugom.
SrBERTa će unaprediti pretragu i obradu pravne dokumentacije
Iako SrBERTa model još uvek nije implementiran u komercijalnim alatima, i dalje se nalazi u istraživačkoj fazi, Nemanja je naveo njegove potencijalne primene u svakodnevnom životu:
- Prvenstveno, to bi bila provera pravnog jezika, jer bi ovaj mofel mogao biti integrisan u alate za proveru pravnog jezika: Druga primena mogla bi da bude predlaganje reči i fraza, jer SrBERTa takođe može biti koristan u alatima za predlaganje reči i fraza u pravnim tekstovima.
Njegova trenutna zamisao je da SrBERTa model i vektorske baze podataka mogu zajedno revolucionarno promeniti način na koji pravni stručnjaci pretražuju i analiziraju pravne dokumente, uključujući zakone, akte i odluke. Stoga, u planu ima da prvo sprovede istraživanje kako bi razvio osnovne koncepte i metode za semantičku pretragu pravnih dokumenata.
Javna dostupnost i doprinos zajednici kao vrhovni ciljevi za dalji razvoj
Iako trenutno nije u planu proširenje upotrebe SrBERTa modela izvan pravnog domena, Nemanja nagoveštava potencijal da u budućnosti osnovni model – koji nije fino podešen za pravne tekstove već samo za srpski jezik – bude stavljen na raspolaganje zajednici. To bi omogućilo pojedincima i organizacijama da preuzmu model i fino ga podese za različite oblasti kao što su medicina, sport, nauka i mnoge druge.
Na kraju razgovora, Nemanja je istakao da je razvoj jezičkih modela na srpskom jeziku tek počeo, pa narednih godinu-dve očekuje značajan napredak u ovoj oblasti. On i njegov tim planiraju da pokrenu projekte u okviru Fonda za inovacionu delatnost, a istražuju i druge slične oblike finansiranja daljeg istraživanja.
Firme:
Elektronski fakultet Niš
Tagovi:
Nemanja Petrović
Miloš Bogdanović
Jelena Tošić
sBERTa
jezički model na ćirilici
pretraga i obrada pravne dokumentacije na srpskom jeziku
veštačka inteligencija
Komentari
Vaš komentar
Rubrike za dalje čitanje
Potpuna informacija je dostupna samo komercijalnim korisnicima-pretplatnicima i neophodno je da se ulogujete.
Pratite na našem portalu vesti, tendere, grantove, pravnu regulativu i izveštaje.
Registracija na eKapiji vam omogućava pristup potpunim informacijama i dnevnom biltenu
Naš dnevni ekonomski bilten će stizati na vašu mejl adresu krajem svakog radnog dana. Bilteni su personalizovani prema interesovanjima svakog korisnika zasebno,
uz konsultacije sa našim ekspertima.