Prijava

Moja eKapija

Kontakt

Početna

Vesti

Upoznajte SrBERTa prvi jezički model za pravne tekstove na srpskoj ćirilici

Izvor: Netokracija

Petak, 08.09.2023.

14:41

Komentari

Podeli

Ilustracija (Foto: Unsplash/Helloquence)

Dvoje studenata sa Elektronskog fakulteta u Nišu udružili su se sa svojim mentorom i osmislili jezički model na ćirilici koji će značajno unaprediti pretragu i obradu pravne dokumentacije na srpskom jeziku.

Projekat SrBERTa, rezultat zajedničkog napora Nemanje Petrovića, njegovog mentora Miloša Bogdanovića i koleginice Jelene Tošić, pri čemu su svo troje koautori ovog modela.

Petrović naglašava da je inicijalna ideja za razvoj SrBERTa potekla od profesora Bogdanovića, koji je prepoznao potrebu za unapređenjem jezičkih modela za srpski jezik, naročito u kontekstu prava.

Put od-ideje do realizacije uključivao je, kaže, niz koraka:

- Prvo smo se posvetili prikupljanju podataka, s posebnim fokusom na podacima za fino podešavanje, a zatim je došlo treniranje modela koje je trajalo par meseci. Pored same arhitekture modela, razvili smo i visoko kvalitetan skup podataka za obuku, koji ćemo takođe staviti na raspolaganje javnosti.

Kada su u pitanju finansije, projekat je podržao Elektronski fakultet, što je omogućilo razvoj projekta bez potrebe za dodatnim sredstvima.

Međutim, kako bi idejni tvorci postigli još bolje rezultate i razvili naprednije jezičke modele, Nemanja navodi da će im u budućnosti biti potrebni dodatni računarski resursi. Stoga, trenutno istražuju moguće opcije za obezbeđivanje ovih resursa kako bi nastavili sa napredovanjem u ovoj važnoj oblasti.

Ono što, prema Nemanjinim rečima, izdvaja njihov jezički model, jeste njegova specijalizacija za pravne tekstove. Naime, pravni jezik karakterišu specifične jezičke konstrukcije i terminologija, što često izazov za jezičko modelovanje.

- SrBERTa model nije samo obučen za razumevanje srpskog jezika, već smo uložili napor da ga fino podesimo i specifično treniramo za pravne tekstove. To znači da je model sposoban da bolje razume i interpretira zakonske tekstove, pružajući preciznije i korisnije rezultate u ovom specifičnom kontekstu – navodi Petrović.

Ova specijalizacija ga čini perfektim za razvoj alata za pravne stručnjake, advokate i sve one koji se bave pravnom dokumentacijom, jer pruža veći nivo razumevanja i efikasnosti u obradi pravnih tekstova. U poređenju sa GPT modelima, BERT se izdvaja po svojoj sposobnosti za analizu i razumevanje konteksta zahvaljujući bidirekcionalnom enkodiranju.

Obuka trajala skoro 13 dana

Nemanja objašnjava kako je proces obuke AI modela za razumevanje ćiriličnog pisma bio je složen i uključivao je nekoliko koraka. Pre svega, model je morao biti obučen da razume srpski jezik, što se naziva pre- training. Za ovu fazu tim je koristio OSCAR skup podataka, koji je besplatan i javno dostupan na više jezika, a nastao putem web skraping-a podataka sa interneta, uključujući novinske članke, blogove i druge izvore. Za srpski i ćirilicu, ovaj skup podataka sadrži 7,7 GB podataka i oko 600 miliona reči, zbog čega je proces učenja našeeg jezika bio veoma iscrpan:

Učenje srpskog jezika na dostupnim računarskim resursima trajalo je gotovo 13 dana. Nakon ovog koraka, modelu je prosleđen poseban skup podataka sa pravnim tekstovima koji smo sami kreirali.

Ovaj korak omogućio je modelu da ne samo razume srpski jezik, već i srpski pravni jezik, sa svim svojim specifičnostima i terminologijom.

Ograničeni hardverski resursi nisu im omogućili da kreiraju optimalnu arhitekturu modela koja bi još bolje naučila jezik. Ipak, planiraju da unaprede model kada dobiju pristup boljem hardveru, što će omogućiti još bolje rezultate u razumevanju i obradi srpskog jezika.

Sam naziv – SrBERTa – sugeriše da je ovaj jezički model zasnovan na BERT arhitekturi. U poređenju sa GPT modelima, BERT se izdvaja po svojoj sposobnosti za analizu i razumevanje konteksta zahvaljujući bidirekcionalnom enkodiranju.

Nemanja objašnjava da ova karakteristika omogućava BERT-u da uzme u obzir sve reči u rečenici, kako pre, tako i posle određene reči, pružajući dublje razumevanje konteksta. To podrazumeva da BERT može bolje razumeti kako se termini koriste u specifičnom okruženju i kako se odnose jedan prema drugom.

SrBERTa će unaprediti pretragu i obradu pravne dokumentacije

Iako SrBERTa model još uvek nije implementiran u komercijalnim alatima, i dalje se nalazi u istraživačkoj fazi, Nemanja je naveo njegove potencijalne primene u svakodnevnom životu:

- Prvenstveno, to bi bila provera pravnog jezika, jer bi ovaj mofel mogao biti integrisan u alate za proveru pravnog jezika: Druga primena mogla bi da bude predlaganje reči i fraza, jer SrBERTa takođe može biti koristan u alatima za predlaganje reči i fraza u pravnim tekstovima.

Njegova trenutna zamisao je da SrBERTa model i vektorske baze podataka mogu zajedno revolucionarno promeniti način na koji pravni stručnjaci pretražuju i analiziraju pravne dokumente, uključujući zakone, akte i odluke. Stoga, u planu ima da prvo sprovede istraživanje kako bi razvio osnovne koncepte i metode za semantičku pretragu pravnih dokumenata.

Javna dostupnost i doprinos zajednici kao vrhovni ciljevi za dalji razvoj

Iako trenutno nije u planu proširenje upotrebe SrBERTa modela izvan pravnog domena, Nemanja nagoveštava potencijal da u budućnosti osnovni model – koji nije fino podešen za pravne tekstove već samo za srpski jezik – bude stavljen na raspolaganje zajednici. To bi omogućilo pojedincima i organizacijama da preuzmu model i fino ga podese za različite oblasti kao što su medicina, sport, nauka i mnoge druge.

Na kraju razgovora, Nemanja je istakao da je razvoj jezičkih modela na srpskom jeziku tek počeo, pa narednih godinu-dve očekuje značajan napredak u ovoj oblasti. On i njegov tim planiraju da pokrenu projekte u okviru Fonda za inovacionu delatnost, a istražuju i druge slične oblike finansiranja daljeg istraživanja.

Firme:

Elektronski fakultet Niš

Tagovi:

jezički model na ćirilici

pretraga i obrada pravne dokumentacije na srpskom jeziku

veštačka inteligencija

Komentari

Vaš komentar

Naš izbor

Potražnja za montažnim kućama u RS nikad veća - Prihvatljiva cena kvadrata i brza izgradnja dovoljni motivi za kupce Građevina

10 najlepših balada svih vremena, prema izboru veštačke inteligencije IT, Telekomunikacije, Turizam, sport, kultura

NTP Niš dobiće objekat kapaciteta do 1.000 korisnika kancelarijskog i laboratorijskog prostora - Očekivani početak gradnje do kraja godine Industrija, Građevina

Južnjački roboti i aplikacije za poljoprivredu, selidbe, rulet i biblioteku Agro, IT, Telekomunikacije, Turizam, sport, kultura

Veštačka inteligencija kao prekretnica u održivoj gradnji drvetom Industrija, Građevina, IT, Telekomunikacije

Jasna Džudželija, Account Director u agenciji Grayling: Oštrina ljudskog uma, vanserijska kreativnost individua i kolektivni "brainstorming" timova i dalje su "zlata vredni" Vesti

Dekarbonizacija, obnovljivi izvori, energetska integracija regiona... - Šta poručuju moderatori Samita energetike Trebinje 2023 Energija, Industrija

Srpske kompanije i fakulteti napravili najsavremeniju robotsku šaku sa senzorima dodira Industrija, IT, Telekomunikacije

Rubrike za dalje čitanje

Retrospektiva investicija

Potpuna informacija je dostupna samo komercijalnim korisnicima-pretplatnicima i neophodno je da se ulogujete.

Zaboravili ste šifru? Kliknite OVDE

Za besplatno probno korišćenje, kliknite OVDE

Pratite na našem portalu vesti, tendere, grantove, pravnu regulativu i izveštaje.

Registracija na eKapiji vam omogućava pristup potpunim informacijama i dnevnom biltenu

Naš dnevni ekonomski bilten će stizati na vašu mejl adresu krajem svakog radnog dana. Bilteni su personalizovani prema interesovanjima svakog korisnika zasebno, uz konsultacije sa našim ekspertima.