Java

Predavanja so razvrščena po abecednem vrstnem redu naslova predavanj.


Tadej Justin

SloTex - odprtokodno ogrodje za obdelavo slovenskega naravnega jezika

Tadej Justin
Medius d.o.o.

Visokotehnološka podjetja dandanes s pridom uporabljajo jezikovne tehnologije v produkcijskih poslovnih okoljih. Jezikovne tehnologije so vgrajene v aplikacije, ki omogočajo obdelavo velike količine podatkov.

BBC na primer avtomatično označuje ključne besede svojih prispevkov in tako na lažji in bolj pregleden način ponudi opis prispevka bralcem, AirBnB na svoji spletni platformi omogoča cenzuro telefonskih številk in naslovov, če hoče gostitelj razkriti najemniku svoje kontaktne podatke ali lokacijo. Ta cenzura je ključen element njegovega poslovnega modela.

Trenutno je na trgu več priznanih odprtokodnih ogrodij, ki omogočajo uporabo jezikovnih tehnologij v enem od svetovnih jezikov. Slovenščina je zaradi relativno majhnega števila govorcev in posledično manjše tržne relevantnosti večkrat zapostavljena. S predstavljenim projektom želimo spodbuditi zanimanje razvijalcev v programskem jeziku Java tudi na področju jezikovnih tehnologij. Cilj razvoja novega odprtokodnega orodja ni le omogočiti razvoj aplikacije, ki zajema več odprtokodnih ogrodij jezikovnih tehnologij pod eno streho, pač pa tudi te tehnologije prirediti za uporabo v slovenskem jeziku. Pri razvoju hkrati posvečamo posebno pozornost tako učinkoviti in kot tudi uporabniku prijazni uporabi. Uporabnikom želimo ponuditi možnost enostavne in pregledne manipulacije podatkov, kar omogoča hitrejšo validacijo in izvedbo novega jezikovnega modeliranja na osnovi strojnega učenja. Projekt temelji na uporabi Spring Boot ogrodja za izdelavo RESTfull servisov in Vaadin ogrodja.

Inicialni razvoj zastavljenih ciljev je omogočil program Po kreativni poti do praktičnega znanja, ki je uspešno združil študente/tke FE, FRI in FE ter jih povezal v funkcionalno interdisciplinarno skupino. Skupina je s pomočjo delovnega mentorja in pedagoških mentorjev razvila inicialno zasnovo odprtokodnega, prosto dostopnega ogrodja, ki ga je mogoče z lahkoto uporabiti tudi v produkcijskih okoljih.

V predavanju bomo predstavili:

  • Predstavitev ogrodja in ograjenih NLP ogrodji (OpenNLP, Stanford CoreNLP)
  • SloTex as a service - neomejena uporaba v produkcijskih okoljih
  • Uporaba prosto dostopnih podatkov za modeliranje slovenskega jezika
  • SloTex na githubu - povabilo k sodelovanju


Informacije o predavanju

Jezik / Language: SLO


O Avtorju

Dr. Tadej Justin se je s področjem obdelave in procesiranja naravnega jezika prvič srečal pri svojem raziskovalnem delu, ki je bilo osredotočeno predvsem na procesiranje in obdelavo govornih signalov. Leta 2017 se je pridružil podjetju Medius in s svojimi izkušnjami pripomogel pri načrtovanju in implementaciji več različnih umetnih inteligentnih sistemov, ki omogočajo obdelavo velepodatkov in uporabo strojnega učenja.

  • # Java
  • # AI

Vsebina iskanje