Jogi szövegek tezaurusz alapú osztályozása egy nyelvfüggetlen modell létrehozásának problémái /

A cikkben jogi szövegek automatikus többcímkés osztályozását vizsgáljuk. A feladat nagy mennyiségű betanító adatot igényel, azonban ha az osztályozás kivitelezhető a többnyelvű EUROVOC tezaurusz terminusai alapján, akkor elméleti lehetőség nyílik arra, hogy egy meghatározott nyelvű korpuszon betanít...

Teljes leírás

Elmentve itt :
Bibliográfiai részletek
Szerző: Nyéki Bence
Testületi szerző: Magyar számítógépes nyelvészeti konferencia (17.) (2021) (Szeged)
Dokumentumtípus: Könyv része
Megjelent: 2021
Sorozat:Magyar Számítógépes Nyelvészeti Konferencia 17
Kulcsszavak:Nyelvészet - számítógép alkalmazása
Tárgyszavak:
Online Access:http://acta.bibl.u-szeged.hu/73376
Leíró adatok
Tartalmi kivonat:A cikkben jogi szövegek automatikus többcímkés osztályozását vizsgáljuk. A feladat nagy mennyiségű betanító adatot igényel, azonban ha az osztályozás kivitelezhető a többnyelvű EUROVOC tezaurusz terminusai alapján, akkor elméleti lehetőség nyílik arra, hogy egy meghatározott nyelvű korpuszon betanított osztályozó nyelvfüggetlenül működhessen. A bináris relevancia módszerén alapuló osztályozónkat horvát korpuszon tanítottuk be, és bár teljesítménye horvát szövegeken elfogadható, kis méretű annotált magyar mintánkra alkalmazva gyenge eredményt mutatott. Ennek legvalószínűbb oka a horvát és a magyar korpusz közötti különbség a terminus- és címkeeloszlás szempontjából.
Terjedelem/Fizikai jellemzők:291-303
ISBN:978-963-306-781-9