Jogi szövegek tezaurusz alapú osztályozása egy nyelvfüggetlen modell létrehozásának problémái /

A cikkben jogi szövegek automatikus többcímkés osztályozását vizsgáljuk. A feladat nagy mennyiségű betanító adatot igényel, azonban ha az osztályozás kivitelezhető a többnyelvű EUROVOC tezaurusz terminusai alapján, akkor elméleti lehetőség nyílik arra, hogy egy meghatározott nyelvű korpuszon betanít...

Teljes leírás

Elmentve itt :

Bibliográfiai részletek
Szerző:	Nyéki Bence
Testületi szerző:	Magyar számítógépes nyelvészeti konferencia (17.) (2021) (Szeged)
Dokumentumtípus:	Könyv része
Megjelent:	2021
Sorozat:	Magyar Számítógépes Nyelvészeti Konferencia 17
Kulcsszavak:	Nyelvészet - számítógép alkalmazása
Tárgyszavak:	Természettudományok Számítás- és információtudomány Bölcsészettudományok Nyelvek és irodalom
Online Access:	http://acta.bibl.u-szeged.hu/73376

Leíró adatok
Tartalmi kivonat:	A cikkben jogi szövegek automatikus többcímkés osztályozását vizsgáljuk. A feladat nagy mennyiségű betanító adatot igényel, azonban ha az osztályozás kivitelezhető a többnyelvű EUROVOC tezaurusz terminusai alapján, akkor elméleti lehetőség nyílik arra, hogy egy meghatározott nyelvű korpuszon betanított osztályozó nyelvfüggetlenül működhessen. A bináris relevancia módszerén alapuló osztályozónkat horvát korpuszon tanítottuk be, és bár teljesítménye horvát szövegeken elfogadható, kis méretű annotált magyar mintánkra alkalmazva gyenge eredményt mutatott. Ennek legvalószínűbb oka a horvát és a magyar korpusz közötti különbség a terminus- és címkeeloszlás szempontjából.
Terjedelem/Fizikai jellemzők:	291-303
ISBN:	978-963-306-781-9

Jogi szövegek tezaurusz alapú osztályozása egy nyelvfüggetlen modell létrehozásának problémái /

Hasonló tételek