Jogi szövegek tezaurusz alapú osztályozása egy nyelvfüggetlen modell létrehozásának problémái /
A cikkben jogi szövegek automatikus többcímkés osztályozását vizsgáljuk. A feladat nagy mennyiségű betanító adatot igényel, azonban ha az osztályozás kivitelezhető a többnyelvű EUROVOC tezaurusz terminusai alapján, akkor elméleti lehetőség nyílik arra, hogy egy meghatározott nyelvű korpuszon betanít...
Elmentve itt :
| Szerző: | |
|---|---|
| Testületi szerző: | |
| Dokumentumtípus: | Könyv része |
| Megjelent: |
2021
|
| Sorozat: | Magyar Számítógépes Nyelvészeti Konferencia
17 |
| Kulcsszavak: | Nyelvészet - számítógép alkalmazása |
| Tárgyszavak: | |
| Online Access: | http://acta.bibl.u-szeged.hu/73376 |
| Tartalmi kivonat: | A cikkben jogi szövegek automatikus többcímkés osztályozását vizsgáljuk. A feladat nagy mennyiségű betanító adatot igényel, azonban ha az osztályozás kivitelezhető a többnyelvű EUROVOC tezaurusz terminusai alapján, akkor elméleti lehetőség nyílik arra, hogy egy meghatározott nyelvű korpuszon betanított osztályozó nyelvfüggetlenül működhessen. A bináris relevancia módszerén alapuló osztályozónkat horvát korpuszon tanítottuk be, és bár teljesítménye horvát szövegeken elfogadható, kis méretű annotált magyar mintánkra alkalmazva gyenge eredményt mutatott. Ennek legvalószínűbb oka a horvát és a magyar korpusz közötti különbség a terminus- és címkeeloszlás szempontjából. |
|---|---|
| Terjedelem/Fizikai jellemzők: | 291-303 |
| ISBN: | 978-963-306-781-9 |