Az NYTK-NerKor több szempontú kiértékelése

Cikkünkben az NYTK-NerKor korpusz kiértékelését mutatjuk be több rendszer segítségével. Azt vizsgáljuk, hogy az egymillió tokent tartalmazó, műfajilag heterogén, szabadon elérhető gold standard adathalmaz mennyire használható magyar nyelvű tulajdonnév-felismerő rendszerek fejlesztéséhez. A kiértékel...

Teljes leírás

Elmentve itt :
Bibliográfiai részletek
Szerzők: Simon Eszter
Vadász Noémi
Lévai Dániel
Nemeskey Dávid Márk
Orosz György
Szántó Zsolt
Testületi szerző: Magyar számítógépes nyelvészeti konferencia (18.) (2022) (Szeged)
Dokumentumtípus: Könyv része
Megjelent: 2022
Sorozat:Magyar Számítógépes Nyelvészeti Konferencia 18
Kulcsszavak:Nyelvészet - számítógép alkalmazása, Korpusz - nyelvészet
Tárgyszavak:
Online Access:http://acta.bibl.u-szeged.hu/75889
LEADER 02014naa a2200313 i 4500
001 acta75889
005 20221108114908.0
008 220525s2022 hu o 1|| hun d
020 |a 978-963-306-848-9 
040 |a SZTE Egyetemi Kiadványok Repozitórium  |b hun 
041 |a hun 
100 1 |a Simon Eszter 
245 1 3 |a Az NYTK-NerKor több szempontú kiértékelése  |h [elektronikus dokumentum] /  |c  Simon Eszter 
260 |c 2022 
300 |a 403-416 
490 0 |a Magyar Számítógépes Nyelvészeti Konferencia  |v 18 
520 3 |a Cikkünkben az NYTK-NerKor korpusz kiértékelését mutatjuk be több rendszer segítségével. Azt vizsgáljuk, hogy az egymillió tokent tartalmazó, műfajilag heterogén, szabadon elérhető gold standard adathalmaz mennyire használható magyar nyelvű tulajdonnév-felismerő rendszerek fejlesztéséhez. A kiértékeléshez négy különböző rendszert használtunk: a CRFsuite-ot, a magyar spaCy-t, a Stanzát és az emBERT-et. Cikkünkben ismertetjük az egyes rendszerek által elért eredményeket, melyeket össze is hasonlítunk. Az eredmények azt mutatják, hogy az NYTK-NerKor és a Szeged NER korpusz együttes használata még stabilabb modelleket eredményezhet, valamint hogy az NYTK-NerKoron tanítva a rendszerek nagyobb általánosító képességgel rendelkeznek, ami ahhoz kell, hogy egy azelőtt nem látott szövegben jól azonosítsák a neveket. 
650 4 |a Természettudományok 
650 4 |a Számítás- és információtudomány 
650 4 |a Bölcsészettudományok 
650 4 |a Nyelvek és irodalom 
695 |a Nyelvészet - számítógép alkalmazása, Korpusz - nyelvészet 
700 0 1 |a Vadász Noémi  |e aut 
700 0 1 |a Lévai Dániel  |e aut 
700 0 1 |a Nemeskey Dávid Márk  |e aut 
700 0 1 |a Orosz György  |e aut 
700 0 1 |a Szántó Zsolt  |e aut 
710 |a Magyar számítógépes nyelvészeti konferencia (18.) (2022) (Szeged) 
856 4 0 |u http://acta.bibl.u-szeged.hu/75889/1/msznykonf_018_403-416.pdf  |z Dokumentum-elérés