Az NYTK-NerKor több szempontú kiértékelése
Cikkünkben az NYTK-NerKor korpusz kiértékelését mutatjuk be több rendszer segítségével. Azt vizsgáljuk, hogy az egymillió tokent tartalmazó, műfajilag heterogén, szabadon elérhető gold standard adathalmaz mennyire használható magyar nyelvű tulajdonnév-felismerő rendszerek fejlesztéséhez. A kiértékel...
Elmentve itt :
| Szerzők: | |
|---|---|
| Testületi szerző: | |
| Dokumentumtípus: | Könyv része |
| Megjelent: |
2022
|
| Sorozat: | Magyar Számítógépes Nyelvészeti Konferencia
18 |
| Kulcsszavak: | Nyelvészet - számítógép alkalmazása, Korpusz - nyelvészet |
| Tárgyszavak: | |
| Online Access: | http://acta.bibl.u-szeged.hu/75889 |
| LEADER | 02014naa a2200313 i 4500 | ||
|---|---|---|---|
| 001 | acta75889 | ||
| 005 | 20221108114908.0 | ||
| 008 | 220525s2022 hu o 1|| hun d | ||
| 020 | |a 978-963-306-848-9 | ||
| 040 | |a SZTE Egyetemi Kiadványok Repozitórium |b hun | ||
| 041 | |a hun | ||
| 100 | 1 | |a Simon Eszter | |
| 245 | 1 | 3 | |a Az NYTK-NerKor több szempontú kiértékelése |h [elektronikus dokumentum] / |c Simon Eszter |
| 260 | |c 2022 | ||
| 300 | |a 403-416 | ||
| 490 | 0 | |a Magyar Számítógépes Nyelvészeti Konferencia |v 18 | |
| 520 | 3 | |a Cikkünkben az NYTK-NerKor korpusz kiértékelését mutatjuk be több rendszer segítségével. Azt vizsgáljuk, hogy az egymillió tokent tartalmazó, műfajilag heterogén, szabadon elérhető gold standard adathalmaz mennyire használható magyar nyelvű tulajdonnév-felismerő rendszerek fejlesztéséhez. A kiértékeléshez négy különböző rendszert használtunk: a CRFsuite-ot, a magyar spaCy-t, a Stanzát és az emBERT-et. Cikkünkben ismertetjük az egyes rendszerek által elért eredményeket, melyeket össze is hasonlítunk. Az eredmények azt mutatják, hogy az NYTK-NerKor és a Szeged NER korpusz együttes használata még stabilabb modelleket eredményezhet, valamint hogy az NYTK-NerKoron tanítva a rendszerek nagyobb általánosító képességgel rendelkeznek, ami ahhoz kell, hogy egy azelőtt nem látott szövegben jól azonosítsák a neveket. | |
| 650 | 4 | |a Természettudományok | |
| 650 | 4 | |a Számítás- és információtudomány | |
| 650 | 4 | |a Bölcsészettudományok | |
| 650 | 4 | |a Nyelvek és irodalom | |
| 695 | |a Nyelvészet - számítógép alkalmazása, Korpusz - nyelvészet | ||
| 700 | 0 | 1 | |a Vadász Noémi |e aut |
| 700 | 0 | 1 | |a Lévai Dániel |e aut |
| 700 | 0 | 1 | |a Nemeskey Dávid Márk |e aut |
| 700 | 0 | 1 | |a Orosz György |e aut |
| 700 | 0 | 1 | |a Szántó Zsolt |e aut |
| 710 | |a Magyar számítógépes nyelvészeti konferencia (18.) (2022) (Szeged) | ||
| 856 | 4 | 0 | |u http://acta.bibl.u-szeged.hu/75889/1/msznykonf_018_403-416.pdf |z Dokumentum-elérés |