Internetes hírek automatikus osztályozása

Az elmúlt évtizedekben az online sajtó vált a hírek egyeduralkodó forrásává, amely egyre növekvő igényt teremt az automatizált tartalomkategorizálási módszerek iránt. Tudomásunk szerint ez az első olyan kutatás, amelynek célja magyar hírek téma szerinti osztályozása nagy nyelvi modellekkel. Jelen vi...

Teljes leírás

Elmentve itt :
Bibliográfiai részletek
Szerzők: Osváth Mátyás
Héja Enikő
Testületi szerző: Magyar számítógépes nyelvészeti konferencia (21.)
Dokumentumtípus: Könyv része
Megjelent: Szegedi Tudományegyetem TTIK, Informatikai Intézet Szeged 2025
Sorozat:Magyar Számítógépes Nyelvészeti Konferencia 21
Kulcsszavak:Nyelvészet - számítógép alkalmazása
Tárgyszavak:
Online Access:http://acta.bibl.u-szeged.hu/88770
LEADER 02279naa a2200265 i 4500
001 acta88770
005 20251112121614.0
008 251112s2025 hu o 100 hun d
020 |a 978-963-688-034-7 
040 |a SZTE Egyetemi Kiadványok Repozitórium  |b hun 
041 |a hun 
100 1 |a Osváth Mátyás 
245 1 0 |a Internetes hírek automatikus osztályozása  |h [elektronikus dokumentum] /  |c  Osváth Mátyás 
260 |a Szegedi Tudományegyetem TTIK, Informatikai Intézet  |b Szeged  |c 2025 
300 |a 29-39 
490 0 |a Magyar Számítógépes Nyelvészeti Konferencia  |v 21 
520 3 |a Az elmúlt évtizedekben az online sajtó vált a hírek egyeduralkodó forrásává, amely egyre növekvő igényt teremt az automatizált tartalomkategorizálási módszerek iránt. Tudomásunk szerint ez az első olyan kutatás, amelynek célja magyar hírek téma szerinti osztályozása nagy nyelvi modellekkel. Jelen vizsgálat célja az online elérhető magyar hírekben megjelenő témák azonosítása és a hírek szövegeinek osztályozása. Az elemzés anyagát 77 magyar hírportál 5,225,195 szövege adta 2013-tól 2023-ig. A kategória-készlet elkészítésére két módszert vizsgáltunk meg: egy statikus szóbeágyazásokon alapuló módszert, valamint egy BERT alapú témamodellezést. A két módszer eredményeit manuálisan validáltuk, így jött létre a 19 elemből álló kategóriakészletet. A hírek osztályozásához három módszert alkalmaztunk: egy már létező címkeajánló rendszer mellett a nagy méretű XLM-RoBERTa és a PULI LlumiX 32K Instruct modell performanciáját vizsgáltuk, ez utóbbit zeroshot tanítással. Bár az eredmények nagy szórást mutattak, azt gondoljuk, hogy a PULI LlumiX 32K Instruct modell kis munkával továbbfejleszthető egy nagy pontosságú osztályozóvá. 
650 4 |a Természettudományok 
650 4 |a Számítás- és információtudomány 
650 4 |a Bölcsészettudományok 
650 4 |a Nyelvek és irodalom 
695 |a Nyelvészet - számítógép alkalmazása 
700 0 1 |a Héja Enikő  |e aut 
711 |a Magyar számítógépes nyelvészeti konferencia (21.)  |c Szeged  |d 2025. február 6-7. 
856 4 0 |u http://acta.bibl.u-szeged.hu/88770/1/msznykonf_021_029-039.pdf  |z Dokumentum-elérés