Internetes hírek automatikus osztályozása
Az elmúlt évtizedekben az online sajtó vált a hírek egyeduralkodó forrásává, amely egyre növekvő igényt teremt az automatizált tartalomkategorizálási módszerek iránt. Tudomásunk szerint ez az első olyan kutatás, amelynek célja magyar hírek téma szerinti osztályozása nagy nyelvi modellekkel. Jelen vi...
Elmentve itt :
| Szerzők: | |
|---|---|
| Testületi szerző: | |
| Dokumentumtípus: | Könyv része |
| Megjelent: |
Szegedi Tudományegyetem TTIK, Informatikai Intézet
Szeged
2025
|
| Sorozat: | Magyar Számítógépes Nyelvészeti Konferencia
21 |
| Kulcsszavak: | Nyelvészet - számítógép alkalmazása |
| Tárgyszavak: | |
| Online Access: | http://acta.bibl.u-szeged.hu/88770 |
| LEADER | 02279naa a2200265 i 4500 | ||
|---|---|---|---|
| 001 | acta88770 | ||
| 005 | 20251112121614.0 | ||
| 008 | 251112s2025 hu o 100 hun d | ||
| 020 | |a 978-963-688-034-7 | ||
| 040 | |a SZTE Egyetemi Kiadványok Repozitórium |b hun | ||
| 041 | |a hun | ||
| 100 | 1 | |a Osváth Mátyás | |
| 245 | 1 | 0 | |a Internetes hírek automatikus osztályozása |h [elektronikus dokumentum] / |c Osváth Mátyás |
| 260 | |a Szegedi Tudományegyetem TTIK, Informatikai Intézet |b Szeged |c 2025 | ||
| 300 | |a 29-39 | ||
| 490 | 0 | |a Magyar Számítógépes Nyelvészeti Konferencia |v 21 | |
| 520 | 3 | |a Az elmúlt évtizedekben az online sajtó vált a hírek egyeduralkodó forrásává, amely egyre növekvő igényt teremt az automatizált tartalomkategorizálási módszerek iránt. Tudomásunk szerint ez az első olyan kutatás, amelynek célja magyar hírek téma szerinti osztályozása nagy nyelvi modellekkel. Jelen vizsgálat célja az online elérhető magyar hírekben megjelenő témák azonosítása és a hírek szövegeinek osztályozása. Az elemzés anyagát 77 magyar hírportál 5,225,195 szövege adta 2013-tól 2023-ig. A kategória-készlet elkészítésére két módszert vizsgáltunk meg: egy statikus szóbeágyazásokon alapuló módszert, valamint egy BERT alapú témamodellezést. A két módszer eredményeit manuálisan validáltuk, így jött létre a 19 elemből álló kategóriakészletet. A hírek osztályozásához három módszert alkalmaztunk: egy már létező címkeajánló rendszer mellett a nagy méretű XLM-RoBERTa és a PULI LlumiX 32K Instruct modell performanciáját vizsgáltuk, ez utóbbit zeroshot tanítással. Bár az eredmények nagy szórást mutattak, azt gondoljuk, hogy a PULI LlumiX 32K Instruct modell kis munkával továbbfejleszthető egy nagy pontosságú osztályozóvá. | |
| 650 | 4 | |a Természettudományok | |
| 650 | 4 | |a Számítás- és információtudomány | |
| 650 | 4 | |a Bölcsészettudományok | |
| 650 | 4 | |a Nyelvek és irodalom | |
| 695 | |a Nyelvészet - számítógép alkalmazása | ||
| 700 | 0 | 1 | |a Héja Enikő |e aut |
| 711 | |a Magyar számítógépes nyelvészeti konferencia (21.) |c Szeged |d 2025. február 6-7. | ||
| 856 | 4 | 0 | |u http://acta.bibl.u-szeged.hu/88770/1/msznykonf_021_029-039.pdf |z Dokumentum-elérés |