Internetes hírek automatikus osztályozása

Az elmúlt évtizedekben az online sajtó vált a hírek egyeduralkodó forrásává, amely egyre növekvő igényt teremt az automatizált tartalomkategorizálási módszerek iránt. Tudomásunk szerint ez az első olyan kutatás, amelynek célja magyar hírek téma szerinti osztályozása nagy nyelvi modellekkel. Jelen vi...

Teljes leírás

Elmentve itt :

Bibliográfiai részletek
Szerzők:	Osváth Mátyás Héja Enikő
Testületi szerző:	Magyar számítógépes nyelvészeti konferencia (21.)
Dokumentumtípus:	Könyv része
Megjelent:	Szegedi Tudományegyetem TTIK, Informatikai Intézet Szeged 2025
Sorozat:	Magyar Számítógépes Nyelvészeti Konferencia 21
Kulcsszavak:	Nyelvészet - számítógép alkalmazása
Tárgyszavak:	Természettudományok Számítás- és információtudomány Bölcsészettudományok Nyelvek és irodalom
Online Access:	http://acta.bibl.u-szeged.hu/88770


LEADER	02279naa a2200265 i 4500
001	acta88770
005	20251112121614.0
008	251112s2025 hu o 100 hun d
020			\|a 978-963-688-034-7
040			\|a SZTE Egyetemi Kiadványok Repozitórium \|b hun
041			\|a hun
100	1		\|a Osváth Mátyás
245	1	0	\|a Internetes hírek automatikus osztályozása \|h [elektronikus dokumentum] / \|c Osváth Mátyás
260			\|a Szegedi Tudományegyetem TTIK, Informatikai Intézet \|b Szeged \|c 2025
300			\|a 29-39
490	0		\|a Magyar Számítógépes Nyelvészeti Konferencia \|v 21
520	3		\|a Az elmúlt évtizedekben az online sajtó vált a hírek egyeduralkodó forrásává, amely egyre növekvő igényt teremt az automatizált tartalomkategorizálási módszerek iránt. Tudomásunk szerint ez az első olyan kutatás, amelynek célja magyar hírek téma szerinti osztályozása nagy nyelvi modellekkel. Jelen vizsgálat célja az online elérhető magyar hírekben megjelenő témák azonosítása és a hírek szövegeinek osztályozása. Az elemzés anyagát 77 magyar hírportál 5,225,195 szövege adta 2013-tól 2023-ig. A kategória-készlet elkészítésére két módszert vizsgáltunk meg: egy statikus szóbeágyazásokon alapuló módszert, valamint egy BERT alapú témamodellezést. A két módszer eredményeit manuálisan validáltuk, így jött létre a 19 elemből álló kategóriakészletet. A hírek osztályozásához három módszert alkalmaztunk: egy már létező címkeajánló rendszer mellett a nagy méretű XLM-RoBERTa és a PULI LlumiX 32K Instruct modell performanciáját vizsgáltuk, ez utóbbit zeroshot tanítással. Bár az eredmények nagy szórást mutattak, azt gondoljuk, hogy a PULI LlumiX 32K Instruct modell kis munkával továbbfejleszthető egy nagy pontosságú osztályozóvá.
650		4	\|a Természettudományok
650		4	\|a Számítás- és információtudomány
650		4	\|a Bölcsészettudományok
650		4	\|a Nyelvek és irodalom
695			\|a Nyelvészet - számítógép alkalmazása
700	0	1	\|a Héja Enikő \|e aut
711			\|a Magyar számítógépes nyelvészeti konferencia (21.) \|c Szeged \|d 2025. február 6-7.
856	4	0	\|u http://acta.bibl.u-szeged.hu/88770/1/msznykonf_021_029-039.pdf \|z Dokumentum-elérés

Internetes hírek automatikus osztályozása

Hasonló tételek