Webové korpusy Aranea ako zdroj jazykových dát
-
14. října 2022
13:00
Webové korpusy Aranea ako zdroj jazykových dát Ing. Vladimír Benko, PhD.
Jazykový korpus pozostávajúci z textov získaných z internetu predstavuje vhodnú alternatívu v situácii, keď by vytváranie tradičného korpusu bolo príliš nákladné prípadne pomalé. Vzhľadom na neustále rastúce kapacity diskového priestoru a operačných pamätí moderných počítačov pri súčasnom poklese ich jednotkovej ceny, ako aj dostupnosť softvérových nástrojov (s licenciou typu FLOSS) pokrývajúcich celý životný cyklus tvorby a anotácie korpusových dát je vytvorenie webového korpusu veľkého rozsahu realizovateľné aj v podmienkach slovenskej výskumnej a/alebo vzdelávacej inštitúcie.
V rámci seminára prestavíme projekt Aranea zameraný na vytvorenie „rodiny“ webových korpusov pre jazyky vyučované na slovenských univerzitách, ktorý sa rieši v spolupráci Jazykovedného ústavu Ľ. Štúra SAV a UNESCO Katedry plurilingválnej a multikultúrnej komunikácie Univerzity Komenského v Bratislave. Prestavíme celkovú koncepciu projektu, lingvisticky motivované rozhodnutia, použité softvérové nástroje a korpusový portál umožňujúci s korpusmi pracovať. Zmienime sa tiež o vonkajšej a vnútornej anotácii korpusových dát vplývajúcej na možnosti „vyťažovania“ informácií z korpusov.
Odporúčame účastníkom seminára vopred sa zaregistrovať na portáli pomocou tohto formulára: http://goo.gl/forms/o4PiVqxHhg
![Bez popisku](https://cdn.muni.cz/media/3453047/benko-prednaska.jpg?mode=crop¢er=0.5,0.5&rnd=133093690220000000&width=1170)
Načítám mapu…
Sdílení události