Webové korpusy Aranea ako zdroj jazykových dát

4. 10. 2022

Bez popisku

Webové korpusy Aranea ako zdroj jazykových dát Ing. Vladimír Benko, PhD.

Jazykový korpus pozostávajúci z textov získaných z internetu predstavuje vhodnú alternatívu v situácii, keď by vytváranie tradičného korpusu bolo príliš nákladné prípadne pomalé. Vzhľadom na neustále rastúce kapacity diskového priestoru a operačných pamätí moderných počítačov pri súčasnom poklese ich jednotkovej ceny, ako aj dostupnosť softvérových nástrojov (s licenciou typu FLOSS) pokrývajúcich celý životný cyklus tvorby a anotácie korpusových dát je vytvorenie webového korpusu veľkého rozsahu realizovateľné aj v podmienkach slovenskej výskumnej a/alebo vzdelávacej inštitúcie.

V rámci seminára prestavíme projekt Aranea zameraný na vytvorenie „rodiny“ webových korpusov pre jazyky vyučované na slovenských univerzitách, ktorý sa rieši v spolupráci Jazykovedného ústavu Ľ. Štúra SAV a UNESCO Katedry plurilingválnej a multikultúrnej komunikácie Univerzity Komenského v Bratislave. Prestavíme celkovú koncepciu projektu, lingvisticky motivované rozhodnutia, použité softvérové nástroje a korpusový portál umožňujúci s korpusmi pracovať. Zmienime sa tiež o vonkajšej a vnútornej anotácii korpusových dát vplývajúcej na možnosti „vyťažovania“ informácií z korpusov.

Odporúčame účastníkom seminára vopred sa zaregistrovať na portáli pomocou tohto formulára: http://goo.gl/forms/o4PiVqxHhg


Více článků

Přehled všech článků

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info