Vladimír Benko: Webové korpusy a korpusový portál Aranea
-
11. prosince 2020
13:00 – 14:30
Přednáška proběhne on-line v MS Teams. Přihlásit se můžete pomocí tohoto odkazu: https://bit.ly/37wxj6M
Vladimír Benko
Jazykovedný ústav Ľ. Štúra Slovenskej akadémie vied
UNESCO Katedra plurilingválnej a multikultúrnej komunikácie UK v Bratislave
vladimir.benko@juls.savba.sk
Cieľom projektu Aranea je vytvorenie „rodiny“ webových korpusov pokrývajúcich jazyky používané na Slovensku a v okolitých krajinách, ako aj hlavné cudzie jazyky vyučované na slovenských univerzitách. Keďže korpusy sa budujú pomocou rovnakých nástrojov (s otvorenou alebo bezplatnou licenciou), s kompatibilnou stratégiou anotácie, majú rovnakú veľkosť a obsahujú texty z približne rovnakého obdobia, môžeme ich do značnej miery považovať za porovnateľné („comparable“), t. j. vhodné na kontrastívnu prácu.
V prednáške sa zmienime o odlišnostiach webových korpusov v porovnaní s tradičnými, stručne opíšme projekt Aranea a predstavíme korpusový portál, na ktorom sú korpusy Aranea sprístupnené pomocou korpusového manažéra NoSketch Engine.
Odporúčame si pred prednáškou vytlačiť „ťaháky“:
- Rozloženie českej klávesnice MS Windows
https://milo.juls.savba.sk/~vladob/resources/20191105_keyb_cs_bis.pdf - Súbor morfologických značiek (tagset) HM
https://milo.juls.savba.sk/~vladob/resources/20191106_hm_tagset_cheatsheet.pdf - Slovnodruhové, sémantické a štylistické príznaky databázy Morfflex
https://milo.juls.savba.sk/~vladob/resources/20200328_morfflex.pdf
Penn Tegset + AUT + Regex https://milo.juls.savba.sk/~vladob/resources/20180404_ukl_cheatsheet_1.pdf
Sdílení události