Ustav formalni a aplikovane lingvistiky
Vas srdecne zve na
Seminar formalni lingvistiky
vedeny prof. E. Hajicovou
Seminar se kona v pondeli od 13:30
v budove MFF UK, Malostranske nam. 25,
4. patro, mistnost S1 (c. 428)
13. 10. 2008
David Marecek (UFAL MFF UK)
Automaticke parovani uzlu ceskych a anglickych tektogramatickych stromu
Abstrakt: Ukolem parovani je nalezt pro slova anglicke vety jejich
protejsky v ceskem prekladu. V prednasce budou prezentovany rozdily mezi
parovanim na morfologicke a tektogramaticke rovine, dale zpusob, jakym lze
morfologicke parovani prevest na tektogramaticke a jak se v tomto pripade
zmeni mezianotatorska shoda. Nasledne bude popsan hladovy algoritmus pro
automaticke parovani tektogramatickych stromu, ktery vyuziva podobnosti
stromovych struktur, a jeho uspesnost bude overena na rucne sparovanych
vetach. Experimenty byly provadeny zvlast pro ruzne typy textu (pravni
texty, beletrie, novinove clanky).
20. 10. 2008
Jan Pomikalek (FI MU)
Jeste vetsi webove korpusy
Abstrakt: Textove korpusy jsou dulezitym zdrojem informaci pro radu
oblasti vypocetni lingvistiky. Dusledkem tzv. Zipfova zakona je, ze valna
vetsina jevu v prirozenem jazyce se vyskytuje ridce a casto nemame k
dispozici dostatek dat na to, abychom tyto ridke jevy mohli studovat. V
tomto ohledu plati, ze vice dat znamena lepsi data a vetsi korpusy jsou
lepsimi korpusy. Prestoze pro nektere jazyky je na webu k dispozici
enormni mnozstvi textu, dosud vytvorene webove korpusy zdaleka
neprekrocily hranici tri miliard slov. Obsahem prednasky bude nas postup
pri tvorbe weboveho korpusu anglickych textu s cilovou velikosti dvacet
miliard slov. Pri popisu souvisejicich problemu a pouzitych nastroju se
podrobne zamerime zejmena na detekci blizkych (duplicitnich) dokumentu v
kolekcich daneho rozsahu a predvedeme vlastni efektivni reseni tohoto
problemu.
27. 10. 2008
Seminar se nekona