Ustav formalni a aplikovane lingvistiky
Vas srdecne zve na
SEMINAR FORMALNI LINGVISTIKY
vedeny prof. E. Hajicovou
Seminar se kona v pondeli od 13:30
v budove MFF UK, Malostranske nam. 25,
4. patro, mistnost S1 (c. 428)
-----------
4. 5. 2009
Vladimir Benko (Comenius University & Slovak Academy of Sciences,
Bratislava)
OPTIMIZING WORD SKETCHES FOR A LARGE LEXICOGRAPHIC PROJECT
Abstract:
“Word sketches are one-page automatic, corpus-based summaries of a word’s
grammatical and collocational behaviour.” (Kilgarriff et al., 2004)
Designed by Adam Kilgarriff (Brighton) and implemented by Pavel Rychly and
Jan Pomikalek (Brno), Word Sketch Engine (WSE) provides a powerful tool
for coping with abundance of corpus data encountered in compiling
dictionary entries. Depending on the quality of lemmatization and
morphological annotation, WSE can help in analyzing both the frequent and
the scarce lexical phenomena found in the corpus.
Our presentation will comment on a step-by-step modification of the Word
Sketch definitions, so that the resulting Word Sketches would better match
the expectations of lexicographers compiling a multi-volume explanatory
Slovak dictionary.
References:
- Kilgarriff, A., Rychly, P., Smrz, P., Tugwell, D.: The Sketch Engine.
Proc Euralex. Lorient. (2004)
http://trac.sketchengine.co.uk/attachment/wiki/SkE/DocsIndex/sketch-engine-elx04\
.pdf?format=raw
- Getting started with the Sketch Engine
http://trac.sketchengine.co.uk/wiki/SkE/GettingStarted
- Sulc, M.: Zaciname s Bonitem 2 (Sketch Engine)
http://ucnk.ff.cuni.cz/doc/Bonito2_manual.pdf
-----------
11. 5. 2009
Maria Simkova, Katarina Gajdosova (JULS SAV Bratislava)
SLOVENSKY HOVORENY KORPUS
Abstract:
Vyskum hovorenej podoby slovenciny ma takmer 50-rocnu historiu, ktoru
tvoria skor jednotlive sondy ako kontinualny zaujem. Problemom sond je aj
roztrusenost, resp. nezachovanost nazbieraneho a analyzovaneho materialu.
V ramci Slovenskeho narodneho korpusu sa od r. 2007 vytvoril priestor na
vypracovanie koncepcie vedecko-vyskumneho projektu Slovenskeho hovoreneho
korpusu, ktoreho prva verzia (textovy prepis zlinkovany so zvukom) v
rozsahu takmer 130 tisic tokenov bola spristupnena koncom r. 2008. Cielom
je pripravit do r. 2011 dvojmilionovu databazu, ktora bude obsahovat
neformalne spontanne i polooficialne rozhovory a dalsie formy hovorenych
prejavov z celeho uzemia Slovenska a od predstavitelov roznych generacii,
pohlavi, vzdelanostnych a zamestnaneckych kategorii. Zameranie
predovsetkym na lingvisticke vyuzitie ovplyvnilo aj sposob ziskavania
nahravok, ich prepisu a anotacie. Osobitnu problematiku predstavuje
dodrzanie relevantnych pravnych noriem.
-----------
18. 5. 2009
Maria Simkova (JULS SAV Bratislava)
KOLOKACIE „SYNONYMNYCH“ ISTOTNYCH CASTIC
Abstrakt:
V ramci projektov Slovenskeho narodneho korpusu sa v r. 2008 zacalo
pracovat na Kolokacnom slovniku slovenciny, ktory je zalozeny na formalnom
pristupe. V prvej faze (2008 - 2010) sa koncipuju kolokacie
najfrekventovanejsich 500 substantiv. Pri praci sa okrem nastroja Bonito
pouziva najma Sketch Engine – kazdy poskytuje specificke moznosti na
zistovanie relevantnych kolokacii. V malej sonde do spajatelnosti castic
vyjadrujucich istotu/neistotu (37 jednotiek), ktore vykazuju vysoku
synonymiu, zistujeme rozdiely v kolokacnych profiloch jednotlivych clenov
synonymickeho radu. Vysledky analyzy mozu prispiet k presnejsiemu
formulovaniu vyznamu/vyznamovych odtienkov castic, delimitacnych kriterii
vo vztahu k homonymam, najma prislovkam, i k presnejsej anotacii castic v
korpuse. Z hladiska komparativneho studia blizkopribuznych jazykov je
zaujimave porovnanie s kolokaciami ekvivalentnych lexem v ceskom jazyku.