1_korpusnaya-ling
.pdf37.Шаров С.А. Частотный словарь русского языка. 2002. http://www.artint.ru/projects/frqlist.asp
38.Шерстинова Т.Ю. «Один речевой день» на временной шкале:
оперспективах исследования динамических процессов на материале звукового корпуса // Филология. Востоковедение. Журналистика.
Серия 9. – СПб., 2009.
39.Atkins S., Clear J., Ostler N. Corpus Design Criteria. Literary and Linguistic Computing. – 1992. – Vol. 7, No. 1. – Pp. 1-16.
40.Biber D., Conrad S., Reppen R. Corpus Linguistics. Investigating language structure and use. Cambridge University Press, 1998.
41.Český národní korpus – úvod a příručka uživatele FF UK / Kocek, J. – Kopřivová, M. – Kučera, K. – ÚČNK 2000.
42.Finegan E. LANGUAGE: its structure and use. – N.Y.: Harcourt Brace College Publishers, 2004.
43.Johannessen J.B. Corpus linguistics or corpora in linguistics? // NODALIDA 2005, the 15th Nordic Conference of Computational Linguistics. Joensuu, Finland, May 20-21, 2005.
44.Johansson S. Some aspects of the development of corpus linguistics in the 1970s and 1980s // Lüdeling A., Kytö M., eds. Corpus Linguistics. An International Handbook. Volume 1. – Berlin & New York: Walter de Gruyter, 2008. – Pp. 33-53.
45.Kilgarriff A. Web as corpus // Proc. of Corpus Linguistics 2001 conference (Lancaster University). – Lancaster, 2001. – Pp. 342-344.
46.Kytö M., Rissanen M. A language in transition: The Helsinki Corpus of English texts, ICAME Journal, 1992. – 16: 7-27.
47.Lakoff G. Pronominalization, Negation, and the Analysis of Adverbs // Jacobs & Rosenbaum, eds. Readings in English transformational grammar, Ginn & Co, Waltham, MA, 1970. – Pp. 145165.
48.Leech G. The Distribution and Function of Vocatives in American and British English Conversation // In Hasselgård and Oksefjell eds., 1999.
– Pp. 107-120.
49.Lüdeling A., Kytö M., eds. Corpus Linguistics. An International Handbook. Volumes 1, 2. – Berlin & New York: Walter de Gruyter, 2008.
– http://alknyelvport.nytud.hu/muhelyek/elte.../HSK-Corpus- Linguistics.../file
50.McCarthy M.J. Discourse Analysis for Language Teachers. – Cambridge: Cambridge UP, 1991.
151
51.McEnery T., Wilson, A. Corpus Linguistics. – Edinburgh: Edinburgh University Press, 2001.
52.McWhinney B. The CHILDES Project: Tools for Analyzing Talk. – Mahwah, NJ. Lawrence Erlbaum Associates. Third Edition, 2000. – Vol. 1.
53.Meyer Ch. F. English Corpus Linguistics: An Introduction. Cambridge: Cambridge University Press, 2002. – Xvi + 168.
54.Mitrofanova O., Zacharov V. Automatic Analysis of Terminology in the Russian Corpus on Corpus Linguistics // Slovko-2009: NLP, Corpus Linguistics, Cоrpus Based Grammar Research: Proceedings of Fifth International Conference (Smolenice, Slovakia, 25-27 November 2009) / J. Levicka, R. Garabik, eds. – Brno: Tribun, 2009. – P. 249-255.
55.Postal P.M. Cross-Over Phenomena. A Study in the Grammar of Coreference // W.J. Plath (ed.), Specification and Utilization of a Transformational Grammar. Scientific Report No. 3, 1-239. Yorktown Heights, New York: IBM Corporation, 1968.
56.Postal P.M. On the Surface Verb ‗remind‘ // Linguistic Inquiry, 1970. – 1, 37-120.
57.Sinclair J.M. Preliminary recommendations on text typology. 1996. EAGLES Document EAG-TCWG-TTYP/P. http://www.ilc.pi.cnr.it/EAGLES96/texttyp/texttyp.html
58.Stenström A-B., Andersen, G. More trends in teenage talk: A corpus-based investigation of the discourse items cos and innit // C. Percy, C. Meyer & I. Lancashire (eds). Synchronic corpus linguistics. Amsterdam: Rodopi, 1996. – Pp. 189-203.
59.Svartvik J., Quirk R. A corpus of English Conversation. – Lund: Gleerup, 1980.
60.Svartvik J. Directions in Corpus Linguistics. Procedings of Nobel Symposium 92, Stockholm, 4-8 August 1991. – Berlin: Mouton de Cruyter, 1992.
61.Virtanen T. Corpora and discourse analysis // Lüdeling A., Kytö M., eds. Corpus Linguistics. An International Handbook. Volume 2. – Berlin & New York: Walter de Gruyter, 2008. – Pp. 1043-1070.
62.Wikipedia – http://en.wikipedia.org/wiki/
152
|
ПРИЛОЖЕНИЕ 1 |
|
Список национальных корпусов |
||
|
|
|
Национальный корпус русского языка |
70 млн. слов |
|
http://ruscorpora.ru |
|
|
|
|
|
Британский национальный корпус |
100 млн. слов |
|
http://www.natcorp.ox.ac.uk/ или |
|
|
http://sara.natcorp.ox.ac.uk/ |
|
|
|
|
|
Венгерский национальный корпус |
100 млн. слов |
|
http://corpus.nytud.hu/mnsz/ |
|
|
|
|
|
Корпус испанского языка (исторический) |
100 млн. слов |
|
http://www.corpusdelespanol.org/ |
|
|
|
|
|
Корпус современного датского языка |
50 млн. слов |
|
http://www.korpus2000.dk/ |
|
|
|
|
|
Корпус современного итальянского языка |
100 млн. слов |
|
CORIS/CODIS |
|
|
http://www.cilta.unibo.it/ricerca.htm |
|
|
|
|
|
Корпус современного китайского языка (LIVAC |
720 млн. слов |
|
Synchronous Corpus) |
(150 млн. иероглифов) |
|
http://www.rcl.cityu.edu.hk/livac/ |
|
|
|
|
|
Мангеймский корпус немецкого языка (Institut für |
1610 млн. слов |
|
Deutsche Sprache, Mannheim, Germany) |
|
|
http://corpora.ids-mannheim.de/~cosmas/ |
|
|
|
|
|
Национальный корпус словенского языка |
Более 100 млн. слов |
|
http://www.fida.net/eng/ |
|
|
|
|
|
153
ПРИЛОЖЕНИЕ 2
Список терминологических словосочетаний корпусной лингвистики
Словокомплекс |
Частота |
|
|
корпус текстов |
174 |
|
|
национальный корпус |
93 |
|
|
корпусная лингвистика |
74 |
|
|
семантическая разметка |
54 |
|
|
морфологическая разметка |
43 |
|
|
корпусные данные |
31 |
|
|
разметка текста |
30 |
|
|
параллельный текст |
27 |
|
|
разметка корпуса |
25 |
|
|
параллельный корпус |
22 |
|
|
аннотировать корпус |
18 |
|
|
частота встречаемости |
17 |
|
|
разметить корпус |
16 |
|
|
текстовый корпус |
15 |
|
|
текстовой корпус |
14 |
|
|
агиографический текст |
13 |
|
|
корпус параллельных текстов |
13 |
|
|
материал корпуса |
13 |
|
|
разметить текст |
13 |
|
|
семантический фильтр |
13 |
|
|
синтаксическая разметка |
13 |
|
|
ключевое слово |
12 |
|
|
контекст употребления |
12 |
|
|
морфологическая разметка текстов |
11 |
|
|
частотный список |
11 |
|
|
электронная библиотека |
11 |
|
|
корпусное исследование |
10 |
|
|
окно сверки |
10 |
|
|
семантическая помета |
10 |
|
|
154
объем корпуса |
9 |
|
|
система разметки |
9 |
|
|
автоматическая разметка |
8 |
|
|
графическое слово |
8 |
|
|
корпус современных текстов |
8 |
|
|
лингвистический корпус |
8 |
|
|
морфологическая разметка текста |
8 |
|
|
параллельный корпус текстов |
8 |
|
|
пользовательский интерфейс |
8 |
|
|
контекстное окно |
7 |
|
|
лингвистическая разметка |
7 |
|
|
создание корпуса текстов |
7 |
|
|
использование корпусных данных |
6 |
|
|
пользователь корпуса |
6 |
|
|
ручная разметка |
6 |
|
|
диахронический корпус |
5 |
|
|
коллекция документов |
5 |
|
|
корпус стихотворных текстов |
5 |
|
|
обучающая выборка |
5 |
|
|
паспортизация текста |
5 |
|
|
репрезентативность корпуса |
5 |
|
|
собрание текстов |
5 |
|
|
создание национального корпуса |
5 |
|
|
автоматическая морфологическая разметка |
4 |
|
|
внешняя разметка |
4 |
|
|
корпус агиографических текстов |
4 |
|
|
корпус деловой прозы |
4 |
|
|
морфологический тег |
4 |
|
|
псевдопараллельный текст |
4 |
|
|
специальный корпус |
4 |
|
|
формирование корпуса |
4 |
|
|
характеристика корпуса |
4 |
|
|
электронный корпус |
4 |
|
|
155
язык семантической разметки |
4 |
|
|
Термин |
Частота |
|
|
корпус |
1233 |
|
|
разметка |
331 |
|
|
корпусный |
157 |
|
|
корпусной |
154 |
|
|
коллокация |
38 |
|
|
аннотирование |
33 |
|
|
лемматизация |
27 |
|
|
аннотация |
23 |
|
|
конкорданс |
23 |
|
|
паспортизация |
5 |
|
|
156
|
ПРИЛОЖЕНИЕ 3 |
|
Граммемы |
||
|
|
|
Attributes "pos" of the tag <ana> |
Attributes "gram" of the tag <ana> |
|
|
|
|
С – существительное, |
мр, жр, ср – мужской, женский, |
|
П – прилагательное, |
средний род; |
|
Г – глагол в личной форме, |
од, но – одушевленность, |
|
ПРИЧАСТИЕ – причастие; |
неодушевленность; |
|
ДЕЕПРИЧАСТИЕ – деепричастие, |
ед, мн – единственное, |
|
ИНФИНИТИВ – инфинитив, |
множественное число; |
|
МС – местоимение-существительное, |
им, рд, дт, вн, тв, пр, зв – падежи: |
|
МС-П – местоименное прилагательное, |
именительный, родительный, |
|
МС-ПРЕДК – местоимение- |
дательный, винительный, |
|
предикатив, |
творительный, предложный, |
|
ЧИСЛ – числительное |
звательный; |
|
(количественное), |
2 – второй родительный или второй |
|
ЧИСЛ-П – порядковое числительное, |
предложный падежи; |
|
|
св, нс – совершенный, |
|
|
несовершенный вид; |
|
|
пе, нп – переходный, непереходный |
|
|
глагол; |
|
|
дст, стр – действительный, |
|
|
страдательный залог; |
|
|
нст, прш, буд – настоящее, |
|
|
прошедшее, будущее время; |
|
|
|
|
Н – наречиие, |
пвл – повелительная форма глагола; |
|
ПРЕДК – предикатив, |
1л, 2л, 3л – первое, второе, третье |
|
ПРЕДЛ – предлог, |
лицо; |
|
СОЮЗ – союз, |
0 – неизменяемое. |
|
МЕЖД – междометие, |
кр – краткость (для прилагательных |
|
ЧАСТ – частица, |
и причастий). |
|
ВВОДН – вводное слово, |
сравн – сравнительная форма (для |
|
дфст – слово обычно не имеет |
прилагательных). |
|
множественного числа, |
имя, фам, отч – имя, фамилия, |
|
опч – частая опечатка или ошибка, |
отчество. |
|
жарг, арх, проф – жаргонизм, архаизм, |
лок, орг – локативность, |
|
профессионализм, |
организация. |
|
аббр – аббревиатура. |
кач – качественное прилагательное. |
|
|
|
|
157
ПРИЛОЖЕНИЕ 4
Британский национальный корпус: Основной набор тэгов
Ниже приведено краткое описание основного набора тэгов, используемого для аннотации класса слова в Британском Национальном Корпусе. Список извлечен из большего документа, A users‘ guide to the Grammatical Tagging of the BNC, с проектом которого можно ознакомиться на сайте BNC.
Каждый тэг состоит из трех характеристик. Первые две характеристики определяют общую часть речи, а третий используется, чтобы указать подкатегорию.
Кодировка грамматических признаков
AJ0 Прилагательное (например, good, old, beautiful)
AJC Сравнительное прилагательное (например, better, older)
AJS Прилагательное превосходной степени (например, best, oldest) AT0 Артикли (например, the, a)
AV0 Общее наречие: наречие, не подразделяемое классификацией как
AVP или AVQ (см. ниже) (например, often, well, longer (adv.), furthest)
AVP частица (например, up, off, out)
AVQ Wh-наречие (например, when, where, how, why, wherever)
CJC сочинительные союзы (например, and, or, but) CJS Подчинительные союзы (например, although, when) CJT Подчинительный союз that
CRD Количественные числительные (например, one, 3, fifty-five, 3609) DPS Притяжательное местоимение (например, your, their, his)
DT0 Общее притяжательное местоимение
DTQ вопросительные слова, начинающиеся на Wh (например, which, what, whose, whichever)
EX0 Местоимение there
ITJ Междометие или другое отдельное выражение (например, oh, yes, mhm, wow
NN0 Имя нарицательное, неисчисляемое (например, aircraft, data, committee)
NN1 Имя нарицательное в единственном числе (например, pencil, goose, time, relevation)
NN2 Имя нарицательное во множественном числе (например, pencils, geese, times, relevations)
NP0 Существительное, имя собственное (например, London, Michael, Mars, IBM)
ORD Порядковое числительное (например, first, sixth, 77th, last)
PNI Неопределенное местоимение (например, none, everything, one [as
158
pronoun], nobody)
PNP Личное местоимение (например, I, you, them, ours)
PNQ Wh-местоимение (например, who, whoever, whom)
PNX Притяжательное местоимение (например, myself, yourself, itself)
POS притяжательный маркер или маркер родительного падежа 's или ' (например, 'Peter's or somebody else's', последовательность признаков: NP0 POS
CJC PNI AV0 POS)
PRF предлог of. Из-за его частоты и его почти исключительной постноминальной функции, предлогу "of" назначен особый тэг.
PRP Предлоги (все кроме of) (например, about, at, in, on, on behalf of, with)
PUL Пунктуация: левая скобка [
PUR Пунктуация: правая скобка ] TO0 Инфинитивная частица to
VBB формы глагола БЫТЬ (to be) в настоящем времени, за исключением is, ' s: am, are, 'm, 're и be
VBD формы глагола, БЫТЬ (to be) в прошедшем времени (2-ая форма глагола): was и were
VBG форма глагола, БЫТЬ с окончанием "-ing": being VBI инфинитивная форма глагола, БЫТЬ: to be
VBN третья форма глагола БЫТЬ: been VDB глагол, ДЕЛАТЬ (do): do
VDD форма прошедшего времени глагола ДЕЛАТЬ: did VDG форма глагола ДЕЛАТЬ с окончанием "-ing": doing VDI инфинитивная форма глагола ДЕЛАТЬ: to do
VDN третья форма глагола ДЕЛАТЬ: done
VDZ форма с "-s" в конце глагола ДЕЛАТЬ: does, 's VHB инфинитивная форма глагола ИМЕТЬ: have, ‘ve VHD прошедшая форма глагола ИМЕТЬ: had, 'd
VHG форма глагола ИМЕТЬ с окончанием "-ing": having VHI инфинитивная форма глагола ИМЕТЬ: to have
VHN третья форма глагола ИМЕТЬ: had
VHZ глагол ИМЕТЬ в третьем лице единственном числе (-s): has, 's
VM0 Модальный вспомогательный глагол (например, will, would, can, could, 'll, 'd)
VVB глаголы с лексическим значением (например, forget, send, live, return)
VVD 2 и 3 формы глаголов с лексическим значением (например, forgot, sent, lived, returned)
VVG форма -ing для лексических глаголов (например, forgetting, sending, living, returning)
VVI инфинитивная форма для лексических глаголов (например, forget, send, live, return)
VVN причастие II лексических глаголов (3 форма глагола) (например, forgotten, sent, lived, returned)
VVZ форма -s лексических глаголов (наст. время; единств. число)
159
(например, forgets, sends, lives, returns)
XX0 отрицательная частица not или n't
ZZ0 Буквенные символы (например, A, a, B, b, c, d)
Коды, используемые для знаков пунктуации
PUL левая скобка (открывающая) «(» или «[»
PUN знаки пунктуации «.», «!», «,», «:», «;», «-», «?», «...» PUQ знак кавычек
PUR правая скобка «)» или «]»
160