Назад к книге

Введение в корпусную лингвистику

Михаил Копотев

Учебное пособие для студентов филологических и лингвистических специальностей университетов

Пособие содержит основные сведения о корпусной лингвистике – одном из самых популярных разделов современного языкознания, целью которого является создание и использование языковых корпусов в лингвистических исследованиях. В учебнике на доступном уровне рассматриваются основы данной предметной области, перечисляются основные корпуса разных языков, показываются возможности использования методов корпусной лингвистики, а также описан вклад корпусной лингвистики в лингвистическую теорию. Учебник предназначен для студентов филологических и лингвистических факультетов высших учебных заведений. Может быть использовано аспирантами и преподавателями смежных дисциплин.

Автор благодарит The Pygos Group. A HIT Entertainment company за разрешение использовать изображение Пингу и интернет-проект «ПостНаука» за разрешение использовать видеолекцию В. А. Плунгяна.

Михаил Копотев

Введение в корпусную лингвистику (Учебное пособие)

От автора

Вы читаете электронный учебник, который, скорее всего, никогда не будет издан на бумаге. Вероятно, он никогда не будет издан на бумаге. У такого решения есть два преимущества. Во-первых, корпусная лингвистика тесно связана с компьютером, интернетом и электронной обработкой текстов, поэтому она идеально подходит и для электронного формата обучения. Во-вторых, я надеюсь, что купить электронное издание легче и дешевле, чем бумажное. Цена на учебник символическая, примерно столько же вы бы потратили на поездку в книжный магазин. Тем не менее, эта книга не бесплатна: она стоила определенного труда мне и моим помощникам, и ваша поддержка позволит периодически выпускать обновления. Спасибо за то, что купили!

Я бесконечно благодарен моим друзьям и коллегам, помогавшим мне советом и добрым словом: Э. Клышинскому, С. Крылову, А. Кутузову, О. Невзоровой, Л. Пивоваровой, Е. Маркасовой, А. Теснеру, А. Левиту, С. Шарову, Е. Ягуновой… – сожалею, что не могу перечислить всех! Этот учебник не вышел бы в свет без деятельного участия нескольких людей. Моя безграничная признательность – профессору Хельсинкского университета Арто Мустайоки за его содержательные комментарии, а также за финансовую поддержку издания в рамках гранта «Создание частотной грамматики русского языка». Мой смиренный поклон Ольге Митрениной, доценту кафедры математической лингвистики Санкт-Петербургского университета, согласившейся стать вторым рецензентом и нещадно критиковавшей меня как за незнание предмета, так и за незнание правил русского языка. Моя благодарность Дарье Кормачёвой, моей аспирантке, выпускнице той же петербургской кафедры, за то, что она собрала библиографию, подготовила словарь и убедилась, что все задания выполнимы. Наконец, я благодарен двум людям, превратившим текст в книгу: редактору, сотруднику Института русского языка им. В. В. Виноградова Наталии Занегиной, убравшей все неточности, повторы и ошибки, и художнице Марии Заборовской, лаконично и ясно визуализировавшей мои многословные объяснения. Спасибо вам!

Естественно, все не замеченные ими ошибки остаются на моей совести, с которой можно связаться по адресу: mihail.kopotev@helsinki.fi (http://mailto:%20mihail.kopotev@helsinki.fi/).

Предисловие

Корпусная лингвистика – это лингвистика корпусов, то есть собраний текстов. Для начала такого «определения» вполне достаточно. Такое направление лингвистики существует чуть более полувека, а в России это, по сути, наука XXI века: ее активное развитие пришлось на самое начало третьего тысячелетия.

О «молодости» этой дисциплины говорит, в частности, неустойчивость ударения и морфологических форм самого термина корпус и его производных: корпусы – корпуса, корпусная – корпусная. По моим наблюдениям, в устной речи специалисты по корпусной лингвистике предпочитают говорить корпуса, корпусная. Письменная норма менее стабильна: в пяти русскоязычных сборниках по корпусной лингвистике встретилось 24 формы корпуса и 27 – корпусы.

Говоря о корпусной лингвистике, следует иметь в виду два ее направ