Компьютерный корпус текстов русских газет конца XX-ого века
Подготовка корпуса и его Интернет-версии осуществлено на основе исследования при финансовой поддержке Российского фонда фундаментальных исследований - РФФИ (гранты РФФИ № 01-07-90386 и № 02-06-80435 ).
Введение.
Создатели Корпуса
Создание корпуса, его анализ, категоризация, исследование и разработка Интернет-варианта выполнены в лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета МГУ при финансовой поддержке Российского фонда фундаментальных исследований - РФФИ (гранты РФФИ № 01-07-90386 и № 02-06-80435) в 1999-2002-ом гг.
Кукушкина О. В. - участие в разработке рабочего проекта корпуса, создание и ведение морфологической и других баз данных по корпусу, автоматический морфологический, лексико-грамматический и лексико-семантический анализ единиц текстов корпуса.
Савчук С. О. - жанровый анализ текстов.
Виноградова В. Б. - жанровый анализ текстов.
Пирятинская Е. Ф. - морфемный анализ лексики.
Хмелев Д. В. - создание оболочки СУК (системы управления корпусами).
Варламов А. А. - адаптация оболочки и поддержка Интернет-варианта корпуса.
Токтонов А. Г. - анализ новой лексики.
Источники материала корпуса.
Источником Корпуса послужили текстовые файлы русскоязычных российских газет, накапливаемые в информационной системе фирмы Интегрум-Техно. Благодарим руководство фирмы за ценный материал, представленный нам в 1997 г.
Финансирование работ по созданию Корпуса.
Создание корпуса осуществлено при финансовой поддержке Российского фонда фундаментальных исследований - РФФИ (гранты РФФИ № 01-07-90386 и № 02-06-80435) в 1999-2002-ом гг.
1. Системный подход и корпусная лингвистика.
Для развития современной лингвистики и науки в целом характерным является системный подход [ Мельников, 1978; Mel’nikov, 1988 ]. Этот подход заключается в видении своего объекта как специфической целостности. Этот подход требует в эмпирическом, экспериментальном плане иметь дело не с произвольными выборками, а с полным объемом данных об изучаемом объекте. Только сплошной, без субъективного изъятия анализ материала позволяет получить полную, системную картину состояния изучаемого объекта. Если же приходится ограничиваться теми или иными выборками из общей совокупности данных об изучаемом объекте, то эти выборки должны удовлетворять как универсально-статистическим критериям достаточности и надежности, так и специально-предметным критериям качественной представительности выборки для объекта, разнообразно представленного во времени и пространстве.
Таковым объектом, обширно распределенным во времени и пространстве и является тот или иной национальный язык, постоянно развивающийся и представленный колоссальным разнообразием случаев его употребления в виде текстов, построенных в разных условиях и с разными целями.
Средством организации материала текстов той или иной сферы данного языка для его системного анализа и объективного представления является создание корпусов текстов, представительных для той или иной сферы.
Корпус текстов – это не просто коллекция отобранных по определённой методике и представленных в электронном виде текстов определённых сфер употребления языка (подобных коллекций существует сейчас великое множество), но такая коллекция, которая категоризована как со стороны интегральных характеристик каждого текста (например, жанровых), так и со стороны специфических характеристик различных единиц его организации (лексемы, словоформы, морфемы и т. п.) Подобная характеризация позволяет вести развёрнутый анализ различного рода зависимостей в текстах некоторой области. Кроме того, подобная коллекция должна быть организована в виде некоторой базы данных. Это облегчает её практическое использование и научный анализ.
Здесь представлен газетный корпус современного русского языка и его начальный лингвистический анализ. В равной мере на этом материале могут рассматриваться вопросы современной политической истории, социологии, социальной психологии, контент-анализа, теории рекламы и др. Основой для этого являются те словари, индексы и конкордансы, которые строятся из материала Корпуса с использованием специализированного программного инструментария.
2. Общая характеристика Компьютерного корпуса газетных текстов современного русского языка.
Ниже представлены некоторые результаты работы по созданию, категоризации и анализу "Компьютерного корпуса газетных текстов русского языка конца 20-го века", подготовленного в течение 2000 - 2002-ого гг. в Лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета МГУ по грантам РФФИ 00-07-90007 и 01-07-90386. В ходе выполнения данного проекта реализована серия основных задач построения и анализа базы данных газетного материала в интересах получения объективной картины состояния современного русского газетного языка (а отчасти и картины состояния всего языка в целом, если иметь в виду то, что в наборе газетных жанров присутствуют многие жанры других родов словесности). Для этого был осуществлен подбор обширного газетного материала для корпуса (тексты общим объемом более 11 млн. словоупотреблений) на основе принципов включения в него полных номеров 13 российских газет на русском языке за отдельные даты 1994-1997-ого гг. представленности в нем ежедневных и неежедневных (МН, Новая газета), "левых" (Завтра, Правда, Правда-5) и "правых", центральных и местных, общих и профессионально ориентированных (Литературная газета) газет. Эти принципы позволяют получить относительно объективную и надежную картину соотношения в газетном материале текстов различного типа, (например, различных жанров и жанровых типов) их единиц и отношений между ними. В том числе, это обеспечивает возможность анализа в дальнейшем не только общих для всего газетного языка характеристик, но и возможность анализа жанровой специфики представленности в нем лексико-фразеологической, грамматической и иной информации.
Корпус создан, анализируется и управляется на основе системы Диктум-1 (разработанной в Лаборатории общей и компьютерной лексикологии и лексикографии МГУ). С помощью этой системы тексты и единицы корпуса автоматически и полуавтоматически маркируются различного рода маркерами: тексты (и, соответственно, каждое их словоупотребление) - маркерами газеты-источника, объема текста, его жанра, даты публикации и т. п.; словоупотребления - маркерами грамматических, лексических, морфемных и иных категорий.
В составе всего газетного корпуса находится часть, которая исторически раньше всего была сформирована и была более подробно охарактеризована со стороны квалификации лексем и словоформ, реализуемых в ее текстах. Эту часть мы называем Ядерный газетный корпус. Объем Ядерного корпуса – ок. 1 млн. 350 тыс. словоупотреблений.
При подготовке демонстрационного варианта корпуса для Интернета был выделен из Ядерного корпуса его фрагмент общим объемом более 200тыс. словоупотреблений). Его единицы охарактеризованы наиболее подробно (см. ниже).
Общая картина источникового устройства Компьютерного корпуса русских газет выглядит следующим образом. Всего в корпусе 23110 текстов по полным номерам 13-ти разных российских газет на русском языке.
Ниже приводится Таблица 1 по объемным характеристикам разных привлеченных газет, представленных в Корпусе.
Таблица 1
Соотношение источников по их объёмам в Компьютерном корпусе текстов газет русского языка