- •26. Лингвистические модели (теории) переводческой деятельности.
- •27. Специфика перевода текстов разных функциональных стилей.
- •29. Информационный поиск. Ипс, их типы, использование. Лингвистические основы разработки и функционирования ипс.
- •30. Контент-анализ, его идеология, основные понятия, использование.
30. Контент-анализ, его идеология, основные понятия, использование.
Баранов.
Первые опыты использования количественных методов, близких к контент-аналитическим, относятся к концу XIX в. Именно тогда стало ощущаться влияние средств массовой информации — и особенно газет — на общество. В США по заказам некоторых общественных организаций и университетов был проведен ряд исследований тематики газетных статей. Тематика определялась на основе количественного анализа лексики. Общий вывод заключался в том, что пресса отдает предпочтение уголовной хронике, скандалам, сплетням и спорту, практически игнорируя сферу религии, науки и искусства [Speed 1893]. В 20-30-х гг. XX в. в США по текстам прессы отрабатываются техники изучения общественного мнения. В центре внимания контент-аналитических исследований оказываются более сложные категории, такие как установки, стереотипы, ценности.
Лассуэлл, с именем которого связывают существенный прогресс в технике контент-анализа, провел исследование основных тем и идей, превалировавших в официальной пропаганде стран-участников Первой мировой войны [Lasswell, Leites 1949; Lasswell 1952]. Во время Второй мировой войны контент-анализ стал составной частью оборонной политики. Эксперты лондонского радио проводили методом контент-анализа регулярный мониторинг текстов нацистской пропаганды в средствах массовой информации. Это позволило им выявить типичные последовательности действий министерства пропаганды, связанные с обоснованием тех или иных политических и военных акций. В результате аналитиками были предсказаны некоторые важные события в политической и военной сферах. Изучение документов агентства Transocean в США с использованием методов контент-анализа позволило разоблачить его сотрудников как нацистских агентов [Grawitz 1996, р. 550-582].
Рассмотрим методику контент-анализа с лингвистической точки зрения. Рациональность такого подхода объясняется тем, что по сути контент-анализ использует чисто лингвистическую информацию о характеристиках текста и пытается выявить его семантические особенности. Сущность контент-анализа заключается в том, чтобы по внешним — количественным — характеристикам текста на уровне слов и словосочетаний сделать правдоподобные предположения о его плане содержания и, как следствие, сделать выводы об особенностях мышления и сознания автора текста — его намерениях, установках, желаниях, ценностных ориентациях и т. д. Для литературного текста может быть поставлена задача изучения особенностей изображения представленных в нем персонажей. Если количество привлекаемых текстов и авторов достаточно велико, то сделанные выводы могут быть распространены на большую социально значимую группу людей и даже на общественное сознание в целом. Конечно, оценка мышления вряд ли относится к собственно лингвистической проблематике, впрочем, такие задачи, как изучение идиолекта писателя, вполне рядоположены исследованию особенностей мышления.
Важнейшей категорией контент-анализа является концептуальная переменная — понятие, которое стоит в центре проводимого исследования. Например, концептуальной переменной (К-переменной) могут быть такие категории, как «СВОЙ-ЧУЖОЙ», «ДЕМОКРАТИЯ», «ПРАВА ЧЕЛОВЕКА», «ЖЕНСКИЙ ВОПРОС», «МАТЕРИАЛЬНОЕ БЛАГОПОЛУЧИЕ». В конкретном тексте концептуальная переменная представлена своими значениями — языковыми представителями. Так, концептуальная категория «СВОЙ—ЧУЖОЙ» в текстах может иметь следующие значения: мой, наш, мы, я, привычный, знакомый, близкий vs. их, его, ее, он, она, оно, они, их, ее, его, непривычный, дальний, незнакомый. С другой стороны, концептуальная переменная «ДЕМОКРАТИЯ» может быть представлена в текстах следующими языковыми коррелятами: демократия, демократический, демократично, демократический выбор, власть народа, народовластие, выборность, возможность выбора, разделение властей.
Абсолютная частота концептуальной переменной определяется как совокупность абсолютных частот ее значений (языковых репрезентантов). Отсюда следует, что для правильности контент-анализа очень важно определить весь список значений, иначе будут пропущены некоторые вхождения концептуальной переменной и результаты исследования будут неточны.
Этапы подготовки и проведения эксперимента. Первый этап подготовки эксперимента заключается в выборе материала — корпуса языковых данных. Классический для контент-анализа пример корпуса данных — газетные публикации за определенный период времени или программы политических партий в разные периоды существования партий. Как правило, структура корпуса данных и отбор материала тесно связаны с самой постановкой задачи исследования. Например, если предметом исследования являются языковые и стилистические особенности русского рассказа XIX в., то и создаваемый корпус должен охватывать соответствующие литературные тексты того времени. Для формирования корпуса можно использовать принципы, разработанные в корпусной лингвистике — см. §3 главы 3.
Второй этап — выбор концептуальной переменной и определение ее значений — языковых репрезентантов выбранного понятия в тексте. Если значения К-переменной можно выявить в предварительном эксперименте на незначительном количестве материала (для часто исследуемых проблемных областей в социальных науках и политологии разработаны специальные словари-тезаурусы значений наиболее очевидных К-перемен-ных), то выбор самой К-переменной остается нетривиальной проблемой. Один из наиболее частых подводных камней при выборе К-переменной — это корреляция между частотой и значимостью, а также постулат о равнозначности вхождения значений К-переменной. Если эта корреляция отсутствует или одно вхождение (группа вхождений) перевешивает по значимости другие вхождения, то контент-анализ в классическом варианте неприменим. Например, если известно, что Эйзенхауэр, уходя со своего поста, произнес известную речь об опасности военно-промышленного комплекса, то любые контент-аналитические выкладки в связи с К-переменной «ВОЕННО-ПРОМЫШЛЕННЫЙ КОМПЛЕКС» не будут иметь никакого смысла по отношению к предшествующим выступлениям Эйзенхауэра, даже если бы они все были и позитивные или существенно превосходили отрицательные оценки. Иными словами, если исследователя интересует отношение данного политика к проблемам обороны и военного строительства, то в данном случае он должен выбрать другую переменную, например «АРМИЯ», «ВООРУЖЕННЫЕ СИЛЫ» и пр.
Третий этап — выбор единицы кодирования. Значения К-переменной могут приписываться текстам, их фрагментам, абзацам, предложениям и отдельным словам и словосочетаниям. Выбор единицы кодирования зависит от объема и характера корпуса данных и от типа контент-анализа. Если корпус данных — заголовки статей, то выбор единицы кодирования предопределен. С другой стороны, чем больше корпус данных, тем крупнее могут быть единицы кодирования. Для ручного контент-анализа зависимость единицы кодирования от объема корпуса очевидна. Если корпус насчитывает тысячи статей, а кодировщиков — два-три человека, то выбор в качестве единицы кодирования одной статьи вполне оправдан. Учитывается также и объем единиц хранения корпуса. Если корпус состоит из относительно небольших заметок, то опять-таки они и могут стать единицами кодирования.
Отбор кодировщиков и формулировка инструкций по кодированию образуют четвертый этап подготовки эксперимента. Ручной контент-анализ требует точной формулировки инструкций. Кодировщиков может быть несколько и они должны руководствоваться едиными принципами кодирования. Часто для обеспечения единообразия кодирования между кодировщиками и руководителями эксперимента проводятся семинары, позволяющие всем участникам уточнить и унифицировать принципы обработки материала. При компьютерном контент-анализе подготовка инструкций практически заменяется перечислением языковых форм выбранных значений К-переменной. Общие принципы кодировки задают два вида контент-анализа — жесткий и мягкий. При жестком варианте инструкции формулируются таким образом, что кодируются только явные вхождения К-переменной в текст, то есть только тогда, когда в тексте эксплицитно представлено одно из значений К-переменной. При мягком варианте контент-анализа инструкции позволяют кодировщику кодировать не только явные, но и неявные, имплицитные вхождения К-переменной и текст. Это допустимо в тех случаях, когда трудно исчислить все значения К-переменной. Например, К-переменная «ПРАВА ЧЕЛОВЕКА» может реализоваться и в тексте о правилах техники безопасности на производстве. Предсказать такие значения К-переменной довольно трудно. Понятно, что компьютерный контент-анализ пока используется только как средство жесткого контент-анализа. Использование разрабатываемых в настоящее время интеллектуальных процессоров может в перспективе изменить ситуацию.
На пятом этапе происходит кодировка данных. И, наконец, на шестом этапе осуществляется подсчет данных и интерпретация результатов. Для обработки результатов часто используются сложные статистические методы анализа, в том числе факторный и кластерный анализ.
Факторы контроля качества эксперимента. В теории контент-анализа уделяется большое внимание обеспечению адекватности и точности проведения эксперимента. Для подготовки экспериментов и оценки их результатов учитываются факторы надежности (reliability) и достоверности/обоснованности (validity). Фактор надежности проявляется в трех основных формах — стабильности, повторяемости и тщательности (accuracy). Стабильность — самая слабая форма надежности. Она определяется тем, насколько один и тот же кодировщик через некоторое время после первой кодировки так же сможет обработать данные. Понятно, что для компьютерной версии контент-анализа эта характеристика надежности выполняется постольку, поскольку не меняется программа кодировки. Повторяемость является более сильной формой надежности, она характеризует возможность получения тех же результатов разными кодировщиками в разное время и в разных ситуациях по тем же инструкциям. Если разные кодировщики в разное время похожим образом кодируют одни и те же данные, используя одинаковые инструкции, то повторяемость эксперимента достаточно велика. Самой сильной формой надежности является тщательность, под которой понимается соответствие некоторой норме кодирования, выработанной экспертами. В элементарном случае тщательность проявляется в следовании выработанным инструкциям.
Фактор достоверности/обоснованности проявляется во многих разнообразных формах. Одна из них — семантическая достоверность — определяется тем, насколько инструкции кодировщику учитывают многозначность языковых выражений, являющихся значениями К-переменной. Так, при проведении контент-анализа на К-переменную «ВОЙНА-МИР» (по отношению к межгосударственным связям) инструкция кодирования, учитывающая фактор семантической достоверности, должна делать различие между значениями слова война, отсеивая употребления типа (1).
(1) После этого тихо тлевшая война перешла в открытые боевые действия. «Мослифт» полностью перестал обращаться на тот самый завод, чьи технологии — капельная пропитка статоров, централизованная нарезка канатов с обваркой концов, автоматизированная очистка редукторов главного привода и тому подобные лифтовые премудрости, — существенно улучшают качество ремонта.
[«Известия»]
Для достижения семантической достоверности в компьютерном контент-анализе широко используется метод Key-Word-In-Context, сводящийся к построению конкордансов на каждое из значений К-переменной. Эксперт (иногда в интерактивном режиме) помогает компьютерной программе и отбрасывает те контексты, в которых языковой репрезентант К-переменной употребляется не в том значении, которое нужно.
Семантическая достоверность может быть усилена и в том случае, если в качестве концептуальной переменной и ее репрезентантов выступает не одно слово, а словосочетание, более точно указывающее на сферу поиска. Например, в только что рассмотренном случае К-переменную «ВОЙНА-МИР» (по отношению к межгосударственным связям) можно переформулировать в виде «МЕЖГОСУДАРСТВЕННЫЙ КОНФЛИКТ» или «ПРОБЛЕМЫ В МЕЖДУНАРОДНЫХ ОТНОШЕНИЯХ» со значениями типа кризис в межгосударственных отношениях, международный конфликт/международные конфликты, напряженность в отношениях между странами X и Y и т. п. В литературе это иногда не вполне удачно называется введением темы [Мангейм, Рич 1999, с. 274, 275].
Еще одна форма достоверности — достоверность отбора данных (sampling validity) — относится к формированию корпуса данных. Выборка данных для кодирования должна быть репрезентативна для проблемной области. В контент-анализе для отбора данных часто используется метод случайной выборки, а также метод стратификационной выборки. В последнем случае проблемная область разбивается по релевантным параметрам и на каждое значение параметра подбирается пример. Наконец, для некоторых типов данных, характеризующихся регулярностью, привлекается систематический отбор. Анализ объявлений о найме жилья предполагает сплошной отбор материала из определенных изданий за фиксированный промежуток времени. В принципе, здесь могут использоваться те же критерии репрезентативности, которые разрабатывались в корпусной лингвистике — см. § 3 главы 3. Другим аспектом достоверности отбора данных является отбор единицы кодирования, которая может определяться самим кодировщиком или диктоваться структурой данных.
Прагматическая достоверность или достоверность предсказания, будучи довольно сильной формой фактора достоверности, характеризует возможность распространения выбранного метода и/или результатов на другие данные.
Виды контент-анализа. Выше уже говорилось о том, что в зависимости от принципов кодировки контент-анализ может быть жесткий и мягкий. Выделяется также содержательный и структурный контент-анализ. Контент-анализ, основанный на выделении концептуальной переменной и исследовании ее значений (репрезентантов) в тексте, называется содержательным. Возможен и другой вариант контент-анализа, при котором также предполагается выделение концептуальной переменной, однако ее репрезентанты изучаются с точки зрения формы. Например, К-переменная «ВЫБОРЫ ПРЕЗИДЕНТА РОССИИ» может анализироваться с точки зрения того, сколько места посвящалось тому или иному кандидату в средствах массовой информации — страниц, колонок в статьях, статей, количество появлений на телевидении; были ли фотографии кандидата в прессе или нет, были ли какие-нибудь другие иллюстрации, на каких полосах газет, журналов появлялись сообщения о кандидате и пр. Такой контент-анализ получил название структурного. За единицу анализа в этом случае принимается «материал о кандидате» или «сообщение о кандидате», которое может определяться как любое газетное сообщение о кандидате или любое его упоминание в новостных, информационных и общеполитических передачах на телевидении.
Структурный контент-анализ по сравнению с содержательным более прост в разработке и проведении, однако он дает не окончательный результат, а полуфабрикат, который требует дальнейшего изучения и содержательной интерпретации.
КОНТЕНТ-АНАЛИЗ, количественный анализа текстов и текстовых массивов с целью последующей содержательной интерпретации выявленных числовых закономерностей.
Наиболее широкое распространение контент-анализ получил в теории массовой коммуникации, политологии и социологии.
ТИПЫ ИНФОРМАЦИОННЫХ МАССИВОВ И ЕДИНИЦЫ КОНТЕНТ-АНАЛИЗА
Идея контент-анализа предполагает анализ больших информационных массивов.
Конкретное разнообразие единиц контент-анализа практически безгранично, однако среди них можно выделить несколько основных типов. (Классификация, приводимая ниже, построена с учетом типологии К.Криппендорфа, однако отличается от нее весьма существенно.)
А. «Физические» единицы. Под таковыми понимаются сущности с четко очерченными физическими, геометрическими или временными границами, как, скажем, экземпляры книги, номера газет, экземпляры плакатов или листовок, фотографии и т.п. Идентификация и подсчет их не составляют особого труда, однако необходимость в таком подсчете возникает достаточно редко; подсчет, скажем, листовок или книг чаще всего осуществляется с целью оценки представленности какой-то тематики или оценки, т.е. реально используются единицы других, характеризуемых ниже типов единиц – обычно концептуальных, пропозициональных или тематических.
Б. Структурно-семиотические единицы. Под таковыми имеются в виду основные элементы семиотических систем. В случае естественного языка это:
– лексика языка (слова и их эквиваленты, например выражение железная дорога или термин контент-анализ, т.е. то, что фиксируется в словарях) и
– грамматические показатели (например, отрицательные частицы или показатели таких категорий, как, скажем, отглагольные имена).
Количественный подсчет встречаемости слов в тексте – это, пожалуй, самый простой вариант контент-анализа, который, однако, зачастую способен давать небезынтересные результаты. Чаще всего, конечно, подсчитываются «интересные», или «ключевые» слова и/или словосочетания.
Контент-анализ грамматических категорий представляет собой достаточно редкое исследовательское начинание, стимулом к которому является гипотеза (весьма правдоподобная) о том, что употребление грамматических форм в меньшей степени, чем употребление лексики, контролируется автором текста и поэтому может послужить источником таких сведений о нем, которые он сам вовсе не собирался делать доступными своим читателям. В политической психологии существует специальная исследовательская методика, так называемый анализ когнитивной сложности, которая на основе фактически контент-аналитической процедуры позволяет делать выводы о том, насколько простым (или, напротив, сложным) является видение политической ситуации автором текста и как оно меняется со временем.
В. Понятийно-тематические единицы. В большинстве случаев контент-аналитик интересуется не словами как таковыми и тем более не грамматическими категориями, а стоящими за словами значимыми для него понятиями, темами, проблемами – иными словами, тем, что можно назвать понятийно-тематическими единицами. Интересующийся отношением общественного сознания к каким-то реалиям должен принимать во внимание самый широкий спектр позитивных, негативных и некоторых более конкретных оценок, которые могут быть даны этим реалиям, причем эти оценки вовсе не обязательно должны присутствовать в виде оценочных суждений.
Г. Референциальные и квазиреференциальные единицы. К референциальным, точнее, конкретно-референциальным единицам относятся обозначения реальных личностей (как современных, так и исторических деятелей), событий, городов, стран, организаций и т.д.; это, так сказать, «энциклопедический» блок единиц анализа. Этот блок, особенно в части персоналий, весьма важен и диагностичен, поскольку позволяет определять личностные рейтинги и, что не менее существенно, оценивать идеологические системы с точки зрения присутствующих в них референтных «знаковых» фигур, своего рода «идеологических героев».
Д. Пропозициональные единицы и оценки. Их примеры приводились выше – Карфаген должен быть разрушен или Россия задыхается без инвестиций. Собственно говоря, это примеры высказываний, в основе которых лежат пропозиции – описания конкретных положений дел (ситуаций) безотносительно к их модальности (в первом примере – требование, во втором – констатация). Наряду с пропозициями для контент-анализа могут представлять (и очень часто представляют) большой интерес оценки (Это очень опасное решение). С логической точки зрения они обладают важными отличиями от пропозиций, однако для целей контент-анализа как собственно пропозиция, так и оценка могут рассматриваться как результат связывания некоторого объекта с некоторым атрибутом. Изучение динамики оценочных суждений, высказываемых в адрес тех или иных лиц, событий, институтов, – весьма распространенный тип контент-аналитического исследования.
Е. Макроструктурные единицы. Под макроструктурными единицами понимаются достаточно сложные понятийные конструкции, образующие «верхние этажи» человеческих представлений о мире и, в частности, идеологических систем. Эти конструкции, как правило, носят характер сценариев и описывают стереотипные модели развития, с которыми сопряжены ожидания будущего, соображения о прошлом, эмоциональные ассоциации и т.д. Часто эти конструкции имеют литературные или фольклорные прототипы, что отражается в их названиях. Все они в очень сильной степени претендуют на объяснение действительности.
Ж. Единицы, представляющие результаты концептуальных операций. Их довольно много, однако наибольший интерес для контент-анализа представляют метафоры, примеры и аналогии, которые в общем плане уже были охарактеризованы выше.
И. «Поэтические» единицы. Под таковыми имеются в виду допускающие количественное измерение средства художественной выразительности – например, каламбуров, аллитераций и т.п.
ЧАСТОТНЫЕ И СИСТЕМНЫЕ ХАРАКТЕРИСТИКИ В КОНТЕНТ-АНАЛИЗЕ
Единицы, категории и признаки. Контент-аналитик занимается количественным анализом качественных категорий. Но этим дело не исчерпывается. Во многих контент-аналитических проектах осуществляется не только оценка степени представленности в тексте тех или иных единиц, но и одновременная оценка этих единиц по тем или иным градуированным качественным шкалам.
«Фронтальный» и «рейдовый» контент-анализ. Задачей фронтального контент-аналитического исследования является составление максимально более полного представления об информационном потоке – либо на моментальном срезе, либо на протяжении некоторого периода с целью оценки динамики. Это, так сказать, попытка получить объективизированный ответ на вопрос «Что пишут?» Единицы такого анализа в принципе могут быть любыми, но чаще всего в таковом качестве выступают либо тематические единицы, либо ключевые слова, реже оценки и пропозиции и еще реже макроструктурные единицы.
Такой анализ обычно носит сугубо прикладной характер и ведется в режиме мониторинга. Поскольку целью его является составление общего представления о содержании СМИ и через него – об общественном сознании, он должен в идеале стремиться к возможно более широкому охвату информационного потока. На практике, однако, полный охват чаще всего бывает невозможен, да зачастую и не нужен. Тем самым на повестку дня контент-аналитического исследования встает проблема составления репрезентативной выборки.
Рейдовый анализ, в противоположность фронтальному, ориентирован на решение частных и порой довольно экзотических задач, вытекающих, как правило, из каких-то скорее исследовательских, нежели прикладных интересов, и применительно к нему проблема выборки решается в связи формулировкой этих исследовательских целей и определением единиц анализа. Обоснование выборки при этом производится с учетом стандартных социологических критериев, но может допускать и их нарушение; важно лишь, чтобы факт этого нарушения осознавался и необходимость нарушения специальным образом обосновывалась.
Обработка, презентация и интерпретация результатов. Кодирование данных при контент-анализе обычно осуществляется с помощью достаточно простых анкет или компьютерных программ, в которых фиксируется каждое появление в анализируемом тексте искомой единицы. Такие данные могут быть представлены с помощью разнообразных графических средств – диаграмм, графиков и т.д., обеспечивающих наглядность.
Наглядность, следует заметить, важна не только для аналитика: наглядная диаграмма или впечатляющий график обладают большим потенциалом воздействия.
Квантификация данных, естественно, создает необходимые предпосылки для применения к ним средств математического анализа.
Содержательная интерпретация результатов зависит от целей анализа; она является прежде всего творческим актом, результаты которого во многом предопределены политологической квалификацией и интуицией аналитиков.