Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Булдакова - Компьютерная лексикография.docx
Скачиваний:
220
Добавлен:
26.03.2015
Размер:
58.24 Кб
Скачать

Преимущества компьютеризации в лексикографии очевидны: компьютер может быстро предоставить доступ к обширному слов­нику, цитатному материалу, быстро дать информацию о много­значном слове и т.д. Специальные компьютерные программы об­работки текста позволяют хранить и обрабатывать большие масси­вы словарной и текстовой информации, а также могут использо­ваться для создания одно- и многоязычных словарей, конкордан­сов, контекстологических и прочих современных словарей.

Актуальность вопросов развития компьютерной лексикогра­фии не вызывает сегодня сомнений. Растет социальная значимость словарей: ведь они не только фиксируют совокупность знаний, ко­торыми располагает современное общество, но и служат надеж­ным инструментом научного познания. За компьютерной лексико­графией большое будущее, и результатами разработок в этой об­ласти смогут пользоваться не только ученые-лингвисты, но и школьники, студенты, а также люди самых различных профессий.

Тема 1. Автоматизация лексикографии

Задачи, стоящие перед современной лингвистикой, выдвинули на первый план использование компьютерной техники для автома­тической обработки текстов. Здесь можно выделить такие направ­ления как лингвистическое обеспечение информационных систем разных типов; машинный перевод; разработка систем, понимаю­щих естественный язык (лингвистические задачи в системах ис­кусственного интеллекта); разработка систем использования ин­формации, содержащейся в звуковом речевом сигнале и др.

Внедрение электронно-вычислительной техники в различные отрасли науки и сферы жизнедеятельности человека способствует появлению новых направлений прикладной лингвистики. Ю.Н. Марчук уже в 1970-е годы писал о возможностях примене­ния компьютера для учебной лексикографии. Действительно, ком­пьютер может выполнять такие задачи, как упорядочение по алфа­виту введенных в него лексических единиц, приписывание каждой из них частоты встречаемости и многие более сложные работы, на которые лексикографам приходится затрачивать очень много вре­мени и труда. Задача использования современных компьютерных технологий в лексикографии остается по-прежнему актуальной и требует детального изучения. Современные вычислительные сред­ства дают возможность автоматизировать лексикографическую ра­боту практически на всех этапах - от выбора цитат до редактиро­вания словаря и его печати. Автоматизация рутинных процедур, широкое распространение компьютерных программ повышают производительность труда отдельного лексикографа. В результате этого в рамках лексикографии сформировалось новое направление - компьютерная лексикография, включающая в себя создание ав­томатических словарей, а также разработку программ поддержки лексикографических работ.

В научной литературе можно обнаружить ряд терминов для обозначения лексикографирования на машинных носителях: ком­пьютерная лексикография, вычислительная лексикография, ма­шинная лексикография, автоматическая лексикография и автомати­зированная лексикография. Термин «компьютерная лексикогра­фия» теперь наиболее употребим.

Компьютерная лексикография сегодня представляет собой: во- первых, быстро развивающуюся отрасль компьютерной индуст­рии, главным образом из-за того, что «ословаривание» научного знания является одним из основных способов его проявления и распространения; во-вторых, прикладную научную дисциплину в языкознании, изучающую методы, технологию и отдельные прие­мы использования компьютерной техники в теории и практике со­ставления словарей.

Компьютерная лексикография как таковая, подобно лексико­графии, может быть разделена на теоретическую и практическую. Первый раздел включает теорию компьютерной лексикографии и рассматривает такие темы, как типы компьютерных словарей, их конструирование, выработку правил компьютерного лексикогра­фирования и др. Второй раздел имеет дело непосредственно с практическим воплощением теоретических исследований, т.е. соз­данием компьютерных словарей и баз данных.

К основным направлениям компьютерной лексикографии можно отнести:

1) автоматическое получение из текста с помощью компью­терных средств различных словарей (частотных, терминологиче­ских, конкордансов и т.д:);

теоретические и практические аспекты составления компь­ютерных словарей для систем обработки естественного языка (Natural Language Processing);

  1. создание и эксплуатация словарей, являющихся машинными версиями традиционных словарей.

Первое и второе направления занимаются разработкой про­грамм поддержки лексикографических работ.

В лексикографической практике широко пользуются компью­терными технологиями обработки лексического материала. Такие технологии представляют собой алгоритмы осуществления опера­ций преобразования данных, которыми пользуется лексикограф в процессе своей деятельности. Основными компонентами компью­терной обработки текста являются компьютерные средства, вклю­чая сам компьютер и программное обеспечение, позволяющие вводить и запоминать текстовые данные, изменять их в процессе работы лексикографа и выводить результаты как в виде копий на традиционном бумажном носителе, так и в «электронном» виде на магнитных, магнитооптических и оптических (лазерных) носите­лях информации. Благодаря усовершенствованию инструментария практической лексикографии, создатели словарей теперь имеют возможность выбирать форму носителя своего произведения: тра­диционный бумажный или цифровой.

В настоящее время весьма актуальным является ввод на ма­шинные носители известных словарей и справочников и создание на их базе новых словарей. Перевод в машинную форму ранее опубликованных книжных словарей позволяет «разложить по по­лочкам» содержимое каждого из них. Только на этой основе и можно осуществить эффективный контроль полноты и последова­тельности заполнения полей в статьях словаря, а также эффектив­но использовать и контролировать информацию в последующей лексикографической работе над новыми версиями данного словаря (в том числе в виде получения различных аспектуальных проекций словаря, его конверсий и т.п.).

Одной из важных задач лексикографии является также созда­ние комплексных автоматизированных лексикографических сис­тем. Во-первых, это может быть объединение в едином программ­ном комплексе возможностей получения различных словарей по тексту (на основе использования лексических, морфологических, морфемных, фразеологических, синтаксических и иных анализа­торов) и подкачки этой информации в основной словарь, содержа­щийся в словарной подсистеме. Во-вторых, имеется в виду обрат­ное "опрокидывание" выбранных характеристик некоторого внеш­него словаря на лексический и иной материал текста с целью до­полнительной разметки текста и анализа полученных в нем соот­ношений различных типов разметки в интересах более глубокого проникновения в структуру и содержание текста. Все это дает воз­можность получения из компьютерного словаря разноаспектной информации.

Компьютерная лексикография является дисциплиной переход­ного периода - перехода от существовавшей в течение многих де­сятилетий традиционно ручной и рукописной лексикографической практики к новым безбумажным информационным технологиям. В среде профессионалов-лингвистов уже сейчас известно множество программных разработок для построения глоссариев, словников, словоуказателей, конкордансов и других профессиональных ком­понент результатов лексикографической деятельности.

В Санкт-Петербурге в 2006 году была образована Лаборатория компьютерной лексикографии Института филологических иссле­дований Санкт-Петербургского государственного университета. Лаборатория занимается созданием фундаментальных и аспектных словарей современного русского языка, созданием словника, со­ставлением базы данных. В Лаборатории проходят регулярные се­минары, посвященные обсуждению наиболее сложных и нерешен­ных теоретических задач лексикографии и текущих практических трудностей. Активную работу в области компьютерной лексико­графии также проводят Лаборатория общей и компьютерной лек­сикологии и лексикографии филологического факультета МГУ им. М.В. Ломоносова. Лаборатория компьютерной лингвистики Института проблем передачи информации Российской академии наук и многие другие организации по всей России.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]