Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
СулеймановСтатья Татфак ИФИ.doc
Скачиваний:
1
Добавлен:
14.11.2019
Размер:
151.04 Кб
Скачать

О потенциале татарского языка для создания новых технологий обработки информации1

Д.Ш. Сулейманов

Институт филологии и искусств, Академия наук рт

Абстракт

В статье изложен ряд результатов исследования лексико-грамматических признаков татарского языка, представляющий определенный методологический и практический интерес для создания программных средств эффективной обработки естественно-языковой информации.

Ключевые слова технологический аспект естественных языков (ея), аффиксальные морфемы, морофтактика, активность знаний,морфологический эллипсис, рекурсия.

Введение

Такие задачи, как компьютерная обработка больших массивов ЕЯ-текстов, ЕЯ-диалог с системой, создание больших банков информации на основе ЕЯ, разработка языков посредников в многоязычной информационной среде приобретают особую актуальность в связи с развитием глобальных компьютерных сетей и формированием больших объемов распределенных данных.

Современные средства накопления и обработки знаний на естественном языке малоэффективны и практически не справляются с такими задачами, как релевантный поиск в распределенных базах данных, извлечение знаний, семантический анализ текстовой информации, прежде всего потому, что они изначально являются неинтеллектуальными, созданы на основе примитивных искусственных языков программирования, практически представляющих собой подмножество флективно-аналитических языков или искусственных конструкций, созданных на их основе.

В связи с этим перспективным представляется разработка нового программного инструментария путем исследования и выявления естественных лексико-грамматических (лексических, морфологических, синтаксических, семантических) конструкций в различных языках, достаточно регулярных и обладающих естественной сложностью, в целях создания на их основе искусственных языков нового поколения. Такие исследования особенно актуальны для тюркских языков, которые характеризуются достаточно сложной и, одновременно, практически регулярной морфологией, позволяющей в одной словоформе закодировать практически целую субъектно-предикативную ситуацию, описываемую в флективно-аналитических языках несколькими предложениями.

Очевидно, наиболее продуктивным представляется исследование естественных языков в следующих трех аспектах: когнитивный, коммуникативный и технологический. Когнитивный аспект языка – это характеристика естественного языка с точки зрения концептуализации действительности, возможностей описания на этом языке картины (модели) мира, эксплицитного представления знаний. Коммуникативный аспект языка отражает потенциал естественного языка для кодирования, приема и передачи, организации диалога. Технологический аспект естественного языка определяет формальный и концептуальный потенциал языка для реализации средств эффективной обработки, адекватного описания и компактного хранения информации на данном языке, создания эргономичных технических средств и технологий, учитывающих специфику языка (например, частотность букв алфавита при разработке клавиатуры), а также для разработки интеллектуального программного инструментария, программных средств, включая операционные системы. Очевидно, в основе искусственных языков и систем программирования лежат глубинные структуры, соответственно, ментальность естественного языка и, таким образом, эти системы реализуют описательный и вычислительный потенциал соответствующего естественного языка.

Как известно, для систем обработки знаний важными и определяющими их эффективность и интеллектуальность являются следующие характеристики: 1) время обработки информации; 2) память для хранения информации; 3) наличие средств «сжатия» информации, ее компактного хранения; 4) возможность кодирования и обработки нечеткой информации; 5) активность знаний. Причем, первые три параметра определяют эффективность, а параметры 4-5 определяют интеллектуальность систем и технологий.

В нашей статье описываются исследования технологического аспекта татарского языка и раскрывается ряд признаков, определяющих эффективность лексико-грамматической модели татарского языка с точки зрения создания интеллектуальных систем обработки информации.