- •Оглавление
- •Краткое описание предприятия
- •Описание отдела, должностные обязанности
- •Описание сути проекта, в рамках которого студент проходил производственную практику
- •Описание выполнения работ по производственной практике
- •Информационно-аналитические системы
- •Применение
- •Типовые задачи, выполняемые иас:
- •Индивидуальные особенности систем:
- •Поиск и неструктурированные данные
- •Проблемы uda
- •Сводная информация о системах
- •Детальное описание систем
- •Задачи, выполняемые иас «Астарта»:
- •Особенности системы:
- •Вместе с иас Астарта могут быть приобретены услуги:
- •Задачи, выполняемые иас «Аналитический курьер»:
- •Архитектура программного комплекса
- •Заявленные возможности системы
- •Задачи, выполняемые иас «Семантический архив»:
- •Заключение по производственной практике.
Типовые задачи, выполняемые иас:
сбор информации из таких источников как: печатные документы, интернет сайты, новостные ленты и т.д.;
автоматическое определение тематики документов, т.е. автоматическое отнесение документа к тем или иным рубрикам предварительно введенного рубрикатора;
формирование широкого спектра информационных отчетов (дайджестов) по разнообразным критериям, при этом стиль представления отчетов определяется пользователем;
публикацию документов, предназначенных для общего пользования;
просмотр и редактирование документов;
поиск документов;
разграничение прав доступа;
инструментарий для администрирования.
Индивидуальные особенности систем:
автоматическое обучение рубрикатора, т.е. автоматическое построение списка терминов и понятий, определяющих принадлежность документа к рубрике;
возможность корректирования и расширения списка терминов и понятий;
настройка пользователем способа автоматической рубрикации документов;
автоматическое слежение за директориями, указанными пользователем;
автоматическое слежение за публикацией свежих новостей на информационных сайтах в Интернет с указанием частоты или расписания опросов;
наличие встроенного редактора, позволяющего пользователю подключать новые, интересующие его сайты;
автоматическая работа с новостными лентами с разрезанием их на отдельные документы;
встроенная система оптического распознавания (работа с бумажными документами);
настраиваемая пользователем возможность просмотра документов;
встроенный генератор отчетов, основанный на функциональности MS Word; настройка формата отчета: титульного листа, оглавления, подписей, колонтитулов, текста;
наличие пользовательского хранилища шаблонов, содержащего различные варианты представления дайджестов.
Поиск и неструктурированные данные
Выделение UDA (Unstructured Data Analysis) в качестве отдельной научно-технической задачи датируется началом 2000 годов, когда аналитики Merrill Lynch и Gartner опубликовали информацию о неожиданно высоких трудозатратах при работе с данными — офисные служащие отдают до половины своего рабочего времени рутинной, не автоматизированной работе с контентом. В близком по содержанию отчете IDC «Расплата за невозможность обнаружить информацию» (“The High Cost of Not Finding Information”, 2003) было отмечено, что на средних предприятиях прямые убытки, вызванные потерей времени из-за неудобства работы с информацией, в пересчете на одного работающего оцениваются в 2,5–3,5 тыс. долл. Неудобство было связано как раз с необходимостью обработки неструктурированных данных: электронных писем, служебных записок, новостей, чатов, отчетов, маркетинговых материалов, презентаций и других данных, которые не могут быть занесены в реляционные СУБД, а хранятся в виде текстовых файлов различных форматов. Некоторые данные следует, скорее, отнести к классу квазиструктурированных, отличающихся тем, что основные данные сопровождаются метаданными, такими как автор, место создания и т. п., которые можно поместить в СУБД.
Вплоть до недавнего времени эти сигналы аналитиков не воспринимались всерьез, и существенных мер противодействия не предпринималось, однако в конце первого десятилетия нынешнего века появились новые источники неструктурированных данных: многочисленные социальные сети, мобильные устройства, регистрирующая аппаратура — обострившие проблему Больших Данных. Естественно, что индустрия сразу же обратилась к поисковым системам — технологии корпоративного поиска показались решением проблемы, и оказалось, что лидерами в этом сегменте являются европейские компании: Autonomy, FAST и Endeca (хотя и из Бостона, но с немецкими корнями). Однако корпоративный поиск как способ доступа к неструктурированным данным оказался дорогим — у среднего служащего он отнимает до 5 рабочих часов в неделю и стоит более 10 тыс. долл. в год.
Первая слабость поисковых машин в том, что средняя длина запросов не превышает двух-трех слов, логические операции and, or и not используются редко, а в итоге полезными оказываются не более трети из нескольких десятков наиболее релевантных ответов на запрос. Конечно, по мере усовершенствования методов поиска эти цифры улучшаются, но незначительно. Вторая слабость — незначительная привязанность к контексту, каждый запрос выполняется независимо от предшествующих, и поисковые машины дают один и тот же ответ любому пользователю вне зависимости от предыстории его работы с базой. Некоторые компании (например, Google) используют ту или иную контекстную информацию (метаданные), относящуюся к предмету поиска.
Традиционные данные в электронных таблицах или реляционных СУБД по определению классифицированы, и при работе с неструктурированными данными тоже вполне естественно применять классификацию и создавать необходимые таксономии.