Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Отчёт о производственной практике (update).doc
Скачиваний:
17
Добавлен:
12.11.2019
Размер:
410.11 Кб
Скачать

Типовые задачи, выполняемые иас:

  • сбор информации из таких источников как: печатные документы, интернет сайты, новостные ленты и т.д.;

  • автоматическое определение тематики документов, т.е. автоматическое отнесение документа к тем или иным рубрикам предварительно введенного рубрикатора;

  • формирование широкого спектра информационных отчетов (дайджестов) по разнообразным критериям, при этом стиль представления отчетов определяется пользователем;

  • публикацию документов, предназначенных для общего пользования;

  • просмотр и редактирование документов;

  • поиск документов;

  • разграничение прав доступа;

  • инструментарий для администрирования.

Индивидуальные особенности систем:

  • автоматическое обучение рубрикатора, т.е. автоматическое построение списка терминов и понятий, определяющих принадлежность документа к рубрике;

  • возможность корректирования и расширения списка терминов и понятий;

  • настройка пользователем способа автоматической рубрикации документов;

  • автоматическое слежение за директориями, указанными пользователем;

  • автоматическое слежение за публикацией свежих новостей на информационных сайтах в Интернет с указанием частоты или расписания опросов;

  • наличие встроенного редактора, позволяющего пользователю подключать новые, интересующие его сайты;

  • автоматическая работа с новостными лентами с разрезанием их на отдельные документы;

  • встроенная система оптического распознавания (работа с бумажными документами);

  • настраиваемая пользователем возможность просмотра документов;

  • встроенный генератор отчетов, основанный на функциональности MS Word; настройка формата отчета: титульного листа, оглавления, подписей, колонтитулов, текста;

  • наличие пользовательского хранилища шаблонов, содержащего различные варианты представления дайджестов.

Поиск и неструктурированные данные

Выделение UDA (Unstructured Data Analysis) в качестве отдельной научно-технической задачи датируется началом 2000 годов, когда аналитики Merrill Lynch и Gartner опубликовали информацию о неожиданно высоких трудозатратах при работе с данными — офисные служащие отдают до половины своего рабочего времени рутинной, не автоматизированной работе с контентом. В близком по содержанию отчете IDC «Расплата за невозможность обнаружить информацию» (“The High Cost of Not Finding Information”, 2003) было отмечено, что на средних предприятиях прямые убытки, вызванные потерей времени из-за неудобства работы с информацией, в пересчете на одного работающего оцениваются в 2,5–3,5 тыс. долл. Неудобство было связано как раз с необходимостью обработки неструктурированных данных: электронных писем, служебных записок, новостей, чатов, отчетов, маркетинговых материалов, презентаций и других данных, которые не могут быть занесены в реляционные СУБД, а хранятся в виде текстовых файлов различных форматов. Некоторые данные следует, скорее, отнести к классу квазиструктурированных, отличающихся тем, что основные данные сопровождаются метаданными, такими как автор, место создания и т. п., которые можно поместить в СУБД.

Вплоть до недавнего времени эти сигналы аналитиков не воспринимались всерьез, и существенных мер противодействия не предпринималось, однако в конце первого десятилетия нынешнего века появились новые источники неструктурированных данных: многочисленные социальные сети, мобильные устройства, регистрирующая аппаратура — обострившие проблему Больших Данных. Естественно, что индустрия сразу же обратилась к поисковым системам — технологии корпоративного поиска показались решением проблемы, и оказалось, что лидерами в этом сегменте являются европейские компании: Autonomy, FAST и Endeca (хотя и из Бостона, но с немецкими корнями). Однако корпоративный поиск как способ доступа к неструктурированным данным оказался дорогим — у среднего служащего он отнимает до 5 рабочих часов в неделю и стоит более 10 тыс. долл. в год.

Первая слабость поисковых машин в том, что средняя длина запросов не превышает двух-трех слов, логические операции and, or и not используются редко, а в итоге полезными оказываются не более трети из нескольких десятков наиболее релевантных ответов на запрос. Конечно, по мере усовершенствования методов поиска эти цифры улучшаются, но незначительно. Вторая слабость — незначительная привязанность к контексту, каждый запрос выполняется независимо от предшествующих, и поисковые машины дают один и тот же ответ любому пользователю вне зависимости от предыстории его работы с базой. Некоторые компании (например, Google) используют ту или иную контекстную информацию (метаданные), относящуюся к предмету поиска.

Традиционные данные в электронных таблицах или реляционных СУБД по определению классифицированы, и при работе с неструктурированными данными тоже вполне естественно применять классификацию и создавать необходимые таксономии.