Типовые задачи, выполняемые иас:

сбор информации из таких источников как: печатные документы, интернет сайты, новостные ленты и т.д.;
автоматическое определение тематики документов, т.е. автоматическое отнесение документа к тем или иным рубрикам предварительно введенного рубрикатора;
формирование широкого спектра информационных отчетов (дайджестов) по разнообразным критериям, при этом стиль представления отчетов определяется пользователем;
публикацию документов, предназначенных для общего пользования;
просмотр и редактирование документов;
поиск документов;
разграничение прав доступа;
инструментарий для администрирования.

Индивидуальные особенности систем:

автоматическое обучение рубрикатора, т.е. автоматическое построение списка терминов и понятий, определяющих принадлежность документа к рубрике;
возможность корректирования и расширения списка терминов и понятий;
настройка пользователем способа автоматической рубрикации документов;
автоматическое слежение за директориями, указанными пользователем;
автоматическое слежение за публикацией свежих новостей на информационных сайтах в Интернет с указанием частоты или расписания опросов;
наличие встроенного редактора, позволяющего пользователю подключать новые, интересующие его сайты;
автоматическая работа с новостными лентами с разрезанием их на отдельные документы;
встроенная система оптического распознавания (работа с бумажными документами);
настраиваемая пользователем возможность просмотра документов;
встроенный генератор отчетов, основанный на функциональности MS Word; настройка формата отчета: титульного листа, оглавления, подписей, колонтитулов, текста;
наличие пользовательского хранилища шаблонов, содержащего различные варианты представления дайджестов.

Поиск и неструктурированные данные

Выделение UDA (Unstructured Data Analysis) в качестве отдельной научно-технической задачи датируется началом 2000 годов, когда аналитики Merrill Lynch и Gartner опубликовали информацию о неожиданно высоких трудозатратах при работе с данными — офисные служащие отдают до половины своего рабочего времени рутинной, не автоматизированной работе с контентом. В близком по содержанию отчете IDC «Расплата за невозможность обнаружить информацию» (“The High Cost of Not Finding Information”, 2003) было отмечено, что на средних предприятиях прямые убытки, вызванные потерей времени из-за неудобства работы с информацией, в пересчете на одного работающего оцениваются в 2,5–3,5 тыс. долл. Неудобство было связано как раз с необходимостью обработки неструктурированных данных: электронных писем, служебных записок, новостей, чатов, отчетов, маркетинговых материалов, презентаций и других данных, которые не могут быть занесены в реляционные СУБД, а хранятся в виде текстовых файлов различных форматов. Некоторые данные следует, скорее, отнести к классу квазиструктурированных, отличающихся тем, что основные данные сопровождаются метаданными, такими как автор, место создания и т. п., которые можно поместить в СУБД.

Вплоть до недавнего времени эти сигналы аналитиков не воспринимались всерьез, и существенных мер противодействия не предпринималось, однако в конце первого десятилетия нынешнего века появились новые источники неструктурированных данных: многочисленные социальные сети, мобильные устройства, регистрирующая аппаратура — обострившие проблему Больших Данных. Естественно, что индустрия сразу же обратилась к поисковым системам — технологии корпоративного поиска показались решением проблемы, и оказалось, что лидерами в этом сегменте являются европейские компании: Autonomy, FAST и Endeca (хотя и из Бостона, но с немецкими корнями). Однако корпоративный поиск как способ доступа к неструктурированным данным оказался дорогим — у среднего служащего он отнимает до 5 рабочих часов в неделю и стоит более 10 тыс. долл. в год.

Первая слабость поисковых машин в том, что средняя длина запросов не превышает двух-трех слов, логические операции and, or и not используются редко, а в итоге полезными оказываются не более трети из нескольких десятков наиболее релевантных ответов на запрос. Конечно, по мере усовершенствования методов поиска эти цифры улучшаются, но незначительно. Вторая слабость — незначительная привязанность к контексту, каждый запрос выполняется независимо от предшествующих, и поисковые машины дают один и тот же ответ любому пользователю вне зависимости от предыстории его работы с базой. Некоторые компании (например, Google) используют ту или иную контекстную информацию (метаданные), относящуюся к предмету поиска.

Традиционные данные в электронных таблицах или реляционных СУБД по определению классифицированы, и при работе с неструктурированными данными тоже вполне естественно применять классификацию и создавать необходимые таксономии.

<<< < Предыдущая 1 2 34 / 104 5 6 7 8 9 10 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
04.06.20152.14 Mб53Ответы_сетевое.docx
#
31.07.20193.56 Mб1отчёт (незавершенная версия).doc
#
05.06.20152.76 Mб9Отчёт Лера.docx
#
22.08.2019242.61 Кб4Отчет лр №1.rtf
#
22.08.2019149.72 Кб6Отчет лр №2.rtf
#
12.11.2019410.11 Кб17Отчёт о производственной практике (update).doc
#
26.11.2018335.87 Кб0Отчет по squares.doc
#
15.11.201944.37 Mб12отчет по практике 28.09.12 (Козлов).doc
#
23.08.201992.16 Кб3Отчёт по практике(Зар).doc
#
04.06.2015961.54 Кб37отчёт по практике.doc
#
23.09.2019180.44 Кб5отчет тимура.docx