Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Chast_1.doc
Скачиваний:
63
Добавлен:
10.11.2018
Размер:
6.45 Mб
Скачать

5.9. Информационно-поисковые системы

Общие принципы работы

В настоящее время практически в любой организации или на пред­приятии используются автономные компьютерные информационно-справоч­ные или информационно-поисковые системы (ИПС), предназначенные для хранения, поиска и работы с электронными образами документов.

Сотрудники таможенных органов широко используют такие системы, как «ВЭД ИНФО», «КонсультантПлюс», «Кодекс» и др. Сеть Интернет - это, по сути, также ИПС с огромным информационным ресурсом. Таможенники все шире в своей работе используют ее информационные ресурсы, например, для поиска ценовой информации по оформляемым товарам и т.д. Уже создан­ные и постоянно развиваемые средства оперативного взаимодействия с ЦБД и РБД - это также некоторый вариант ИПС.

Фактически ИПС - особый тип СУБД с объектно-ориентированной моде­лью данных. Так как современные ИПС содержат огромное количество инфор­мации, то в их состав включены специальные средства для организации быстро­го поиска нужной информации. ИПС часто классифицируются по предметной области.

Кроме того, чтобы можно было производить быстрый поиск, документы и иные данные должны быть классифицированы и структурированы в соответ­ствии с правилами, принятыми в конкретной системе.

В информационно-поисковых системах, предназначенных для хранения, поиска и работы с документами, ввод документов в БД предполагает:

  • классификацию документов;

  • установление взаимосвязей между различными документами;

  • составление примечаний к документу.

Классификация необходима для последующей организации быстрого поис­ка документа по некоторым признакам. Естественно, что эта процедура предпо­лагает наличие некоторой системы классификации и соответствующей системы кодирования.

Из выявленных взаимосвязанных документов составляется список, к кото­рому организуются ссылки, что позволяет пользователю более глубоко изучить тему, начав работу с одного документа.

Примечания оформляются в виде особых ссылок. Например, они могут содержать сведения о текущем статусе документа, комментарии, ссылки на информационные ресурсы других систем.

Информационно-поисковая система - совокупность средств хранения, поиска и выдачи по запросу нужной информации [11].

323

Общая схема организации поиска показана на рис. 5.24. Пользователь формулирует и посылает в систему запрос, результаты кото­рого предоставляются ему для просмотра (обычно через экран монитора ком­пьютера). Если полученная информа­ция не удовлетворяет пользователя, он уточняет запрос и после его испол­нения может вывести на печать или (и) записать на внешнее запоминающее уст­ройство (например, дискету).

Все ИПС для ускорения поиска (как и в обычных БД, см. п. 5.6) создают спе­циальные таблицы (массивы) указателей, которые называют индексом. Процесс создания указателей на документы назы­вается индексированием. Обычно под индекс в ИПС отводится отдельная БД, называемая Index database.

Система классификации является основой для построения системы указа­телей. В качестве примера индекса можно назвать авторский указатель, широ­ко применяемый в библиотечных ИПС. Элемент авторского указателя, содер­жащий фамилию автора, одновременно содержит и указание на адрес (адреса) памяти ЭВМ, где располагаются документы, выпущенные данным автором.

Для удобства пользователей ИПС имеют специальные языковые средства для создания запросов. Как правило, возможен поиск документа по номеру, дате, наименованию или некоторому сочетанию вышеуказанных параметров. Все сов­ременные системы имеют режим поиска по ключевым словам. В этом режиме пользователь задает некоторые ключевые слова, а система находит документы, в текстах которых эти слова присутствуют.

Выделяют три основных способа организации поиска в текстовом масси­ве [77]:

а) контекстный поиск, при котором весь текст последовательно просматри- вается программой поиска, слова сравниваются с запросом, выполняются логи- ческие операции и дополнительные условия поиска. Контекстный поиск поз- воляет достаточно просто реализовать самые сложные виды поиска, но имеет существенный недостаток - он очень медленный. Скорость просмотра - поряд- ка нескольких мегабайт в секунду, поэтому время поиска в больших базах может длиться десятки минут и даже часов, что совершенно неприемлемо;

б) подокументно-контекстный поиск. Этот поиск использует предваритель- но созданный индекс, в котором есть списки слов каждого документа. В резуль- тате поиска по индексу определяются документы, содержащие слова запроса. Например, на запрос «Таможенный контроль» будет выдан список всех доку- ментов, содержащих слово «Таможенный» и слово «контроль». Как эти слова расположены в тексте документа, не учитывается. Например, в начале докумен- та есть слова «Таможенный брокер», а в конце - «контроль и учет документов». Этот документ будет выдан индексом. Поэтому для уточнения результатов про-

324

изводится контекстный поиск в найденных документах. При этом учитываются расстояние между ключевыми словами, их взаимное расположение, в результа­те отфильтровываются документы, содержащие только нужное сочетание слов «Таможенный контроль». Такая подокументно-контекстная схема пригодна для поиска небольших документов (писем, приказов и пр.), поскольку в них меньше вероятность случайного совпадения всех слов запроса и контекстный просмотр занимает меньше времени. При больших БД работу с документами, содержащи­ми значительные информационные массивы (тексты книг, справочников и т.п.), подобный поиск значительно замедляет;

в) индексный поиск по всему содержанию документов. Это самый сложный, но быстрый способ поиска. Индекс содержит полную информацию обо всех словах текстов БД, включая взаимное расположение слов. Содержание запро­са сравнивается одновременно со всем полем информации, находящейся в БД. При этом поиске ищутся не документы, а нужная информация. Затем по найден­ным фрагментам текста выдаются тексты самих документов. Скорость такого поиска на персональной ЭВМ достигает десятков гигабайт в секунду.

Информационные ресурсы Интернет

В таможенном деле все шире используются информационные ресур­сы и иные возможности сети Интернет. Так, сотрудники таможенных органов используют ресурсы сети для поиска справочной и ценовой информации по декларируемым товарам. Кроме того, внедряемые технологии электронного декларирования ориентированы на информационное взаимодействие участ­ников ВЭД через сеть Интернет; ФТС России, ГНИВЦ и региональные тамо­женные управления создали сайты для информирования участников ВЭД и т.д. Сетью Интернет не менее активно пользуются перевозчики, декларанты и иные участники ВЭД. Например, они используют ее информационные ресурсы для поиска различных нормативных правовых документов, стало общепринятой практикой получение с сайтов фирм-разработчиков обновленных версий про­грамм для подготовки документов и сведений к таможенному оформлению, через сеть Интернет можно заключить контракт и выполнить оплату и т.д.

Как отмечалось выше, информационные ресурсы сети Интернет можно рас­сматривать как некую распределенную систему БД. Для того, чтобы структури­ровать информацию, накопленную в сети Интернет, и обеспечить пользователей удобными средствами поиска необходимых им данных, были созданы специаль­ные поисковые системы (рис. 5.25).

В этих поисковых системах обычно выделяют (в качестве основы) три ком­поненты [61]:

  • агент (паук, кроулер, робот), который собирает информацию;

  • БД, которая содержит всю информацию, собираемую агентом;

  • средства, которые пользователи используют как интерфейс для взаимо­действия с БД.

325

Поисковая машина

Рис. 5.25. Организация поиска информации в сети Интернет

Пользователь ведет поиск информации (взаимодействует с поисковой сис­темой) с помощью специальной клиентской программы, называемой браузером. В частности, в состав стандартной конфигурации программного обеспечения, устанавливаемого на ЭВМ с операционной системой Windows, входит программа-браузер Internet Explore. Используя его, пользователь может формировать запро­сы и просматривать информацию, находящуюся на www-сайтах сети Интернет.

Для поиска информации пользователю предоставляются средства формиро­вания запросов {пользовательский интерфейс - User Interface). Запрос вводится в специальные поля и принимается для исполнения поисковой машиной (поис­ковой системой). Основная проблема при поиске заключается в том, что единой полной системы регистрации имеющейся в Интернет информации, доступной всем пользователям сети, никогда не было.

Как и в обычных БД, в сети Интернет для ускорения поиска используется индексирование. Для этого в сети имеется специальная БД индексов (Index database).

Поддержка Индекса (организация переиндексации при помещении новых документов на сайтах сети или их удалении) выполняется специальной про­граммой - Роботом индексирования (Index robot). Робот периодически про­сматривает документы на сайтах и производит переиндексацию. Применяются несколько критериев переиндексации. Современные ИПС для индексации доку­мента используют около 100 терминов. Например, при индексировании учиты­вается частота употребления тех или иных терминов, точнее - отношение этой частоты в заданном и другом документах.

Пользователь в своем запросе может прямо указать адрес интересующего его www-сайта или конкретного документа. Однако часто место расположения нужной информации неизвестно, и тогда он обращается к поисковой системе. Наиболее популярны системы Hndex, Rumbler, Google, Yahoo и др.

Каждая из них имеет свои программы-агенты, которые постоянно опрашива­ют сайты Интернет, используя стандартные сетевые протоколы. Они могут так­же использоваться для выполнения множества полезных задач, таких как ста­тистический анализ, обслуживание гипертекстов, исследование ресурсов и т.д.

326

Программы-агенты обходят страницы с заданными URL и скачивают их в БД поисковой системы [56]. Агенты могут размещаться на нескольких ЭВМ и работать по разным критериям. Так, агент на одной машине может качать новые страницы, которые еще не были известны поисковой системе, а на дру­гой - страницы, которые ранее уже были скачаны не менее месяца, но и не более года назад. Для собранной информации далее создаются индексы, что необходи­мо для ускорения поиска по конкретному запросу.

Помимо автоматических способов увеличения точности поиска, существу­ют различные средства, с помощью которых пользователь сам может уточнить поиск по отдельным запросам. В первую очередь, к ним относится специальный язык поискового запроса, используя который можно ограничивать количество найденных документов.

Важный критерий оценки поисковой системы - скорость поиска. В час­тности, для повышения скорости поиска используется «кэширование», т.е. сохранение информации о запросах и результатах поиска в буфере (специ­ально выделенной области памяти). Многие пользователи делают одни и те же поисковые запросы. Выполнять их каждый раз заново было бы неразумной тра­той времени. Поэтому, если подобный запрос недавно обрабатывался, резуль­таты поиска выдаются пользователю из «кэша». С той же целью используются словари стоп-слов. Это наиболее часто используемые слова языка, которые встречаются практически в любом тексте и являются малоинформативными. В основном это служебные слова - предлоги, частицы, артикли. Если нет спе­циальных указаний, поисковая машина игнорирует стоп-слова, встречающиеся в запросе, чтобы не тратить время на обработку дополнительной информации, снижающей качество поиска.

Документов, выбранных по запросу, может быть очень много. Поэтому их упорядочивают по степени соответствия (релевантности).

При ранжировании учитываются различные характеристики текстов. Так, в поисковой системе Rumbler в качестве критериев ранжирования использу­ют [56]:

  • количество вхождений слов (словосочетаний) в документ - чем большее число раз словосочетание «таможенное дело» присутствует в тексте, тем выше вероятность, что в нем действительно говорится о таможенном деле;

  • расположение слов запроса в документе - если словосочетание «тамо­женное дело» присутствует в заголовках или названии документа, то документ с большей вероятностью посвящен таможенному делу;

  • формы слов запроса - преимущество отдается вхождениям, в которых слова имеют тот же падеж, число, склонение и т.д., что и в запросе пользовате­ля. Помимо точного совпадения, выделяются две группы форм слов - близкие и далекие. Близкими считаются изменения по падежам, склонениям, числам и родам. Далекими формами являются причастия, деепричастия и т.п. При ран­жировании преимущество отдается близким формам слов запроса;

  • расстояние между словами запроса - если запрос состоит из нескольких слов, то в найденных документах оценивается, насколько близко друг от друга

327

расположены эти слова. Преимущество отдается документам, в которых слова запроса находятся ближе друг к другу. Например, если слово «таможенное» расположено в тексте на пятой позиции, а слово «дело» - на 650-й, то, скорее всего, в документе речь идет не о таможенном деле;

  • относительная частота (отношение количества вхождений слов запроса в документ к общему количеству слов в документе). Если словосочетание встречается 10 раз в документе из 100 слов, то оно лучше соответствует запро­су, чем документ из 20 тысяч слов, в котором словосочетание встречается те же 10 раз;

  • популярность - поисковая машина автоматически вычисляет коэффи­циент популярности каждой страницы Интернет на основе данных счетчика Тор 100 и анализа гипертекстовых ссылок между страницами. Преимущество отдается более популярным ресурсам;

  • ссылочный вес документа - учитывается вес страницы, рассчитанный на основании учета гиперссылок, содержащих слова запроса. Так, если на некото­рый документ со словами «таможенное дело» имеется ссылка на наибольшем количестве страниц (высокий коэффициент популярности), то ему отдается приоритет.

Справочная правовая система «КонсультантПлюс»

Важное место в таможенных органах занимает справочная правовая система (СПС) «КонсультантПлюс» и справочник по таможенному законода­тельству ВЭД ИНФО.

Система «КонсультантПлюс» относится к одной из первых отечественных справочных правовых систем, созданной в 1992 г. Фактически она представ­ляет собой совокупность БД документов (семейст­во систем) по отдельным направлениям [16, 33].

При запуске систе­мы появляется стартовое окно-заставка системы КонсультантПлюс, в пра­вой части которого при­водится список разделов с документами, имеющими­ся в данной конфигурации системы (рис. 5.26).

Окна системы имеют стандартный для Windows вид: сверху строка с назва­нием окна, ниже строка -

328

меню и Панель инструментов с функциональными кнопками, в нижней части окна - строка (панель) состояний с текущей информацией.

Документы физически содержатся в едином информационном массиве, в котором выделяют разделы. Каждый раздел, в свою очередь, состоит из инфор­мационных банков. Например, раздел «Финансовые консультации» содержит следующие близкие по тематике, но разные по содержанию информационные банки:

  • «Финансист» - консультации по налогообложению, бухучету, банковс­кой, инвестиционной, внешнеэкономической деятельности, по вопросам валют­ного регулирования, об акционерных обществах, о рынке ценных бумаг;

  • «Корреспонденция счетов» - схемы отражения финансово-хозяйс­твенных операций в бухучете, обоснованные федеральными нормативными документами;

  • приложение «Бухгалтерские издания» - материалы публикаций в бух­галтерской прессе.

При выборе вставки «Описание разделов» можно ознакомиться со структу­рой единого информационного массива (рис. 5.27).

Если в стартовом окне активизировать наименование некоторого раздела, появится «Окно поиска», в котором находится ряд вкладок.

Наиболее универсальное средство поиска - <Карточка поиска> (рис. 5.28). Кроме этого имеются закладки:

<Правовой навигатор> - получение основных документов по конкретной правовой проблеме;

329

Рис. Карточка поиска

<Справочная информация> - доступ к часто используемым документам;

<Новости и обзоры> - получение обзоров законодательства;

<Папки> - доступ к собственным, ранее составленным подборкам докумен­тов, которые пользователь сохранил в папках системы;

<3акладки> - обращение напрямую, без поиска, к документам, в которых пользователь поставил закладки;

<История> - повторный просмотр ранее найденных документов. Это осо­бенно полезно в том случае, когда пользователь снова хочет найти документ, но не помнит точной информации о нем.

Чтобы с помощью <Карточки поиска> найти необходимый документ, надо заполнить ее поля (реквизиты), т.е. сформировать поисковое задание. Из раздела Законодательство возможен сквозной поиск, т.е. поиск сразу по всем разделам. Для сквозного поиска предназначены общие для всех разделов поля, отмечен­ные в <Карточке поиска> значком JJ- Реквизиты, указываемые в этих полях, имеет любой документ информационного массива. Например, общими полями являются <Дата>, <Название> или <Тематика>.

Кроме поиска по общим полям, система КонсультантПлюс может выполнять поиск по специальным полям. Они отражают специфические характеристики документов в каждом разделе. Например, в разделе Законодательство специ­альными полями являются поля <Дата в Минюсте> и <Номер в Минюсте> (см. рис. 5.28). Очевидно, что таких характеристик не имеют, например, консуль­тационные материалы или формы документов.

Для ввода параметра некоторого поля (реквизита) необходимо:

  • дважды щелкнуть на соответствующей строке <Карточки поиска> (поя­вится окно словаря возможных значений);

  • выделить в словаре нужное значение (выполняется двумя способами: с помощью кнопок прокрутки находится и затем выделяется нужное значение

330

либо начать набор этого значения и курсор автоматически установится на нуж­ной строке словаря);

- щелкнуть на кнопке <Выбрать> в нижней части окна или нажать клавишу <Enter>.

На рисунке 5.29 показано использование словаря при вводе значения поля <Текст документам Использована вкладка <Расширенный поиск> словаря. Для поиска надо ввести поисковое выражение (искомые слова) с указаниями логического условия поиска:

Рис. 5.29. Ввод в <Карточке поиска> значения поля с помощью словаря

И - выбираются документы, удовлетворяющие одновременно всем

заданным значениям; ИЛИ - выбираются документы, удовлетворяющие хотя бы одному из

заданных значений; КРОМЕ - выбранные документы не должны удовлетворять заданным

значениям;

РЯДОМ - указанные слова в тексте документа должны находиться рядом в пределах определенного количества строк, задаваемого пользователем. В примере на рис. 5.29 приведено выполнение условия И. После указания значения поля <Карточки поиска> в подокне, находящемся ниже полей, будет указано, сколько документов, в каком разделе и информаци­онном банке удовлетворяют запросу. Для окончательного отбора документов, соответствующих запросу, надо нажать кнопку <Построить список (F9)> в ниж­ней части окна (см. рис. 5.29).

331

После этого появится окно с перечнем информационных баз, в которых най­дены документы с указанием их количества, причем в правой части окна будет дан список документов для выделенной базы (рис. 5.30). Если в этом окне дваж­ды щелкнуть на названии документа, то появится окно с текстом самого докумен­та. При соответствующих настройках пользователь может выбрать и получить, наряду с действующими документами, и те, действие которых уже прекращено.

Информационно-поисковая система «ВЭД ИНФО»

«ВЭД ИНФО» является информационно-поисковой системой по действующему таможенному законодательству [72]. В отличие от баз с право­выми актами «КонсультантПлюс», «Гарант» или «Кодекс» она ориентирована не на профессиональных юристов, а на специалистов ВЭД, занимающихся тамо­женным оформлением товаров и транспортных средств.

Этой системой широко пользуются не только декларанты и таможенные бро­керы, но и должностные лица таможенных органов.

При запуске программы появляется окно, в котором приведены основные информационные ресурсы «ВЭД ИНФО» (рис. 5.31), которые включают:

  • базу нормативных документов ФТС России и важнейших РТУ с гипертек­стовыми ссылками между ними и возможностями просмотра как в хронологи­ческом, так и тематическом порядке;

  • подборку правовых документов, связанных с ВЭД (Таможенный и Налого­вый кодексы, законы РФ, указы Президента, постановления и распоряжения Пра­вительства РФ, международные договоры, ИНКОТЕРМС 1990 и 2000 и пр.);

332

  • товарную номенклатуру ВЭД (ТН ВЭД СНГ и ТН ВЭД России), включая пояснения к ТН ВЭД;

  • справочную информацию по классификации товаров (на основании доку­ментов ФТС России), заключения Центральной таможенной лаборатории;

  • средства получения справки по товару: размер ставок экспортных и импор­тных пошлин, размер ставок акцизных сборов и НДС, требования к наличию лицензий, сертификатов, разрешений и иные особенности таможенного оформ­ления в зависимости от страны происхождения или страны назначения товара. Все позиции справки имеют гипертекстовую ссылку на тексты соответствующих приказов ФТС России или РТУ;

  • средства обновления информации баз данных.

При запуске программы появляется экран, в котором приведены основные режимы (разделы) просмотра информации: Таможенный кодекс РФ; законы, нормативные документы; документы в хронологическом порядке; предметный указатель документов; региональное законодательство; ТН ВЭД России; ТН ВЭД СНГ;

справочная информация по классификации товаров и заключения Цент­ральной таможенной лаборатории;

333

ИНКОТЕРМС (международные правила по толкованию и использованию торговых терминов); календарь событий; новые документы;

выдержки из «Таможенной газеты» (издание СЗТУ).

«ВЭД ИНФО» является разработкой ООО «СТМ» и может вызываться из других программ фирмы, в частности, из программы «ВЭД Декларант» (пред­назначенной для подготовки документов, необходимых для таможенного офор­мления), имеет удобную и быструю систему поиска необходимых сведений, обновляется по сети Интернет.

Задание управляющих команд при работе с «ВЭД ИНФО» можно выпол­нить с помощью меню, функциональных клавиш, кнопок панели инструментов.

Строка Главного меню находится под строкой заголовка окна системы и имеет вид:

Файл Дерево Поиск Информация Помощь.

С помощью подменю главного меню можно выполнить практически любые операции с «ВЭД ИНФО». Однако обычно пользуются функциональными кнопками на Панели инструментов, которые позволяют выполнять наиболее часто используемые операции.

Основной функцией программы является получение справочной информа­ции об экспортируемом или импортируемом товаре и документах, содержащих сведения, необходимые для их таможенного оформления.

Для получения справок по товару сначала необходимо найти его место в ТН ВЭД.

Поиск и просмотр документов ведутся через соответствующие разделы окна системы «ВЭД ИНФО» либо с помощью специальных режимов поиска, которые реализуются через подменю пункта Поиск главного меню или кноп­ку Поиск] на Панели инструментов.

Все документы в «ВЭД ИНФО» рассортированы по группам (разделам) в зависимости от даты принятия документа (для раздела «Документы в хроно­логическом порядке») или по содержанию (для раздела «Предметный указатель документов»). Если известен номер документа, поиск целесообразно вести через раздел «Документы в хронологическом порядке», а если известны дата опубли­кования или содержание документа - через «Предметный указатель докумен­тов». В частности, можно получить справки по будущим изменениям в ставках пошлин, в правилах, регламентирующих ВЭД, и др. (рис. 5.32). Любой документ из справочника, а также сформированная справка по товару могут быть напеча­таны (возможна печать только выделенной части документа).

Слева от наименования каждой группы документов находится картинка «Закрытая книга». При двойном щелчке по ней мышью произойдет переход в соответствующую подгруппу документов, а перед раскрытой группой пока­жется картинка «Открытая книга». Так, последовательно «раскрывая» груп­пы, осуществляется переход на самый нижний уровень - непосредственно к документу.

334

Календарь событий на 2007 год.

[мжр шш шп mm

п. 12 Указа Президента РФ от 23.05.1996 № 763 "О порядке опубликования и вступления в силу актов Президента Российской Федерации, Правительства Российской Федерации и нормативных правовых актов федеральных органов исполнительной власти"

Нормативные правовые акты федеральных органов исполнительной власти вступают в силу одновременно на всей территории Российской Федерации по истечении десяти дней после дня ил официального опубликования, если самими актами не установлен другой порядок вступления их в силу...

Август 2007 г. Январь 2007 г.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]