The idea of using computers to search for relevant pieces of information was popularized in an article «As We May Think» by Vannevar Bush in 1945. First implementations of information retrieval systems were introduced in the 1950s and 1960s. By 1990 several different techniques had been shown to perform well on small text corpora (several thousand documents).

In 1992 the US Department of Defense, along with the National Institute of Standards and Technology (NIST), cosponsored the Text Retrieval Conference (TREC) as part of the TIPSTER text program. The aim of this was to look into the information retrieval community by supplying the infrastructure that was needed for evaluation of text retrieval methodologies on a very large text collection. This catalyzed research on methods that scale to huge corpora. The introduction of web search engines has boosted the need for very large scale retrieval systems even further.

The use of digital methods for storing and retrieving information has led to the phenomenon of digital obsolescence, where a digital resource ceases to be readable because the physical media, the reader required reading the media, me hardware, or the software that runs on it, is no longer available. The information is initially easier to retrieve uian if it were on paper, but is then effectively lost.

corpus; search engine; boost; obsolescence; cease

9. Read the text and speak on: 1) general causes of information over- load; 2) its psychological effects. Propose the ways of information overload reduction via automated information retrieval systems.

Information Overload

Automated information retrieval systems are used to reduce what has been called «information overload».

Information overload refers to the state of having too much infor- mation to make a decision or remain informed about a topic. It is often referred to in conjunction with various forms of Computer-mediated communication such as e-mail and the Web.

The general causes of information overload include:

a rapidly increasing rate of new information being produced;

the ease of duplication and transmission of data across the In- ternet;

an increase in the available channels of incoming information (e.g. telephone, e-mail, instant messaging);

large amounts of historical information to dig through;

contradictions and inaccuracies in available information;

a low signal-to-noise ratio;

a lack of a method for comparing and processing different kinds of information.

E-mail remains a major source of information overload, as people struggle to keep up with me rate of incoming messages. As well as filtering out unsolicited commercial messages (spam), users also have to contend with the growing use of e-mail attachments in the form of lengthy reports, presentations and media files.

In addition to e-mail, the World Wide Web has provided access to billions of pages of information. In many offices, workers are given unrestricted access to the Web, allowing them to manage their own research. The use of search engines helps users to find mformation quickly. However, information published online may not always be reliable, due to die lack of authority-approval or a compulsory accuracy check before publication. This results in people having to cross-check what they read before using it for decision-making, which takes up more time.

As people are faced with growing levels of information overload, the inability to make clear and accurate decisions can increase their stress levels.

An article in the New Scientist magazine claimed that exposing individuals to an information overloaded environment resulted in lower IQ scores than exposing individuals to marijuana, although these results are contested. The same article also notes that a night without sleep can be as debilitating as over-exposure to information.

Part of the problem of information overload can be traced to interruptions in the workplace. Interruptions include incoming e-mail messages, phone calls and instant messaging. — all of which break mental focus, and redirect it to the source of the interruption. The person has to deal wim the interruption, then redirect their attention back to the original task.

computer-mediated; signal-to-noise ratio; unsolicited; attachment; marijuana; debilitate

10. Translate the text into English.

Информационный поиск (ИП) — процесс поиска неструк- турированной документальной инйюрмации и наука об этом поиске.

Термин «информационный поиск» был впервые введен Кельвином Муром в 1948 г. в его докторской диссертации, опубликован и употребляется в литературе с 1950 г.

Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов) всех таких, ко- торые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения, данные.

Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление необходимой информации заинтересованным лицам.

В общем случае поиск информации состоит из четырех этапов:

определение (уточнение) информационной потребности и формулировка информационного запроса;

определение совокупности возможных держателей инфор- мационных массивов (источников);

извлечение информации из выявленных информационных массивов;

ознакомление с полученной информацией и оценка резуль- татов поиска.

Виды поиска

Полнотекстовый поиск — поиск по всему содержимому документа. Пример полнотекстового поиска — любой интер- нет-поисковик, например, www.yandex.ru, www.google.com. Как правило, полнотекстовый поиск для ускорения поиска использует предварительно построенные индексы. Наиболее распространенной технологией для индексов полнотекстового поиска являются инвертированные индексы.

Поиск по метаданным — это поиск по неким атрибутам документа, поддерживаемым системой — название документа, дата создания, размер, автор и т. д. Пример поиска по рекви- зитам — диалог поиска в файловой системе (например, MS Windows).

Поиск по изображению — поиск по содержанию изобра- жения. Поисковая система распознает содержание фотографии (загружена пользователем или добавлен URL изображения).

В результатах поиска пользователь получает похожие изобра- жения.

Задачи информационного поиска

Центральная задача ИП — помочь пользователю удовлет- ворить его информационную потребность. Так как описать ин- формационные потребности пользователя технически непросто, они формулируются как некоторый запрос, представляющий собой набор ключевых слов, характеризующий то, что ищет пользователь.

Классическая задача ИП, с которой началось развитие этой области, — это поиск документов, удовлетворяющих запросу, в рамках некоторой статической коллекции документов. Но список задач ИП постоянно расширяется и теперь включает:

вопросы моделирования;

классификацию документов;

фильтрацию документов;

кластеризацию документов;

проектирование архитектур поисковых систем и пользова- тельских интерфейсов;

извлечение информации, в частности аннотирования и ре- ферирования документов;

языки запросов и др.

докторская диссертация — thesis for a Doctor's degree, doc- toral thesis; информационный массив — information collection; ускорение — acceleration, expedition

11. Talking points,:

  1. Information retrieval: its definition, properties, difference from data retrieval.

  2. The process of information retrieval.

  3. Measures for evaluating the performance of information re- trieval systems.

  4. The models of documents' representation.

