- •2. Становлению новых компьютерных технологий способствовали достижения в области технического, программного и информационного обеспечения.
- •10. Порождение (построение) нового текста
- •2. По изменчивости:
- •3. По полноте:
- •4. По предметной области
- •3. Эмпирико-теоретические
- •2. Процесс обработки инфы очень сложен. Человек постоянно участвует во всевозможных процессах. Информационные процессы протекают не только в человеческом обществе, но и в растительном и животном мире.
- •1. Разомкнутые ис – системы, в которых получаемая потребителем инфа используется произвольно, а после получения инфы от потребителя в систему ничего не поступает.
- •3. Моделирование как основной метод решения задач в области ис
- •4. Общие принципы решения лингвистических задач методом моделирования
- •4. В 1 000 000 раз увеличилось быстродействие компьютера, вырос объем памяти
- •2. Устройства вывода – устройства для вывода инфы из памяти компьютера пользователю.
- •1. Матричные – это принтеры, у которых печатающая головка состоит из иголок – матрицы. Через красящую ленту отпечатываются символы. Низкое качество печати (банки, сберкассы)
- •3) Лазерные – позволяют достичь высокого качества печати. Технология - частички порошка (тонера) под воздействием луча лазера, высокой температуры вплавляются в лист бумаги.
- •4) Сублимационные – используются в полиграфии. Позволяют получить фотографическое качество печати.
- •1. Односторонние однослойные 4,7 Гб
- •2. Однослойные двусторонние 9,4 Гб
- •3. Односторонние двухслойные 8,5 Гб
- •4. Двусторонние двухслойные 17 Гб
- •1 Микропроцессор создан в 1971 г. Фирма Intel, 4-х разрядный, 75 кГц, 60 тысяч операций в сек, постоянно совершенствовался.
- •2007 Г. – более 2 млрд. Транзисторов
- •3) По совместимости
- •Ibm pc Intel используют в бизнесе для обработки текстов, для работы с большими базами данных, изначально предназначались для обмена инфой, телекоммуникаций
- •3. Назначение и основные функции прикладных программ
- •4. Прикладные инструментальные средства
- •5. Понятие о виртуальной реальности
- •2. Системное по – все по, которое используется для работы и обслуживания компа.
- •1. Автономные операционные системы - а отдельном компе могут работать
- •2. Сетевые, которые используются при создании сети. По архитектуре: - клиент – клиент, где все компы равноценны и выполняют одинаковые функции
- •3 Условия:
- •1. Компьютерная сеть – совокупность компов, которые могут осуществлять информационное взаимодействие друг с другом через линии связи.
- •1982 Г. – сеть стала международной
- •Ip добавляет к каждой порции служебную инфу с адресами отправителя и получателя и обеспечивает доставку всех пакетов.
- •1. Www (world wide web) совокупность взаимосвязанных гипермедийных документов
- •3. Telnet – система для удаленного управления компом
- •Internet как средство обмена информации:
- •1. Автоматическое чтение текста
- •1. Целостность – объект описывается как целое с помощью значимых элементов и отношений между ними.
- •1. Подготовительный – референт читает текст, пытается понять и осмыслить документ в целом
- •1. Комп по каждому абзацу текста составляет алфавитно-частотный словарь
- •3. Машинный (автоматический) перевод
- •1. Информативный – грубый, пословный перевод, достаточный для поверхностного ознакомления с содержанием текста
- •1. Кратко изложить его содержание (аннотация, реферат)
- •1. Знания о языке, на котором написан текст
- •1. Стратегического (должно быть принято решение, что писать)
- •1. Ввод новой записи
- •1. Письменный лексикон
- •2. Письменные текстовые массивы
- •3. Фонетические лингвистические ресурсы
- •1. Письменный лексикон представлен одноязычными и многоязычными лексиконами (словарями). В многоязычных словарях дается перевод значения исходного языка на один или несколько иностранных языков.
- •3D графика позволила археологам воссоздать древние умершие города. Палеонтологам - увидеть вымерших животных.
- •2. Пк на базе молекул дик
- •3. Квантовые пк еще более компактное устройство, у которого в качестве битов выступают квантовые объекты (кубиты).
1. Комп по каждому абзацу текста составляет алфавитно-частотный словарь
2. алфавитно-частотные словари объединяются в единый распределительный алфавитно-частотный словарь всего текста
3. ПК проводит чистку словаря, сжимая его до словаря потенциальных, ключевых словоформ
- удаляется вся служебная и общеупотребительная лексика
- объединяются все грамматические формы одного и того же слова
- объединяются синонимы
- удаляются лексические единицы, которые встретились только в одном абзаце
4. словарь потенциально ключевых слов делится а две части:
- главных опорных слов
- второстепенных опорных слов, что осуществляется на основе статистического коэффициента важности.
5. строится аннотация, используется словарь главных опорных слов. Аннотация строится из слов реляторов со следующими за ними словосочетаний
6. строится реферат, используется словарь главных и второстепенных опорных слов. Просматривается исходный текст, комп извлекает из него предложения, содержащие три и более опорных слова.
Системы машинного перевода
Перевод – это вид человеческой языковой деятельности, в результате которой текст на одном языке ставится в соответствие тексту на другом языке, при этом обеспечивается их смысловая эквивалентность.
Типы перевода по степени автоматизации:
1. традиционный (ручной) перевод, выполняемый человеком
2. автоматизированный перевод
а) перевод, выполняемый компом с помощью человека. Компьютер делает перевод, а за справками обращается к человеку.
б) перевод, выполняемый человеком с помощью компа
- в памяти ПК двуязычный словарь и текстовый процессор
- систему ТМ (Translation Memory)
Эти программные продукты называют автоматизированным рабочим местом переводчика. В основе этих программ лежит принцип сбора и хранения фрагментов, переведенных человеком текстов на двух языках. Хранятся в специальном носителе переводов (памяти) и служат бесценным подспорьем при последующем выполнении переводов этой же тематики.
Для каждой тематики создается новый накопитель, ими можно обмениваться. Самая популярная программа – Trados.
3. Машинный (автоматический) перевод
МТ (Machine Translation)
Машинный перевод – это выполняемое компом действие по преобразованию текста на одном естественном языке в текст на другом естественном языке при сохранении эквивалентности содержания, а также результатом такого действия.
Специалисты утверждают, что такой перевод невозможен, поскольку большинство слов имеют несколько значений, то основная трудность при переводе заключается в выборе нужного значения.
Реально автоматический перевод возможен только в условиях искусственно ограниченного языка (как по словарному запасу, так и по грамматике)
Человек, как правило, участвует в процессе перевод (предредактор упрощает текст, постредактор – редактирует)
Виды машинного перевода
1. Информативный – грубый, пословный перевод, достаточный для поверхностного ознакомления с содержанием текста
2. профессиональный – качество перевода сравнимо с качеством «человеческого» перевода и при небольшом редактировании является удовлетворительным
3. персональный (авторский) – где авторы подлежащих переводу текстов заранее избавляют их от неоднозначности и работают в режиме диалога с компом.
Наиболее популярные системы машинного перевода:
- Сократ
- SYSTRAN
- PROMT – семейство продуктов, включающих в себя возможность перевода с английского, французского, немецкого, испанского и итальянского языков на русский и наоборот.
В последних версиях встроен модуль ТМ, который позволяет сохранить используемые ранее переводные фрагменты.
Положительные факторы:
1. удобны при обработке переводов (встроен модуль OCR, Fine Reader)
2. возможность форматировать текст перевода
3. имеют удобные возможности для поиска слов и выражений в электронных словарях
4. позволяет ускорить перевод, освободив от необходимости повторного перевода того, что уже было переведено ранее (при использовании ТМ)
5. можно доверить перевод конфедициальной инфы
6. значительно дешевле
7. системы машинного перевода облегчают просмотр web страниц в интернете
Структура системного машинного перевода и назначение ее основных блоков
Система МП (машинного перевода) являются моделями, которые воспроизводят на ПК речевое поведение чела, переводящего текст с одного языка на другой язык.
Автоматический двуязычный словарь |
Синтаксические соответствия |
1. Процессы морфологического анализа слов/предложений исходного языка. Каждое слово получает набор лексико-грамматических признаков. ПК формирует эти наборы с опорой на автоматический словарь.
2. Синтаксический анализ предложения исходного языка сводится к поиску основных членов предложения, определяет структуру предложения.
3. Синтаксический синтез переводного языка:
- создание предложения переводного языка, определенной синтаксической структуры, определяемой правилами исходного и переводного языка
- замена слов исходного языка на их переводные эквиваленты
4. Морфологический синтез переводного языка сводится к постановке слов переводного языка в нужном числе, форме, роде, падеже, основываясь на автоматический словарь, в котором хранятся все лексико-грамматические формы слов.
При создании автоматического словаря решаются следующие задачи:
1. выбор типа лексической единицы для словаря:
а) в виде словоформ, т.е. в автоматический словарь заносятся всевозможные формы лексической единицы, которые подаются гнездами
б) в виде квазиосновы (блок #...)
- числа, стоящие после решетки (001, 002) условно обозначают те наборы суффиксов и окончаний, которые необходимо присоединить к основе, чтобы получить соответствующие формы слою
2. выбор типа лексической единицы зависит от:
- от типа языка (для русского, немецкого, белорусского – квазиоснова, для английского, французского – словоформа)
- от объема словаря
- от типа системы машинного перевода, для информативного перевода – квазиоснова, для профессионального – словоформа
3. отбор лексики для входного и подходящие эквиваленты для выходного словаря
4. создание машинной словарной статьи для каждой лексической единицы машинной словарной статьи лексическая единица вместе с набором ее всевозможных признаков
В словарной статье выделяют четыре зоны:
1. зона морфологических сведений
2. зона семантических сведений
а) принадлежность к определенному семантическому подклассу
б) переводные эквиваленты
3. зона синтаксических сведений (управление глагола или предлога)
4. зона лексических сведений
а) стилистическое использование лексической единицы (общеупотребительное или принадлежит к какому-то языку)
б) использование лексической единицы как части фразеологизма
Понимание и порождение письменной и устной речи с помощью ПК
Задачи автоматического понимания и порождения текста и речи очень сложны. Для их реализации в компьютерные системы нужно вложить огромный объем знаний об окружающем мире, естественных языках, а также очень сложные правила текста и речеобразования, лежащие в основе речемыслительной деятельности человека. В полном объеме это будет решено в будущем, а пока компы, обладающие возможностью обрабатывать письменные тексты и устную речь имеют в своей памяти ограниченные конкретной предметной областью базы знаний.
Базы знаний – это совокупность структурированных лингвистических и нелингвистических данных, а также правила их обработки.
Компьютерные системы понимания текста
Существуют разные точки зрения на проблему компьютерного понимания, выделяют различные уровни понимания текста, построены разные системы, способные понимать текст. Наиболее сложным для понимания являются тексты, описывающие взаимопонимание и поступки действующих лиц. Более простыми являются тексты, содержащие описание фрагментов статического мира, т.е. научные книги, статьи. Понимание в таких системах трактуется как извлечение из текста наиболее существенной с точки зрения ПК инфы. Полученная в результате понимания инфа может пополнять базу знаний компьютерной системы или может быть передана пользователю.
Под передачей понятого пользователю имеют в виду способность компа отвечать на вопросы пользователя относительно событий, фактов, описанных в исходном тексте в виде связного текста, а не в виде отдельных слов или предложений.
Согласно современным теориям автоматического понимания текста комп понял текст, если он может: