Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Анализ текста




Лингвисты давно изучают, как устроен текст, и, прежде всего, предложение, играющее роль кирпичика, из совокупности которых складывается текст. Но лишь с появлением компьютеров эти исследования приобрели новое направление. Группа американских лингвистов выдвинула дерзкую идею, получившую название Джорджтаунский проект, — автоматизировать процесс перевода текстов с одного языка на другой, используя для этого ЭВМ. Идея заинтересовала лингвистов многих стран и активизировала работы в области анализа текстов.

В ходе этих работ надо было ответить, прежде всего, на вопрос: "Существуют ли строгие формальные правила, по которым строится структура предложения и структура текста?" Если о структуре предложения лингвисты накопили много материала, то структура текста ими не изучалась.

В результате проведенных исследований стало ясно, что за каждым текстом (в том числе и за отдельным предложением, являющимся своего рода мини-текстом) скрывается не одна, а несколько формальных структур, которые можно разделить на три уровня:

- синтаксический

- семантический

- прагматический.

Интерес к компьютерному анализу текста проявился с желанием добиться качественного машинного перевода. Со временем проблема машинного перевода переросла в отдельную научно-техническую проблему и фактически обрела черты отдельного научного направления с одноименным названием. Это направление возникло на стыке таких наук, как математика, кибернетика, лингвистика и программирование. Параллельно с этой проблемой учёных не покидала мечта о создании полноценного искусственного интеллекта. Активно начинались разработки так называемых виртуальных собеседников, способных поддерживать естественный диалог с человеком.

Данное выше виртуальным собеседникам определение не совсем точно. Дело в том, что цели конкретных диалогов между людьми различаются. Можно просто «поболтать», а можно обсудить важную проблему. Реализация последнего типа диалога представляет дополнительную проблему: научить программу мыслить. Поэтому функциональность большинства современных программ ограничивается возможностью ведения незатейливой беседы.

Программы, способные понимать отдельные высказывания пользователя, образуют класс программ с естественно-языковым интерфейсом. Смотрите, например, Вопросно-ответная система.

Создание виртуальных собеседников граничит с проблемой общего искусственного интеллекта, то есть единой системы (программы, машины), моделирующей интеллектуальную деятельность человека.

Виртуальные собеседники работают с «живым» языком. Обработка естественного языка, особенного разговорного стиля, — острая проблема искусственного интеллекта. И конечно, современные программы-собеседники — лишь попытки имитировать разумный диалог с машиной.

Как любая интеллектуальная система, виртуальный собеседник имеет базу знаний. В простейшем случае она представляет собой наборы возможных вопросов пользователя и соответствующих им ответов. Наиболее распространённые методы выбора ответа в этом случае следующие:

Ÿ Реакция на ключевые слова: Данный метод был использован в Элизе. Например, если фраза пользователя содержала слова «отец», «мать», «сын» и другие, Элиза могла ответить: «Расскажите больше о вашей семье».

Ÿ Совпадение фразы: Имеется ввиду похожесть фразы пользователя с теми, что содержатся в базе знаний. Может учитываться также порядок слов.

Ÿ Совпадение контекста: Часто в руководствах к программам-собеседникам просят не использовать фразы, насыщенные местоимениями, типа: «А что это такое?» Для корректного ответа некоторые программы могут проанализировать предыдущие фразы пользователя и выбрать подходящий ответ.

Своеобразной мини-проблемой являются идентификация форм слова и синонимов.

Обработка естественного языка (Natural Language Processing, NLP) — общее направление искусственного интеллекта и математической лингвистики. Оно изучает проблемы компьютерного анализа и синтеза естественных языков. Применительно к искусственному интеллекту анализ означает понимание языка, а синтез — генерацию грамотного текста. Решение этих проблем будет означать создание более удобной формы взаимодействия компьютера и человека.

Теоретически, построение естественно-языкового интерфейса для компьютеров — очень привлекательная цель. Ранние системы, такие как SHRDLU, работая с ограниченным «миром кубиков» и используя ограниченный словарный запас, выглядели чрезвычайно хорошо, вдохновляя этим своих создателей. Однако оптимизм быстро иссяк, когда эти системы столкнулись со сложностью и неоднозначностью реального мира.

Понимание естественного языка иногда считают AI-полной задачей, потому как распознавание живого языка требует огромных знаний системы об окружающем мире и возможности с ним взаимодействовать. Само определение смысла слова «понимать» — одна из главных задач искусственного интеллекта.

Качество понимания зависит от множества факторов: от языка, от национальной культуры, от самого собеседника и т. д.

Анализ текста — процесс получения высококачественной информации из текста на естественном языке. Как правило, для этого применяется статистическое обучение на основе шаблонов: входной текст разделяется с помощью шаблонов, затем производится обработка полученных данных.

При анализе письменной речи очень важно учитывать наличие ошибок со стороны человека: отсутствие пунктуационных знаков, нарушение порядка слов, опечатки, орфографические ошибки и т.д. В связи с этим понимание текста может быть ещё более затруднено. Примером могу служить самые первые виртуальные собеседники, которые могли определить, является ли предложение вопросительным, только по наличию соответствующего пунктуационного знака, завершающего фразу. Однако, к сожалению, не всегда спонтанная письменная речь обладает идеальным уровнем грамотности, в связи с чем, первое поколение виртуальных собеседников не могло претендовать даже на приближение к прохождению теста Тьюринга.

На данном этапе составлены обширные электронные словари самых различных типов. Особенным удобством и популярностью отличаются словари-графы, дуги которых передают не только отношения между возможными значениями выбранного слова, но также сообщают вероятность появления того или иного значения, дополнительную информацию, возможные словоформы и т.д.

Самые первые программы работали, анализируя текст пословно, что было не слишком эффективно и расходовало слишком много времени и ресурсов. В последствии, «научив» программу определять тип предложения и разбивать текст на упорядоченные конструкции, выделяя тема-рематические отношения, анализ лексем начал проходить быстрее и качественнее, что приблизило диалог к естественному.





Поделиться с друзьями:


Дата добавления: 2015-06-27; Просмотров: 668; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.011 сек.