Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

RSS-агрегатор

Для решения задачи интеграции новостной информации было создано несколько форматов описания данных на основе XML. Самый распространенный формат получил название RSS, что означает Really Simple Syndication, Rich Site Summary.

Автоматические ответы на вопросы

Системы автоматических ответов на вопросы пользователей (ЗОС), задумывались еще на заре кибернетики. Некоторые практи­ческие наработки в этой области были получены в эпоху расцвета идеологии экс­пертных систем (80-90-е годы XX века). В последние годы в связи с развитием технологии Text Mining о таких системах говорят все чаще, прежде всего в связи с возможностью их практической реализации. В качестве базы знаний в этих системах предполагается ис­пользовать ресурсы Internet, обработанные современными средствами глубинного анализа текстов.

Первые работы в этой области провела корпорация Microsoft в исследовательском центре корпора­ции (Microsoft Research).

Разработан алгоритм работы ЗОС. В соответствии с ним, вопрос пользователя поступает модулю, переводящему его в запрос на информационно-поисковом языке. При этом на основе статистических подходов из строки, т.е. вопроса пользователя, выделяются и нормируются ключевые слова, которые затем и становятся основой запроса. После чего происходит обращение к традиционной поисковой системе.

После получения откликов от традиционных поисковых систем первые N до­кументов (наиболее релевантные, ранжированные) обрабатываются модулем фильтрации, который выполняет дополнительный поиск и выделяет наиболее релевантные фрагменты из этих документов. Результаты фильтрации поступают на модуль, который по весовому алгоритму выбирает необхо­димое для ответа слово или предложение.

Была разработана первая версия системы, получившая на­звание "Ask MSR", которая способна не только проводить поиск в Сети, но и из­влекать из найденных Web-страниц полезную информацию, текст с фактами, ко­торые используются для ответа на вопрос пользователя. При этом ответ системы представляет собой одно слово или предложение. В настоящее время система Ask MSR является всего лишь моделью, однако уже имеются планы по выводу ее на рынок под названием AnswerBot.

Сейчас ведутся исследования над развитием алгоритмов системы, дополняя их элементами искусственно­го интеллекта. Существующая модель Ask MSR пока обеспечивает корректные ответы только на 40% вопросов, что, тем не менее, признается сегодня большим успехом.

 

RSS

RSS — семейство XML-форматов, предназначенных для описания лент новостей, анонсов статей, изменений в блогах и т. п. Информация из различных источников, представленная в формате RSS, может быть собрана, обработана и представлена пользователю в удобном для него виде специальными программами-агрегаторами.

Atom — это основанный на XML формат, предназначенный для агрегирования информации, в первую очередь с веб-сайтов. Удобен для использования в блогах, однако может применяться и для любых других новостных и периодических изданий в Интернете.

Исторически появился позже RSS и учитывал многие недостатки упомянутого формата.

 

Сейчас активно поддерживается компанией Google во многих их проектах.

 

OPML

 

Формат OPML (англ. Outline Processor Markup Language) — язык разметки структуры, XML-базированный формат, служащий для переноса в стандартную электронную форму информации о потоках, которые могут группироваться в ленты. Этот стандарт пригоден для создания списков, включающих как RSS-потоки, так и потоки других форматов — RDF, Atom и так далее.

 

Помимо OPML в настоящее время существует еще один стандарт — OCS (Open Content Syndication — открытый обмен данными), который, впрочем, уступает OPML.

 

RSS-агрегатор — клиентская программа или веб-приложение для автоматического сбора сообщений из источников, экспортирующих в форматы RSS или Atom, например заголовков новостей, блогов, подкастов и видео блогов.

<== предыдущая лекция | следующая лекция ==>
 | Выборы: понятие, принципы
Поделиться с друзьями:


Дата добавления: 2014-01-05; Просмотров: 307; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.008 сек.