КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
RSS-агрегатор
Для решения задачи интеграции новостной информации было создано несколько форматов описания данных на основе XML. Самый распространенный формат получил название RSS, что означает Really Simple Syndication, Rich Site Summary. Автоматические ответы на вопросы Системы автоматических ответов на вопросы пользователей (ЗОС), задумывались еще на заре кибернетики. Некоторые практические наработки в этой области были получены в эпоху расцвета идеологии экспертных систем (80-90-е годы XX века). В последние годы в связи с развитием технологии Text Mining о таких системах говорят все чаще, прежде всего в связи с возможностью их практической реализации. В качестве базы знаний в этих системах предполагается использовать ресурсы Internet, обработанные современными средствами глубинного анализа текстов. Первые работы в этой области провела корпорация Microsoft в исследовательском центре корпорации (Microsoft Research). Разработан алгоритм работы ЗОС. В соответствии с ним, вопрос пользователя поступает модулю, переводящему его в запрос на информационно-поисковом языке. При этом на основе статистических подходов из строки, т.е. вопроса пользователя, выделяются и нормируются ключевые слова, которые затем и становятся основой запроса. После чего происходит обращение к традиционной поисковой системе. После получения откликов от традиционных поисковых систем первые N документов (наиболее релевантные, ранжированные) обрабатываются модулем фильтрации, который выполняет дополнительный поиск и выделяет наиболее релевантные фрагменты из этих документов. Результаты фильтрации поступают на модуль, который по весовому алгоритму выбирает необходимое для ответа слово или предложение. Была разработана первая версия системы, получившая название "Ask MSR", которая способна не только проводить поиск в Сети, но и извлекать из найденных Web-страниц полезную информацию, текст с фактами, которые используются для ответа на вопрос пользователя. При этом ответ системы представляет собой одно слово или предложение. В настоящее время система Ask MSR является всего лишь моделью, однако уже имеются планы по выводу ее на рынок под названием AnswerBot. Сейчас ведутся исследования над развитием алгоритмов системы, дополняя их элементами искусственного интеллекта. Существующая модель Ask MSR пока обеспечивает корректные ответы только на 40% вопросов, что, тем не менее, признается сегодня большим успехом.
RSS RSS — семейство XML-форматов, предназначенных для описания лент новостей, анонсов статей, изменений в блогах и т. п. Информация из различных источников, представленная в формате RSS, может быть собрана, обработана и представлена пользователю в удобном для него виде специальными программами-агрегаторами. Atom — это основанный на XML формат, предназначенный для агрегирования информации, в первую очередь с веб-сайтов. Удобен для использования в блогах, однако может применяться и для любых других новостных и периодических изданий в Интернете. Исторически появился позже RSS и учитывал многие недостатки упомянутого формата.
Сейчас активно поддерживается компанией Google во многих их проектах.
OPML
Формат OPML (англ. Outline Processor Markup Language) — язык разметки структуры, XML-базированный формат, служащий для переноса в стандартную электронную форму информации о потоках, которые могут группироваться в ленты. Этот стандарт пригоден для создания списков, включающих как RSS-потоки, так и потоки других форматов — RDF, Atom и так далее.
Помимо OPML в настоящее время существует еще один стандарт — OCS (Open Content Syndication — открытый обмен данными), который, впрочем, уступает OPML.
RSS-агрегатор — клиентская программа или веб-приложение для автоматического сбора сообщений из источников, экспортирующих в форматы RSS или Atom, например заголовков новостей, блогов, подкастов и видео блогов.
Дата добавления: 2014-01-05; Просмотров: 307; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |