КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Системы извлечения знаний
Прорыв в области высокоскоростных коммуникаций, ориентация сети Internet на реализацию коммерческих приложений привели к тому, что объем данных, требующих осмысленной обработки, возрос настолько, что появилась реальная потребность в недорогих, простых в обращении, но достаточно гибких программах для осмысленного анализа лавинообразного потока «сырой» информации. В результате этого спроса возник рынок интеллектуальных систем нового поколения. Стали появляться программы, способные самостоятельно, без предварительного обучения на опыте эксперта, извлекать информацию (знания) из баз данных большого объема и глобальных информационных сетей. Многие из этих программ были выпущены на рынок не совсем доработанными, что объясняется стремлениемих производителей закрепиться в новой рыночной нише, однако темпы роста нового рынка и интерес, проявляемый к нему со стороны бизнесменов и политиков, позволяют специалистам предсказывать ему большое будущее. В настоящее время нет строго определенного термина, обозначающего новый класс интеллектуальных систем. Чаще всего в литературе для их обозначения используется англоязычное словосочетание «data mining». В русскоязычном варианте можно встретить названия: «системы добычи данных (знаний)», «системы извлечения знаний», DM-системы и некоторые другие. Наиболее важными отличительными особенностями систем, относимых к DM-системам. 1. Прежде всего, DM-системы обеспечивают автоматическое выявление корреляций между различными атрибутами элементов данных в реляционных БД. С их помощью можно получить ответы, например, на такие вопросы, как: «Какие факторы способствуют увеличению числа продаж того или иного товара? Какие события влияют на изменения котировок ценных бумаг? Какова общая картина политических симпатий избирателей по регионам?» Часто в качестве одного из контролируемых параметров выступает шкала времени, тогда система имеет возможность отображать динамику валютных торгов, прогнозы пополнения сырьевых запасов, эволюцию взглядов электората.
Современные DM-системы способны не только находить корреляционные зависимости, но и оценивать вероятность каждой гипотезы. А наиболее мощные системы, использующие аппарат нечеткой логики, способны оперировать как количественными, так и качественными параметрами — «популярный», «прибыльный», «стабильный» и др. 2. Важной функцией DM-систем является автоматическая кластеризация данных для ответов, например, на такие вопросы: «На какие группы делятся клиенты страховой компании?» «Какая группа наиболее представительна?» «Какая наиболее доходна?» Обычно пользователей интересует не только количество и размер кластеров, но и расположение их центров, характеризующее черты типичного представителя данного класса объектов, четкость границ и многие другие параметры. 3. Следующим важным атрибутом больших DM-систем является возможность автоматизированной обработки неструктурированной текстовой информации. 4. Еще одна важная особенность — каждая DM-система в той или иной степени обладает способностью генерировать итоговые отчеты в форме, максимально приближенной к тексту на естественном языке. Для решения основной задачи DM-систем — выделения корреляционных зависимостей между данными — чаще всего используются три подхода: многомерный корреляционный анализ, обработка гипотез по принципу «запрос-отчет» и так называемые «интеллектуальные агенты». Основными потребителями систем искусственного интеллекта в настоящее время являются военно-промышленные комплексы, а также финансовые и банковские структуры. Индустриальные компании, обладающие исследовательским потенциалом, обычно идут по пути создания собственных систем для обработки технической, управленческой и маркетинговой информации.
Литература к лекции 1. Симонович С.В. Информатика для юристов и экономистов. — СПб: Питер, 2001 2. Симонович С.В. Информатика. Базовый курс. — СПб: Питер, 2000 3. Косарев В.П. Компьютерные системы и сети: Учебное пособие. — М.: Финансы и статистика, 1999
КРАТКИЙ СЛОВАРЬ ТЕРМИНОВ Адаптер - устройство, обеспечивающее согласование параметров входных и выходных сигналов в системе. Алгоритм - точное предписание, определяющее процесс, ведущий от варьируемых начальных данных к искомому результату. Архитектура ЭВМ - концепция, определяющая модель, общую организационную структуру, выполняемые функции, взаимосвязь устройств, методы кодирования обрабатываемых данных в ЭВМ. Архитектура безопасности данных - концептуальные положения, определяющие методы и средства защиты данных. Архитектура "клиент-сервер" - концепция локальной сети, при которой основная часть ее ресурсов размешена на серверах, обслуживающих своих клиентов.
База данных - совокупность взаимосвязанных, хранящихся вместе данных при минимальной избыточности, допускающей их оптимальное использование для одного или нескольких приложений. База знаний - организованная по особым принципам совокупность знаний, относящихся к какой-либо предметной области. Банк данных - информационная система, содержащая комплекс специальных методов и средств поддержки информационной модели предметной области с целью обеспечения информационных запросов пользователей. Безопасность данных - концепция защиты данных от случайного или преднамеренного их изменения, уничтожения, разглашения или несанкционированного использования. Буфер - запоминающее устройство для временного хранения данных и согласования скоростей взаимодействия устройств с разными возможностями. Видеоадаптер, или видеоконтроллер - специальная плата ПК, обеспечивающая формирование изображения на экране монитора информации, передаваемой процессором. Внешняя память - память компьютера, непосредственно не доступная процессору. Данные - материальные объекты произвольной формы, выступающие в качестве средства представления информации. Дисплей - устройство ввода, редактирования и визуального отображения информации на экране. Домен - выделенное множество объектов. Драйвер - специальная вспомогательная программа, управляющая внешними устройствами ПК или управляющая выполнением программ. Знание жесткое - знание, которое может быть выражено в виде строгих математических моделей и категорий естественнонаучных теорий. Знание мягкое - спектр решений, между которыми приходится делать выбор, когда правила и критерии такого выбора жестко не определены. Идентификация - процесс отождествления какого-либо объекта с одним из известных. Инструментальное ПО - средство разработки и развития программного обеспечения. Интегральная схема - миниатюрное электронное устройство, элементы которого соединены технологически.
Интерфейс - определенная система правил взаимодействия между взаимодействующими объектами (пользователями, устройствами, программами, процессами и др.). Интерфейс пользователя - порядок, определяющий процедуры взаимодействия пользователя с системой. Информатика - научная область, изучающая модели, методы и средства преобразования информации. Информация - мера устранения неопределенности в отношении исхода тогоили иного события. Информационная база - вся совокупность информации реального объекта. Информационный поток - совокупность информационных массивов конкретной деятельности, имеющая динамический характер. Информационная сеть - сеть для обработки, хранения и передачи данных. Клавиатура - устройство ручного ввода информации в ПК. Кодирование - процесс представления данных последовательностью символов иной формы или значения. Команда ЭВМ - инструкция, представленная в специальном формате. Коммуникационная сеть - сеть, основной задачей которой является передача данных. Компьютерный вирус - специально написанная, небольшая по размерам программа, вызывающая нарушения нормального выполнения различных программ пользователя, порчу файлов, создающая различные помехи при работе ПК. Контроллер - специализированное устройство (или плата), управляющее работой некоторого периферийного устройства и обеспечивающее его связь с системной платой. Компьютер - общее название вычислительной машины, предназначенной для выполнения преобразований над вводимыми и хранимыми в ней данными. Криптография - способ преобразования данных с целью сделать их непонятными для непосвященных лиц. Локальная вычислительная сеть - система взаимодействующих и связанных между собой средствами передачи информации компьютеров, размещенных на ограниченной территории. Макрокоманда - последовательность команд, выделяемая в виде небольшой программы. Маршрутизация - процесс определения в коммуникационной сети пути, по которому может происходить передача данных. Массив - упорядоченное множество однотипных элементов данных. Меню - список команд или функций, представляемых пользователю на выбор. Микропроцессор - процессор, выполненный в одном или нескольких взаимосвязанных полупроводниковых кристаллах интегральных схем. Модем - устройство преобразования сигналов при передаче их между удаленными компьютерами. Модуль - функционально законченная часть программы или конструктивно законченный элемент. Мышь - устройство позиционирования, служащее для указания координат на экране. Накопитель информации - устройство для долговременного хранения больших объемов информации. Нейрокомпьютер - вычислительная система, аппаратное и программное обеспечение которой ориентировано на реализацию нейросетевых алгоритмов. Одноранговая архитектура сети - концепция архитектуры сети, в которой ее ресурсы рассредоточены среди равноправных абонентов. Окно - средство фрагментации данных при их представлении и обработке. Оперативная память - память для хранения команд и данных, необходимых процессору для выполненияим операций. Операционная система (ОС) - комплекс программ для управления и координации работы всех устройств ПК, управления процессом выполнения прикладных программ и обеспечения диалога с пользователем. Пакет - блок данных, передаваемый между абонентами на сетевом уровне. Память - обобщенное название устройств в компьютере, предназначенных для хранения данных. Папка - средство организации и представления системных ресурсов ПК в операционных системах Windows. Параллельная обработка - модель выполнения прикладных процессов (программ) одновременно группой процессоров. Пароль - признак, удостоверяющий полномочия пользователя или программы на использование какого-либо ресурса. Периферийное устройство ПК - устройство, которое непосредственно не размещено на его системной плате. Пиктограмма - небольшое графическое изображение объекта или действия в виде условного значка. Поле - часть записи для размещения определенного типа данных. Порт - точка доступа к устройству либо к программе. Прикладная программа - программа, описывающая процесс выполнения определенной задачи. Принтер - устройство вывода данных на бумагу. Провайдер - организация (юридическое лицо), обеспечивающая работу узла (сайга) в сети Интернет. Проводник - специальная программа для управления файловой системой в Windows. Программа - формализованное описание последовательности действий устройств компьютера по реализации той или иной задачи. Программирование - процесс создания программы для ЭВМ. Программное средство - формализованное описание процесса, обеспечивающее автоматизацию решения на компьютере задач пользователя как независимо, так и с помощью программно-инструментальных средств. Программное обеспечение ПК - совокупность программ и необходимой документации, обеспечивающих обработку или передачу данных. Программно-инструментальное средство - комплекс программных продуктов для автоматизации разработки программного обеспечения. Протокол - стандарт, определяющий способ преобразования информации для ее передачи по сетям. Процессор - устройство компьютера, служащее для выполнения команд. Рабочая станция - компьютер в сети, специализированный на решении определенных задач пользователя. Разделение времени - технология работы ПК, предусматривающая чередование во времени нескольких процессов (программ), выполняемых в одном компьютере. Реляционная база данных - база данных, логически организованная в виде набора отношений ее компонентов. CASE-технология - совокупность средств системного анализа, проектирования, разработки и сопровождения сложных программных систем, поддерживаемых комплексом взаимосвязанных инструментальных средств автоматизации всех этапов разработки программ. Сервер - как правило, компьютер высокой производительности, предоставляющий сервис другим компьютерам сети. Сеть - взаимодействующая совокупность объектов, образуемых устройствами передачи и обработки данных. Сеть Интернет - глобальная международная ассоциация информационных сетей. Система - организованное множество, образующее целостное единство, направленное на достижение определенной цели. Сканер - устройство автоматизированного ввода графической и текстовой информации в компьютер. Сообщение - набор данных со смысловым содержанием, пригодных для обработки и передачи. Список - упорядоченная последовательность произвольных элементов данных. Стример - устройство для хранения и воспроизведения больших объемов информации на кассетную магнитную ленту. Текстовый редактор - обобщенное название комплекса прикладных программ для создания и редактирования текстов, программ и документов. Телеконференция - метод проведения дискуссий между удаленными группами пользователей в сети Интернет, Терминал - устройство ввода-вывода данных и команд в компьютер или в сеть. Технология - совокупность методов обработки, изготовления, изменения состояния, свойств, формы сырья и материалов, включая информацию, в процессе производства конечной продукции. Транслятор - специальная программа перевода исходной программы на машинный язык компьютера. Утилита - программа вспомогательного или служебного назначения для ПК. Файл - поименованная целостная совокупность данных в памяти ПК или на машинном носителе. Формат - структура информационного объекта. Форматирование диска - процесс записи на него управляющей информации, определяющей точки начала и конца отдельных секторов диска. Шрифт - набор форм символов алфавита, служащий для восприятия устройствами компьютера и людьми. Экономическая информация - информация, отражающая и обслуживающая процессы производства, распределения, обмена и потребления материальных продуктов и благ. Экспертная система - система, объединяющая возможности компьютера со знаниями и опытом эксперта в такой форме, что она может предложить разумный совет или разумное решение задачи с пояснением хода своих рассуждении в понятной человеку форме. Электронная почта - средство передачи сообщений по сети без применения бумажного носителя. Электронная таблица - распространенное название комплекса прикладных программ для обработки таблиц. Ярлык - в операционной системе Windows определяется как файл, содержащий путь к объекту. Ячейка - адресуемый элемент однородной структуры, например таблицы.
Дата добавления: 2014-01-03; Просмотров: 1199; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |