Основы статистического анализа в пакете STATISTICA

Преподаватель:

Шишаков Виталий Владимирович

Отчетность:

экзамен

Тип:

обязательный

Часов:

Семестр:

VI-11

Спецкурс посвящён изучению основных методов математической теории распознавания, классификации и идентификации. Эта теория, включая её применение к разнообразным прикладным задачам, является одной из наиболее активно развивающихся областей математики и математической кибернетики. Концепция теории распознавания лежит в основе современных информационных систем, реализованных путём применения новейших компьютерных технологий. Интерес к проблеме распознавания продолжает быстро расти из-за расширяющегося круга задач в областях техники, вычислительной математики и кибернетики, теории информации, физики, химии, лингвистики, биологии, медицины.

Проблемы распознавания трактуются в тесной связи с проблемами анализа данных и обработки информации, теория распознавания выступает как самостоятельное направление со своими задачами, аппаратом и методологией. При изложении материала основное внимание уделяется получению фундаментальных результатов применения математических методов распознавания образов: детерминистских, статистических, алгебраических и логических. В каждом разделе рассмотрены соответствующие алгоритмы классификации, реализующие правила принятия решений в рамках изучаемых методов распознавания.

Особенностью данного спецкурса является изучение теоретико-возможностных методов распознавания образов, являющихся наиболее эффективными при идентификации объектов, характеризующихся нечёткостью и неопределённостью их описания, связанных со случайностью и неточностью данных, их неполнотой и недостоверностью, а также изменчивостью во времени.

Программа

Понятие решающей функции. Линейные решающие функции. Три случая классификации. Обобщённые решающие функции. Квадратичная решающая функция.
Пространство образов и пространство весов. Многогранный конус как область решения для весового вектора. Геометрические свойства гиперплоскостей. Дихотомия образов. Дихотомизационная мощность.
Классификация образов с помощью функции правдоподобия. Байесовское решающее правило. Отношение правдоподобия. Случай двоичных потерь.
Байесовское решающее правило в случае нормально распределённых образов. Квадратичная решающая функция. Линейная решающая функция. Распределение вероятности ошибок. Расстояние Махаланобиса.
Использование энтропии для оценки плотности распределения. Рекуррентное соотношение для оценки математического ожидания и ковариационной матрицы. Аппроксимация плотностей распределения функциями. Минимизация среднеквадратичной ошибки. «Подгонка» плотности распределения в пакете «STATISTICA».
Классификация образов с помощью функций расстояния. Алгоритмы выявления кластеров.
Алгоритм перцептрона. Метод градиентного спуска. Функции критерия. Алгоритм, основанный на минимизации с.к. ошибки. Критерий разделимости классов.
Нейронные сети. Сети обратного распространения. Сети встречного распространения. Метод потенциальных функций. Кумулятивный потенциал. Выбор потенциальных функций.
Внутримножественное расстояние. Преобразование кластеризации и упорядочение признаков. Ортонормированное преобразование. Аппроксимация выборки нормальным распределением. Сравнительный анализ решающих правил.
Выбор признаков при помощи минимизации энтропии. Применение дискретного разложения Карунена-Лоэва при выборе признаков.
Выбор признаков посредством аппроксимации функциями. Использование функции признаков при классификации.
Концепция дивергенции. Выбор признаков на основе максимизации дивергенции.
Дискриминантный анализ.
Логические решающие функции. Алгоритмы поиска логических закономерностей. Параметрический алгоритм обучения типа «Кора». Представительные наборы признаков. Байесовское решающее правило.
Теоретико-возможностные методы распознавания образов. Критерий минимума возможности потерь. Правило решения, минимизирующее возможность потерь. Сравнительный анализ статистических и нечётких оптимальных решений.

Литература

Ту Дж., Гонсалес Р. Принципы распознавания образов. — М.: Мир, 1978, 411 с.
Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. — М,: Наука, 1974.
Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности. — М.: Финансы и статистика, 1989, 607 с.
Каримов Р.Н. Обработка экспериментальной информации. Уч. Пособие. Ч. 3. Многомерный анализ. СГТУ, Саратов, 2000, 108 с.
Ким Дж, Мьюллер Ч.У. и др. Факторный, дискриминантный и кластерный анализ. Пер. с англ. — М.: Финансы и статистика, 1989, 215 с.
Лбов Г.С. Методы обработки разнотипных экспериментальных данных. — Новосибирск: Наука, 1981.
Пытьев Ю.П. Возможность как альтернатива вероятности. — М.: Физматлит, 2007.
Боровиков В. STATISTICA. Искусство анализа данных на компьютере: Для профессионалов. — СПб.: Питер, 2003. — 688 с.

Основы статистического анализа в пакете STATISTICA

Главное меню