Прикладная статистика
Преподаватель:
Тип:
по выбору
Часов:
36
Семестр:
IV-8
Аннотация
Курс "Прикладная статистика" посвящен изложению современных разделов математической статистики. Содержание курса включает в себя основы непараметрической статистики и проверки гипотез, основы корреляционного, дисперсионного и кластерного анализа, методов регрессии и анализа временных рядов. Содержание курса является базовым с точки зрения дальнейшего изучения и практического применения статистического анализа для решения содержательных прикладных задач, в том числе, задач анализа больших данных и современных методов машинного обучения.
Программа
- Лекция 1. Непараметрическая статистика
- Устойчивость статистических процедур/робастность.
- Бутстреп (размножение выборок).
- Статистика интервальных данных.
- Статистика объектов нечисловой природы.
- Компьютеры в прикладной статистике.
- Основные нерешенные проблемы прикладной статистики.
- Лекция 2. Проверка непараметрических гипотез.
- Зависимые/независимые выборки.
- Критерий знаков. Гипотеза об однородности, медиане, доле признака. Сравнение с Т-тестом.
- Знако – ранговый критерий. Гипотеза об однородности двух выборок.
- Критерий Манна – Уитни. Гипотеза об однородности двух независимых выборок.
- Критерий Вилкоксона. Гипотеза об однородности двух независимых выборок.
- Критерий серий. Проверка случайности выборки.
- Лекция 3. Корреляционный анализ.
- Парная корреляция, коэффициент корреляции.
- Коэффициент корреляции Пирсона. Проверка гипотезы о корреляции. Таблицы сопряженности.
- Коэффициенты корреляции для различных шкал.
- Коэффициент корреляции Спирмена. Гипотеза о равенстве нулю коэффициента корреляции (проверка значимости).
- Коэффициент корреляции Кендалла. Подсчет числа проверсий и инверсий.
- Множественный корреляционный анализ. Частный и множественный коэффициенты корреляции. Корреляционная матрица. Множественный коэффициент корреляции. Коэффициент детерминации.
- Лекции 4 и 5. Дисперсионный анализ.
- Задачи дисперсионного анализа. Примеры.
- Математическая модель однофакторного дисперсионного анализа.
- Разложение полной вариативности результирующего признака в модели однофакторного дисперсионного анализа.
- Оценка параметров уравнения.
- Проверка статистических гипотез, связанных с моделью.
- Сравнительный анализ влияния различных уровней фактора на исследуемый признак.
- Линейные контрасты.
- Критерий Краскела-Уоллиса. Гипотеза о равенстве медиан.
- Критерий Левена. Критерий Бартлетта.
- Пример решения задачи.
- Общая схема проведения многофакторного дисперсионного анализа. Разложение полной вариации зависимой переменной на составляющие.
- Проверка статистических гипотез, связанных с моделью двухфакторного дисперсионного анализа.
- Эффект влияния фактора. Эффект влияния взаимодействия факторов. Относительная важность факторов. Множественные сравнения.
- Дисперсионный анализ в ряду других методов прикладной статистики.
- Лекция 6. Кластерный анализ.
- Иерархический кластерный анализ. Методы для количественных данных. Постановка задачи.
- Основные параметры кластеризации: метрика и способ агломерации.
- Метрика и ее свойства.
- Виды метрик для данных в количественной шкале. Евклидово, чебышевское, манхэттенское расстояние. Матрица расстояний.
- Способы агломерации. Метод ближнего и дальнего соседа. Метод средней и центроидной связи. Метод Уорда.
- Анализ результатов кластеризации: методы построение дендрограммы.
- Методы выбора числа кластеров.
- Лекция 7. Линейная регрессия.
- Простая и множественная линейная регрессия. Метод наименьших квадратов. Несмещенная оценка минимальной дисперсии. Несмещенная оценка дисперсии ошибки измерения. Теорема Гаусса-Маркова. Доверительные интервалы для коэффициентов и дисперсии.
- Тест общей значимости модели линейной регрессии. T-тесты для коэффициентов линейной регрессии. F –test на равенство нулю группы коэффициентов. Коэффициент детерминации R2, R2-adjusted, R2-predicted. PRESS статистика. Проблема переобучения.
- Использование регрессионной модели для прогнозирования новых значений.
- Доверительные интервалы для предсказанных значений.
- Лекция 8. Проверка адекватности модели.
- Проверка адекватности построенной модели. Анализ остатков. Графики остатков. Стандартизированные, стьюдентизированные остатки. Проверка на нормальность остатков. Квантиль-квантильные графики. Критерий Шапиро-Уилка. Тесты на отсутствие сериальной корреляции между остатками. Критерий Дарбина — Уотсона. Тесты на гетероскедастичность остатков.
- Lack of fit тест.
- Лекция 9. Подбор моделей линейной регрессии и анализ главных компонент.
- Подбор модели линейной регрессии. Регрессия лучших подмножеств. Сравнение моделей. Критерий Акаике. Прямая, обратная, stepwise регрессия.
- Проблема мультиколлинеарности. Обнаружение мультиколлинеарности. VIF коэффициенты. Методы регуляризации. Гребневая регрессия. Регрессия главных компонент.
- Лекция 10. Выбросы и метод наименьших квадратов.
- Выбросы, high leverage points. Детектирование выбросов. Расстояние Кука. DFFITS статистика. Робастная регрессия.
- Гетероскедастичность (непостоянство дисперсии). Взвешенный метод наименьших квадратов. Обобщенный метод наименьших квадратов.
- Категориальные предикторы.
- Логистическая регрессия (бинарная).
- Лекция 11. Анализ временных рядов.
- Анализ временных рядов. Классическая декомпозиция. Понятие тренда и сезонности. Выделение тренда. Фильтр скользящего среднего. Экспоненциальное сглаживание. Выделение сезонности. Другие методы выделения тренда и сезонности – X11 декомпозиция, STL декомпозиция.
- Метод дифференцирования для удаления тренда и сезонности из временного ряда (DS ряды).
- Логарифмическое преобразование данных.
- Тесты на белый шум. Критерий Портманто, критерий Люнга – Бокса, критерий знаков и т.д.
- Понятие стационарного временного ряда (слабая стационарность). Теорема Уолда.
- Автокорреляционная функция, частная автокорреляционная функция.
- Критерии стационарности ряда. Тесты на единичный корень. KPSS тест, тест Дикки-Фуллера. Вариограмма.
- Лекция 12. Скользящие средние, авторегрессионные модели и метод максимального правдоподобия.
- Модель скользящего среднего (MA(q)), авторегрессионная модель p-го порядка (AR(p)). Модель ARMA(p,q). Модель ARIMA(p,d,q).
- Метод максимального правдоподобия для подбора коэффициентов модели.
- Сравнение моделей. Критерий акаике, байесовский информационный критерий.
- Поточечное прогнозирование. Построение доверительных интервалов для прогнозируемых значений.
- Модель SARIMA (сезонная ARIMA).
- Множественная сезонность, мульти STL декомпозиция в пакете R.
- Не постоянство дисперсии. ARCH и GARCH модели.
Литература
- Пытьев Ю.П., Шишмарев И.А. Теория вероятностей, математическая статистика и элементы теории возможностей для физиков, 2010
- Лагутин М.Б. Наглядная математическая статистика, 2007
- Кобзарь А.И. Прикладная математическая статистика, 2006
- Холлендер М., Вульф Д.А. Непараметрические методы статистики, 1983
- Орлов А.И. Прикладная статистика, 2004
- Шеффе Г. Дисперсионный анализ, 1980
- Frank E. Harrell, Jr Regression Modeling Strategies 2th edition, 2015
- Douglas C. Montgomery, Elizabeth A. Peck, G. Geoffrey Vining. Introduction to Linear Regression Analysis, 6th Edition, 2021
- Frost J. Regression Analysis: An Intuitive Guide for Using and Interpreting Linear Models, 2019
- Дрейпер Норман, Смит Гарри Прикладной регрессионный анализ, 3-е издание, 1998
- Chatfield, C. (1996). The Analysis of Time Series: An Introduction, Sixth Edition (5th ed.)
- Hamilton James D. Time series analysis, 1994
- Andrew V. Metcalfe , Paul S.P. Cowpertwait. Introductory Time Series with R, 2009
- Peter J. Brockwell , Richard A. Davis. Introduction to Time Series and Forecasting, 3th Ediction, 2016
- Wilfredo Palma. Time Series Analysis, 2016
- Douglas C. Montgomery, Cheryl L. Jennings, Murat Kulahci Introduction to Time Series Analysis and Forecasting, 2nd Edition, 2015
- Aileen Nielsen. Practical Time Series Analysis: Prediction with Statistics and Machine Learning, 2020