Направление подготовки 09.03.01. «Информатика и вычислительная техника»
Профиль «Вычислительные машины, комплексы, системы и сети»
Методическое обеспечение дисциплины
Б1В.ДВ.04.01 «Методы анализа данных»
Приложение З. Б1.В.ДВ.04.01
Филиал федерального государственного бюджетного образовательного учреждения
высшего образования
«Национальный исследовательский университет «МЭИ»
в г. Смоленске
Методическое обеспечение дисциплины
МЕТОДЫ АНАЛИЗА ДАННЫХ
Смоленск – 2021 г.
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Программу составила:
канд. техн. наук, доцент
« 24 » июня
М.А. Свириденкова
подпись
2021 г.
Заведующий кафедрой вычислительной техники:
д.т.н., профессор
__
подпись
А.С. Федулов
ФИО
« 02 » июля 2021 г.
2
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Филиал федерального государственного бюджетного образовательного учреждения
высшего образования
«Национальный исследовательский университет «МЭИ»
в г. Смоленске
Сборник лабораторных работ
по дисциплине
МЕТОДЫ АНАЛИЗА ДАННЫХ
Смоленск – 2021 г.
3
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
ВВЕДЕНИЕ
Данное учебно-методическое пособие подготовлено для студентов направления 09.03.01 «Информатика и вычислительная техника» и предназначено для проведения лабораторных работ по дисциплине «Методы анализа данных».
Цель лабораторных работ – изучение принципов и методов обработки данных,
ознакомление с современными средствами обработки и анализа данных, выработка
первоначальных навыков построения моделей для решения прикладных задач.
Сборник лабораторных работ по дисциплине «Методы анализа данных» содержит описание цели исследований, задание, краткие теоретические сведения по
темам дисциплины, а также вопросы для самостоятельной подготовки студентов.
Отчет о выполненной работе должен содержать следующие части:
1. Титульный лист. Оформляется в соответствии с текущими требованиями,
принятыми в ВУЗе.
2. Оформление текста согласно текущим требованиям, принятым в ВУЗе для
оформления отчетов лабораторных работ.
3. Постановка задачи. Содержимое этого раздела должно быть конкретизировано под выполняемый вариант работы.
4. Краткие теоретические сведения. Теоретические сведения должны быть
конкретизированы под выполняемый вариант работы.
5. Описание программной реализации метода. В этом разделе приводится
описание в виде текста или блок схем реализуемых алгоритмов и методов анализа
данных.
6. Тестирование реализованного метода. В этом разделе приводятся результаты работы реализованного в виде программы метода анализа данных. Результаты
могут быть представлены в виде таблиц, графиков или снимков экрана.
7. Выводы. В этом разделе должны быть представлены выводы об обнаруженных свойствах и закономерностях реализованного метода анализа данных.
8. Список использованных источников. Приводится список использованных
источников, оформленный в соответствии с текущими требованиями, принятыми в
ВУЗе.
Исходные тексты программы не следует включать в отчет. Они должны быть
предоставлены в электронном виде вместе с исполняемым файлом программы, реализующей выданный вариант работы.
Требования к реализации программной части следующие.
Используемый язык программирования – любой на выбор студента. Желательно использовать современные языки и платформы программирования: Python,
C++, Delphi, Java, C# и т.д.; современные программные средства для выполнения
математических и технических расчетов Matlab, Mathcad; программное средство
Excel.
Интерфейс пользователя – желательно реализовывать дружественный визуальный интерфейс пользователя в виде диалоговых окон. Это ускоряет и упрощает
4
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
процедуру тестирования программы при ее приемке преподавателем. Консольный
вариант интерфейса программы так же допустим.
При сдаче программы преподавателю во время контрольного запуска программы она не должна выдавать сообщений об ошибках типа «Деление на ноль»,
«Переполнение» и т.п. Такие программы будут отправляться на доработку.
Для сдачи программа должна быть предоставлена в виде исполняемого модуля, при необходимости укомплектованная всеми нужными внешними библиотеками,
так как на компьютере преподавателя может не быть той инструментальной среды,
которую выбрал студент для реализации работы.
Исходные тексты программы должны быть отформатированы и содержать достаточное для понимания логики программы количество комментариев. Исходный
текст программы обычно используется для проверки «авторства» студента при сдаче
работы.
Исполняемый модуль и носитель (флэшка), на котором он предоставляется
для проверки преподавателю, должны быть предварительно проверены на вирусы.
5
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
1 ЛАБОРАТОРНАЯ РАБОТА № 1-2.
Анализ статистических данных
Цель работы: Приобретение навыков первичной обработки эмпирических
данных.
1.1 Задание для работы в лаборатории
По предоставленным преподавателем данным требуется провести предварительную обработку эмпирических данных. Задание следует выполнять в следующем
порядке:
1. Упорядочить исходные данные (провести сортировку по возрастанию).
Построить график данных (зависимость значения ряда от порядкового номера).
2. Исследование исходных данных.
На основе исходных данных определить:
а) среднее значение показателя;
б) размах вариации, среднее линейное отклонение, дисперсию, стандартное
отклонение, коэффициент вариации;
в) проверить распределение на нормальность с помощью коэффициентов
асимметрии и эксцесса.
Сделать выводы по каждому подпункту.
3. Исследование дискретного вариационного ряда.
На основе исходных данных построить дискретный вариационный ряд и
определить:
а) среднее значение показателя, моду и медиану;
б) размах вариации, среднее линейное отклонение, дисперсию, стандартное
отклонение, коэффициент вариации;
в) первый и третий квартили;
г) построить диаграммы распределения.
Сделать выводы по каждому подпункту.
4. Исследование интервального вариационного ряда.
На основе исходных данных построить интервальный вариационный ряд с
равными интервалами. Число интервалов может быть задано в каждом варианте на
основе: а) интуитивных соображений; б) статистических расчетов.
Определить:
а) среднее значение показателя, моду и медиану;
б) размах вариации, среднее линейное отклонение, дисперсию, стандартное
отклонение, коэффициент вариации;
в) первый и третий квартили;
г) построить диаграммы распределения.
6
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Сделать выводы по каждому подпункту.
5. Сравнительный анализ результатов.
Провести сравнительный анализ полученных результатов по пунктам 2,3,4.
Результаты оформить в виде таблицы, а потом сделать вывод.
Примерная форма сравнительной таблицы
Сравниваемый параметр
Исходные
данные
Результаты
Дискретный вариационный ряд
Интервальный
вариационный
ряд
Среднее значение
Мода
Медиана
Размах вариации
Среднее
линейное
отклонение
Дисперсия
Среднее квадратическое отклонение
Коэффициент вариации
Квартили:
1-й
2-й
3-й
6. Оформить отчет.
1.2 Теоретическая часть для лабораторной работы №1-2
1.2.1 Общие сведения
Анализ данных включает три основных этапа: 1 ) сбор; 2) подготовка, 3) обработка данных.
Данные по виду можно подразделить на числовые и категориальные.
Числовые данные (Numerical Data) – это данные, характеризующие состояние какого-либо параметра изучаемого объекта. Наиболее часто такие данные бывают представлены вещественными числами. Примерами числовых данных являются заработная плата, население страны, артериальное давление, температура воздуха.
7
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Категориальные данные (Categorical Data) – это данные, образующие признак принадлежности к какой-либо группе. Примерами категориальных данных являются экзаменационная оценка, цвет автомобиля, уровень образования человека.
Сбор данных – процесс формирования структурированного набора данных в
цифровой форме. В некоторых случаях процесс сбора данных может включать также этап оцифровки.
Как правило, оцифрованные данные бывают представлены в виде: электронных таблиц в форматах XLS либо ODS;
- текстовых файлов в формате CSV;
- веб-страниц в формате HTML;
- файлов в формате XML;
- базы данных с доступом по технологии JSON либо через специализированный интерфейс (API).
В случаях, когда источники данных структурированы и представлены в сети
Интернет, возможна реализация автоматизированного сбора данных.
Для использования в системах анализа данные должны быть представлены в
определенном, как правило, табличном виде. Однако зачастую наборы данных имеют следующие особенности:
- отличную от табличной форму представления;
- пропуски отдельных данных;
- некорректные значения;
- большие числовые значения;
- текстовые данные.
Перечисленные особенности могут либо привести к затруднениям в процессе
дальнейшей обработки данных, либо сделать её невозможной. Для устранения отмеченных несоответствий могут быть применены следующие операции:
- структурирование – приведение данных к табличному (матричному) виду;
- отбор – исключение записей с отсутствующими или некорректными значениями;
- нормализация – приведение числовых значений к определенному диапазону,
например к диапазону 0...1;
- кодирование – это представление категориальных данных в числовой форме.
Например, при бинарной классификации один из классов можно представить числом «0», а другой класс – числом «1». При множественной классификации система
кодирования несколько усложняется: создается несколько числовых полей по количеству классов в выборке данных, каждый класс кодируется проставлением числа
«1» в соответствующем поле.
Статистические данные, как правило, представляются в виде числовых таблиц
больших размеров. Если пытаться анализировать данные, просматривая таблицу,
потребуются большие затраты времени и, чаще всего, целый ряд свойств данных
останется не выявленным, поскольку представление информации в виде чисел лишено наглядности и не дает конкретного визуального указания о наличии этих
свойств. Более информативно для анализа использование графического отображе8
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
ния данных построение полигона (в случае дискретного признака) или гистограммы
(в случае непрерывного признака).
Полигоном частот называют ломаную, отрезки которой соединяют точки (x 1,
n1), (x2, n2), …, (xk, nk). Для построения полигона весь диапазон изменения исследуемого сигнала (данных) разбивают на равные интервалы и определяют частоту попадания в этот интервал. В середине каждого интервала восстанавливают перпендикуляр, равный по величине частоте попадания в соответствующий интервал и вершины интервалов соединяют прямыми. При этом справа и слева от диапазона
исследуемых данных приставляют по одному пустому интервалу. Концы полученной ломаной линии полигона соединяют с серединами (на оси абсцисс) этих интервалов.
Пример. В результате выборки получена следующая таблица распределения
частот (пример дискретного вариационного ряда).
Таблица 1.1 Распределение частот
xi
2
ni
3
6
10
12
7
На рисунке 1.1 изображен полигон частот.
Рисунок 1.1 – Полигон частот
Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною h, а высоты
равны отношению ni/ h (плотность частоты).
Для построения гистограммы частот на оси абсцисс откладывают частичные
интервалы, а над ними проводят отрезки, параллельные оси абсцисс, на расстоянии
n i/ h .
Площадь i-го частичного прямоугольника равна (ni/ h)* h = ni - сумме частот
вариант i-го интервала; следовательно, площадь гистограммы частот равна сумме
всех частот, то есть объему выборки n.
9
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
На рисунке 1.2 изображена гистограмма частот распределения объема n=100,
приведенного в таблице 1.2 (пример интервального вариационного ряда).
Таблица 1.2 - Вспомогательная таблица
Частичный интервал,
длиною h=5
Сумма частот вариант частичного интервала ni
Плотность частоты ni/ h
5 – 10
4
0,8
10 – 15
6
1,2
15 – 20
16
3,2
20 – 25
36
7,2
25 – 30
24
4,8
30 – 35
10
2,0
34 – 40
4
0,8
Рисунок 1.2 – Гистограмма частот
Визуальный анализ полигона или гистограммы позволяет выявить характер
распределения данных и ответить на следующие шесть вопросов:
1. Какие значения типичны для заданного набора данных?
2. Как различаются между собой значения (диапазон значений)?
3. Сконцентрированы ли данные вокруг некоторого типичного значения?
4. Какой характер имеет эта концентрация данных? В частности, одинаков ли
характер «затухания» для малых и больших значений данных?
5. Есть ли в заданном наборе такие значения, которые сильно отличаются от
остальных и требуют специальной обработки (выбросы)? Можно ли сказать, что в
целом это однородный набор или отчетливо наблюдается наличие групп, которые
надо анализировать отдельно?
10
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
При анализе полигонов или гистограмм иногда в данных можно наблюдать
выбросы (сильно отклоняющиеся значения), т.е. такие значения, которые либо
слишком велики, либо слишком малы. Существуют два вида выбросов: ошибки и
корректные, но «отличающиеся» значения данных.
С ошибками справиться легко они сильно отличаются от остальных значений
на гистограмме. В этом случае нужно перепроверить данные, найти ошибку и исправить это значение.
Более сложной является проблема выбросов корректных данных. Если есть
убедительное подтверждение того, что выбросы не соответствуют изучаемым данным, то их можно просто удалить и анализировать оставшиеся более согласованные
между собой данные. При отсутствии достаточно обоснованного аргумента для исключения выбросов можно выполнить два различных анализа: один с учетом выбросов, другой – с исключением их. В лучшем случае может оказаться, что наличие
выбросов не имеет существенного значения. Если два анализа дадут разные результаты, то выводы могут быть менее определенными и неоднозначными. В современной статистике в настоящее время разрабатываются устойчивые методы, в которых
применяется мощный вычислительный аппарат для учета наличия выбросов.
Обычно в статистике предполагают, что распределение данных приблизительно соответствует нормальному. Это объясняется тем, что многие стандартные методы статистического анализа, например, вычисление доверительных интервалов или
проверка статистических гипотез, требуют нормального распределения данных (хотя бы приблизительно). Зная свойства нормального распределения и изучив внимательно гистограмму, важно определить, являются ли данные нормально распределенными.
Теоретически нормальное распределение представляет собой гладкую гистограмму в форме колокола без случайных отклонений. Кривая нормального распределения задается функцией плотности распределения:
,
где a и σ – параметры распределения: a– математическое ожидание; σ2 – дисперсия
данной случайной величины. Для идеального набора нормально распределенных
данных такая кривая имеет следующий вид (рис. 1.3)
2
11
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Рисунок 1.3 – Кривая нормального распределения для идеального набора данных
Как видим, большинство чисел сконцентрировано в средней части диапазона
значений (центр колокола a), а оставшиеся значения с затуханием симметрично
располагаются по обе стороны от вершины колокола. Величина σ характеризует
ширину (масштаб) колокола. Фактически существует много кривых нормального
распределения, форма которых напоминает симметричный колокол. Эти кривые отличаются друг от друга расположением центра и масштабом σ. Ниже показаны кривые нормального распределения, построенные в разных масштабах (рис. 1.4).
Рисунок 1.4 – Кривые нормального распределения
Поскольку реальные наборы нормально распределенных данных носят случайный
характер, то они не имеют идеальную степень гладкости гистограмм и содержат некоторые случайные отклонения от теоретической кривой.
Нормальное распределение обладает рядом важнейших свойств, которые приводятся ниже:
1. Вероятность больших отклонений нормальной случайной величины от центра ее
распределения (параметра a) ничтожно мала.
2. График функции плотности нормального распределения симметричен относительно средней (параметра а).
3. Стандартное отклонение  характеризует степень сжатия или растяжения графика функции плотности распределения вероятностей.
4. Нормальная случайная величина с математическим ожиданием а и стандартным
отклонением 
с вероятностью близкой к 1 попадает в интервал
(a  3 )  Х  (a  3 ) . Это утверждение получило название правило трех сигм.
12
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
1.2.2 Вариационные ряды
Исследователь, интересующийся тарифным разрядом рабочих механического
цеха, провел опрос 100 рабочих. Расположим наблюдавшиеся значения признака в
порядке возрастания. Эта операция называется ранжированием статистических данных. В результате получим следующий ряд, который называется ранжированным:
1
,1
,..,
,2
,...,
,3
,...,
,4
,...,
,5
,...,
,6
,...,
6.
1, 2



2, 3
3, 4



4, 5
5, 6



4
6
12
16
44
18
Из ранжированного ряда следует, что исследуемый признак (тарифный разряд) принял шесть различных значений: 1, 2, 3, 4, 5 и 6.
В дальнейшем различные значения признака будем называть вариантами, а
под варьированием – понимать изменение значений признака.
В зависимости от принимаемых признаком значений признаки делятся на
дискретно варьирующие и непрерывно варьирующие.
Тарифный разряд – это дискретно варьирующий признак. Число, показывающее, сколько раз встречается вариант х в ряде наблюдений, называется частотой варианта m x .
Вместо частоты варианта х можно рассматривать ее отношение к общему числу наблюдений n, которое называется частостью варианта и обозначается w x :
wx 
mx
mx

.
n
m
 x
(1.1)
x
Таблица, позволяющая судить о распределении частот (или частостей) между
вариантами, называется дискретным вариационным рядом (таблица 1.3).
Таблица 1.3 – Дискретный вариационный ряд
Тарифный разряд, хi
1
2
3
4
5
6
Итого
Количество рабочих, m x
Доля рабочих, w x
4
6
12
16
44
18
100
0,04
0,06
0,12
0,16
0,44
0,18
1,00
Наряду с понятием частоты используют понятие накопленной частоты, которую обозначают m xнак . Накопленная частота показывает, во скольких наблюдениях
признак принял значения, меньшие заданного значения х. Отношение накопленной
13
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
частоты к общему числу наблюдений n, называют накопленной частостью и обозначают wxнак . Очевидно, что
нак
x
w
mхнак
mхнак


.
n
 mx
(1.2)
x
Накопленные частоты (частости) для дискретного вариационного ряда, заданного в таблице 1.3, вычислены в таблице 1.4.
Пусть необходимо исследовать выработку на одного рабочего-станоч-ника
механического цеха в отчетном году в процентах к предыдущему году. Здесь исследуемым признаком х является выработка в отчетном году в процентах к предыдущему. Это непрерывно варьирующий признак. Для выявления характерных черт варьирования значений признака объединим в группы рабочих, у которых величина выработки колеблется в пределах 10% (всего было опрошено 117 рабочих).
Сгруппированные данные представим в таблице 1.4.
Таблица 1.4 – Расчет накопленных частот (частостей) для дискретного вариационного ряда
Х
mx
1
2
3
4
5
4
6
12
16
44
m xнак
4
4+6=10
10+12=22
22+16=38
38+44=82
wxнак
0,04
0,10
0,22
0,38
0,82
6
18
82+18=100
1,00
Итого
100
--
--
В таблице 1.5 частоты m показывают, во скольких наблюдениях признак принял значения, принадлежащие тому или иному интервалу. Такую частоту называют
интервальной, а отношение ее к общему числу наблюдений – интервальной частостью w. Таблицу, позволяющую судить о распределении частот (или частостей)
между интервалами варьирования значений признака, называют интервальным
вариационным рядом.
В таблице 1.5. для верхних границ интервалов приведены накопленные частоты
(частости) m нак ( wнак ).
Интервальный вариационный ряд строят по данным наблюдений за
непрерывно варьирующим признаком, а также за дискретно варьирующим,
если велико число наблюдавших вариантов.
Дискретный вариационный ряд строят только для дискретно варьирующего признака.
Иногда интервальный вариационный ряд условно заменяют дискретным. Тогда серединное значение интервала принимают за вариант х, а соответствующую
интервальную частоту – за m x .
14
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Таблица 1.5 – Группировка данных исследования
Исследуемый
признак,
Частота,
m
Х
80-90
90-100
100-110
110-120
120-130
130-140
140-150
Итого
Частость,
w
Накопленная частота,
m нак
Накопленная частость,
wнак
8
15
46
29
13
3
3
117
8/117
15/117
46/117
29/117
13/117
3/117
3/117
1
8
8+15=23
23+46=69
69+29=98
98+13=111
111+3=114
114+3=117
--
8/117
23/117
69/117
98/117
111/117
114/117
117/117=1
--
Для построения интервального вариационного ряда необходимо определить величину интервала, установить полную шкалу интервалов и в соответствии с
ней сгруппировать результаты наблюдений.
Для определения оптимального постоянного интервала h часто используют
формулу Стерджесса:
h
x max  x min
,
1  3,322  lg n
(1.3)
где xmax и xmin – соответственно максимальный и минимальный значения вариант.
Если в результате расчетов h окажется дробным числом, то за величину интервала следует взять либо ближайшее целое число, либо ближайшую несложную
дробь.
За начало первого интервала рекомендуется принять величину a1  xmin  h / 2 ;
начало второго интервала совпадает с концом первого и равно a2  a1  h ; начало
третьего интервала совпадает с концом второго и равно a3  a2  h . Построение интервалов продолжается до тех пор, пока начало следующего по порядку интервала
не будет больше x max . После установления шкалы интервалов следует сгруппировать
результаты наблюдений.
1.2.3 Средние величины
Статистическая средняя величина является обобщенной характеристикой совокупности по определенному признаку. В средних величинах погашаются индивидуальные различия единиц совокупности, обусловленные случайными обстоятельствами, и находят выражение общие, закономерные черты, свойственные всей совокупности явления. Это свойство средних предопределяет использование их в
качестве основного метода статистической науки. Заметим, что только для качественно однородных наблюдений имеет смысл вычислять средние величины.
15
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Определить среднюю во многих случаях можно через исходное соотношение
средней (ИСС) или логическую формулу средней (ЛФС):
ИСС 
Суммарное значение или объем осредняемого признака
Число единиц или объем совокупности
Так, например, для расчета средней урожайности картофеля региона, состоящего из нескольких областей, ИСС представляет собой следующее отношение:
ИСС 
Валовой сбор
Посевная площадь
Для каждого показателя, используемого в социально-экономическом анализе,
можно составить только одно истинное исходное соотношение для расчета средней.
Если, например, требуется рассчитать средний размер вклада в банке, то ИСС будет
следующим:
ИСС 
Сумма всех вкладов, руб.
Число вкладов
От того, в каком виде представлены исходные данные для расчета средней, зависит, каким именно образом будет реализовано ее исходное соотношение. В каждом конкретном случае для реализации ИСС потребуется одна из следующих
форм средней величины: средняя арифметическая; средняя гармоническая; средняя геометрическая; средняя квадратическая, кубическая и т.д.
Перечисленные средние относятся к степенным средним. Степенной средней q-го порядка xq называют такую среднюю, при замене которой каждого
наблюдения остается неизменной сумма q-тых степеней наблюдений:
 x   x  ,
n
i 1
q
i
q
(1.4)
q
где xi – i-тый вариант усредняемого признака;
n – количество наблюдений;
q – положительное или отрицательное целое число.
Из формулы (1.4) получаем выражение для расчета степенной средней q-ого
порядка:
n
xq 
q
x
i 1
n
q
i
.
При q =1 имеем простую среднюю арифметическую (невзвешенную):
16
(1.5)
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
n
х
хариф  х1 
i i
i
(1.6)
n
При q =-1 имеем среднюю гармоническую:
 n 1 
  xi 
 n
xгарм  х1  1/ i 1
n
 n 
1

 

 i 1 xi
(1.7)
При q =2 имеет место средняя квадратическая, при q =3 – средняя кубическая и т.д.
Средней геометрической xгеом называют корень n-ной степени из произведения значений наблюдений x 1 , x 2 ,..., x n :
xгеом 
n
n
x .
(1.8)
i
i 1
Можно показать, что xгеом  lim xq q0.
Наиболее распространенной средней величиной является средняя арифметическая. Простая (невзвешенная) средняя арифметическая рассчитывается по формуле (1.9). Далее среднюю арифметическую величину будем обозначать x .
Если по наблюдениям построен вариационный ряд, то средняя арифметическая величина имеет вид:
xm
x
,
m

x
x
x
(1.9)
x
где
вальный;
х – вариант, если ряд дискретный, и центр интервала, если ряд интер-
m x – соответствующая частота; n   mx .
x
Частоты m x в формуле (1.10) называют весами, операцию умножения х на m x операцией взвешивания, а среднюю арифметическую, вычисленную по формуле
(1.10) – средней арифметической взвешенной.
Среднюю арифметическую величину для вариационного ряда можно вычислять по формуле:
x   x  wx ,
x
17
(1.10)
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
которая является следствием формулы (1.9).
Действительно,


xm

m 
 m 
x
  x 

  xw
  x 
m
m
n



  


x
x
x
x
x
x
x
x
x
x
x
x
Рассмотрим основные свойства средней арифметической.
Сумма отклонений результатов наблюдений от средней арифметической равна
нулю.
Если все результаты наблюдений уменьшить (увеличить) на одно и то же число, то средняя арифметическая уменьшится (увеличится) на то же число.
Если все результаты наблюдений уменьшить (увеличить) в одно и тоже число
раз, то средняя арифметическая уменьшится (увеличится) во столько же раз.
Если ряд наблюдений состоит из k групп наблюдений, то средняя арифметическая всего ряда x равна взвешенной средней арифметической групповых средних
x i , причем весами являются объемы групп ni :
k
xi  ni
x1  n1  x2  n2  ...  xk  nk 
i 1
x
 k
n1  n2  ...  nk
 ni
(1.11)
i 1
Средняя арифметическая для сумм (разностей) взаимно соответствующих значений
признака двух рядов наблюдений с одинаковым числом наблюдений равна сумме
(разности) средних арифметических этих рядов:
x y=x  y ,
x y= x  y
Следствие. Средняя арифметическая алгебраической суммы соответствующих значений признака нескольких рядов наблюдений равна алгебраической сумме средних
арифметических этих рядов.
Известно, что степенные средние разных видов, исчисленные по одной и той
же совокупности, имеет различные количественные значения. И чем больше показатель степени, тем больше и величина соответствующей средней:
x гарм  x геом  xарифм  xкв .
Это свойство степенных средних возрастать с повышением показателя степени определяющей функции называется мажорантностью средних.
Таблица 1.6 - Виды степенных средних и их применение
18
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
m
1
–1
Формула расчета средней
простая
взвешенная
Название
средней
Арифметическая
Гармоническая
Х ар =
 Хi
Х ГМ =
N
N
1
X
i
(1)
 Х i fi
Х ар =
 fi
(2)
Х ГМ =
Геометрическая
X геом  N  X i
2
3
1
Квадратическая
Кубическая
Хронологическая
кв
Х куб
2
i
N
=3
X
N
i
i
N
X геом  N  X i i
(3)
i 1
X
Х = 
Чаще всего, кроме
тех случаев, когда
должны применяться другие виды
средних
Для осреднения величин с дробной
размерностью при
наличии дополнительных данных по
числителю дробной
размерности
Для осреднения
цепных индексов
динамики
Для осреднения вариации признака
(расчет средних отклонений)
i
N
0
f
f
X
Когда применяется
f
i 1
Х f
Х =
f
Х f
Х =
f
(X  X ) f
X
2 f
2
i i
кв
(4)
i
3
i
куб
(5)
3
i
3
Для расчета индексов нищеты населения
i
i
X 1  X N N 1
  Xi
2
2
(6)
X ХР 
N 1
ХР
i 1
i
i
i
Для осреднения моментных статистических величин
Помимо степенных средних, в статистической практике также используются
позиционные средние, среди которых наиболее распространены мода и медиана.
Медианой М е называют значение признака, приходящегося на середину ранжированного ряда наблюдений, если проведено нечетное число наблюдений
n  2  l  1 , а результаты наблюдений проранжированы и выписаны в следующий ряд:
x1 , x2  ,..., xl 1 , xl  , xl 1 ,..., xn 1 , xn  ,
где
ду.
x i  – значение признака, занявшее i-ое порядковое место в ранжированном ря-
На середину ряда приходится значение x l  , следовательно М е = x l  .
Если проведено четное число наблюдений n=2l, то на середину ранжированного ряда x1 , x2  ,..., xl 1 , xl  , xl 1 ,..., xn 1 , xn  , приходятся значения x l  и xl 1 . В этом
случае за медиану принимают среднюю арифметическую значений x l  и xl 1 –
Me 
xl   xl 1
.
2
Для интервального вариационного ряда медиана определяется по формуле:
19
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Me  X Me  h
 1
0,5 f  f Me
(1.12)
f Me
Если в формуле (1.12) числитель и знаменатель входящей в нее дроби разделить на n, то получим другую формулу для расчета М е :
0,5  weнак
M e  ae  h 
,
we
(1.13)
где XMe – нижняя граница медианного интервала; h – его величина (размах);
 1 ( weнак ) – сумма наблюдений (или объема взвешивающего признака), накопленная
f Me
до начала медианного интервала; f M we  – число наблюдений или объем взвешивающего признака в медианном интервале.
e
Медианным называется интервал, у которого первый раз накопленная частота
(частость) станет равной или более половины всех наблюдений ( 0,5).
Модой ( M o ) называют такое значение признака, которое наблюдалось
наибольшее число раз.
Для дискретного вариационного ряда модой является вариант, которому соответствует наибольшая частота (частость).
В случае интервального вариационного ряда мода вычисляется по следующей формуле:
Mo  X Mo  h
f Mo  f Mo1
2 f Mo  f Mo1  f Mo1
(1.14)
или по тождественной формуле:
M o  X M0  h 
wo  wo '
.
2  wo  wo ' wo "
(1.15)
где ХMo – нижнее значение модального интервала, то есть такого, которому соответствует наибольшая частота (частость); f M wo  – частота (частость) модального
интервала; f M 1 wo ' – частота (частость) интервала, предшествующего модальному;
f M 1 wo " – частота (частость) интервала, следующего за модальным.
h – величина интервала изменения признака в группах.
0
0
0
Пример
20
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Пусть имеются следующие данные о возрастном составе студентов группы заочного отделения ВУЗа (лет): 19; 19; 19; 20; 20; 20; 20; 20; 20; 20; 20; 20; 21; 21; 21;
22; 23; 23; 24; 25; 25; 25; 26; 27; 29. Для анализа распределения студентов по возрасту требуется:
1) построить интервальный ряд распределения и его график;
2) рассчитать модальный, медианный и средний возраст, установить его типичность
с помощью коэффициентов вариации;
3) проверить распределение на нормальность с помощью коэффициентов асимметрии и эксцесса.
Решение. Для построения интервального ряда из дискретного используется
формула Стерджесса, с помощью которой определяется оптимальное количество
интервалов (n):
n = 1 +3,322 lg N,
(1.16)
где N – число величин в дискретном ряде.
Для нашей задачи n = 1 + 3,322lg25 = 1 + 3,322*1,398 = 5,64.
Так как число интервалов не может быть дробным, то округлим его до ближайшего целого числа, т.е. до 6. После определения оптимального количества интервалов определяем размах интервала по формуле:
h = H / n,
(1.17)
где H – размах вариации, определяемый по формуле
H = Хмах –Хmin,
(1.18).
(1.18)
где Xмax и Xmin — максимальное и минимальное значения в совокупности.
Для нашей задачи h = (29 – 19)/6 = 1,67.
Далее необходимо сформировать интервалы возрастного состава студентов
(первый столбец таблицы 1.7), а также рассчитать частоты попадания студента
определенного возраста в тот или иной интервал (второй столбец таблицы 1.7). В
результате интервальная группировка данных приведена в таблице 1.7, в которой
представлены также промежуточные расчеты п.2 и 3 задания.
Таблица 1.7 - Вспомогательные расчеты для решения задачи
Xi , лет
fi
fiнак
до 20,67
20,67-22,33
22,33-24
24-25,67
12
4
3
3
12
16
19
22
ХИ
XИfi
19,833 237,996
21,5 86,000
23,167 69,501
24,833 74,499
X И - X f i (ХИ- Х )2fi (ХИ- Х )3 fi
25,602
1,866
3,601
8,599
21
54,623
0,871
4,323
24,650
-116,539
-0,406
5,190
70,659
(ХИ- Х )4 fi
248,638
0,189
6,231
202,543
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Xi , лет
fi
25,67-27,33 2
более 27,33 1
Итого
25
fiнак
24
25
ХИ
XИfi
26,5 53,000
28,167 28,167
—
549,163
X И - X f i (ХИ- Х )2fi (ХИ- Х )3 fi
(ХИ- Х )4 fi
9,067
6,200
54,937
844,806
1478,091
2780,498
41,105
38,446
164,018
186,348
238,383
383,636
На основе этой группировки строится график распределения возраста студентов (рис. 1.5).
1,2
0,8
0,6
0,4
0,2
Число студентов
1
13
12
11
10
9
8
7
6
5
4
3
2
1
0
12
4
3
19-20,67
20,67-22,33
22,33-24
3
24-25,67
2
25,67-27,33
1
27,33-29
Возраст, лет
0
Рисунок 1.5 - График распределения возраста студентов
Мода – это наиболее часто повторяющееся значение признака. Для интервального ряда с равными интервалами величина моды определяется по формуле Ошибка! Источник ссылки не найден.:
В нашей задаче чаще всего повторяется (12 раз) первый интервал возраста (до
20,67), значит, это и есть модальный интервал. Используя формулу Ошибка! Источник ссылки не найден., определяем точное значение модального возраста:
Мо = 19 + 1,667*(12-0)/(2*12-4-0) = 20 (лет).
Таким образом, в представленной выборке наиболее часто встречаются студенты 20-летнего возраста.
Медиана – это такое значение признака, которое приходится на середину ранжированного ряда. Таким образом, в ранжированном ряду распределения одна половина ряда имеет значения признака больше медианы, другая – меньше медианы.
Для интервального ряда с равными интервалами величина медианы определяется по
формуле (1.12):
В нашей задаче второй интервал возраста (от 20,67 до 22,33) является медианным, так как на него приходится середина ряда распределения возраста ( 16> 25).
Используя формулу Ошибка! Источник ссылки не найден., определяем точное
значение медианного возраста:
Ме = 20,67 + 1,667*(12,5-12)/4 = 20,878 (года).
22
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Это означает, что 50% студентов данной выборки имеют возраст до 20,9 года, а 50% - более 20,9 года.
Средняя величина – это обобщающий показатель совокупности, характеризующий уровень изучаемого явления или процесса. Средние величины могут быть
простыми и взвешенными. Простая средняя рассчитывается при наличии двух и более статистических величин, расположенных в произвольном (несгруппированном)
порядке, по общей формуле (1.19). Взвешенная средняя величина рассчитывается
по сгруппированным статистическим величинам с использованием общей формулы
(70).
 X im (1.19)
X =m
N
X f .
X=
f
m
m
i
i
(70)
i
При этом обозначено: Xi – значения отдельных статистических величин или
середин группировочных интервалов; m - показатель степени, от значения которого
зависят виды средних величин.
В нашей задаче, применяя формулу Ошибка! Источник ссылки не найден. и
подставляя вместо Х i середины интервалов возраста ХИ, определяем средний возраст студентов: Х ар = 549,163/25 = 21,967 (года).
Теперь осталось определить типичность или нетипичность найденной средней
величины. Это осуществляется с помощью расчета показателей вариации. Чем ближе они к нулю, тем типичнее найденная средняя величина для изучаемой статистической совокупности. При этом критериальным значением коэффициента вариации
служит 1/3.
Коэффициенты вариации рассчитываются как отношение среднего отклонения к средней величине. Поскольку среднее отклонение может определяться линейным и квадратическим способами, то соответствующими могут быть и коэффициенты вариации.
Среднее линейное отклонение определяется по формулам (1.21) и (1.22):
Л
Л
 Xi  X
N
– простое;
 X  X f – взвешенное.
f
i
i
(1.21)
(1.22)
i
Среднее квадратическое отклонение определяется как корень квадратный из
дисперсии, то есть по формуле (1.23):
  Д . (1.23)
23
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Дисперсия определяется по формулам (84) или (1.25):
 X i  X  – простая;
Д
2
N
X  X  f – взвешенная.
Д
f
(84)
2
i
i
(1.25)
i
В нашей задаче, применяя формулу (1.22), определим ее числитель и внесем в
расчетную таблицу. В итоге получим среднее линейное отклонение: Л = 54,937/25 =
2,198 (года). Разделив это значение на средний возраст, получим линейный коэффициент вариации:  
Л
= 2,198/21,967 = 0,100. По значению этого коэффициента для
Х
рассмотренной группы студентов делаем вывод о типичности среднего возраста, т.к.
расчетное значение коэффициента вариации не превышает критериального (0,100 <
0,333).
Применяя формулу (1.25), получим в итоге дисперсию: Д = 164,018/25 = 6,561.
Извлечем из этого числа корень и получим в результате среднее квадратическое отклонение:  = Д = 2,561 (года). Разделив это значение на средний возраст, получим квадратический коэффициент вариации:  

Х
= 2,561/21,967 = 0,117. По зна-
чению этого коэффициента для рассмотренной группы студентов можно сделать
вывод о типичности среднего возраста, т.к. расчетное значение коэффициента вариации не превышает критериального (0,117 < 0,333).
В качестве показателей асимметрии используются: коэффициент асимметрии
– нормированный момент третьего порядка (1.26) и коэффициент асимметрии Пирсона (1.27):
r3 
3
,
3
As 
X  Mo

(1.26)
.
(1.27)
Если значение коэффициента асимметрии положительно, то в ряду преобладают варианты, которые больше средней (правосторонняя скошенность), если отрицательно – левосторонняя скошенность. Если коэффициент асимметрии равен 0, то
вариационный ряд симметричен.
24
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
X  X  f =383,636/25 = 15,345;  =2,5613= 16,797;
В нашей задаче  = 
f
3
i
i
3
3
i
r3 =15,345/16,797 = 0,914 > 0, значит, распределение студентов по росту с правосто-
ронней асимметрией. Это подтверждает и значение коэффициента асимметрии Пирсона: As = (21,967-20)/2,561 = 0,768.
Для характеристики крутизны распределения используется центральный момент 4-го порядка:
X  X  f . (1.28)
 =
f
4
i
i
4
i
Для образования безразмерной характеристики определяется нормированный
момент 4-го порядка r4 
4
, который и характеризует крутизну (заостренность)
4
графика распределения. При измерении асимметрии эталоном служит нормальное
(симметричное) распределение, для которого r4 =3. Поэтому для оценки крутизны
данного распределения в сравнении с нормальным вычисляется эксцесс распределения (1.29):
Ex 
4
 3 . (1.29)
4
Для приближенного определения эксцесса может быть использована формула
Линдберга (90):
Ex  d / 2  0,3829 , (90)
где d / 2 – доля количества вариант, лежащих в интервале, равном половине 
(в ту и другую сторону от средней величины).
В нашей задаче числитель центрального момента 4-го порядка рассчитан в последнем столбце расчетной таблицы. В итоге по формуле (1.29) имеем: Ex =
(2780,498/25)/2,5614–3 = 111,220/43,017–3 = -0,415. Так как Ex<0, то распределение
низковершинное. Это подтверждает и приблизительный расчет по формуле (90): в
интервале 21,967  0,5*2,561, то есть от 20,687 до 23,248 находится примерно 21,4%
студентов. Таким образом, Ex = 0,214 – 0,3829 = –0,169.
1.3 Вопросы для самостоятельной подготовки
1. Дайте определение случайной величины.
2. В чем отличие случайной переменной от неслучайной (детерминированной)? Какие виды случайных переменных Вы знаете? Приведите примеры.
25
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
3. Перечислите основные вероятностные характеристики дискретных случайных величин и дайте их определения.
4. Что представляет собой дискретный вариационный ряд? Какие характеристики можно рассчитать по данным вариационного дискретного ряда?
5. Что представляет собой интервальный вариационный ряд? Какие характеристики можно рассчитать по данным интервального вариационного ряда?
6. В каком случае целесообразен переход от дискретного вариационного ряда
к интервальному?
7. Что такое полигон? Что такое гистограмма? Для каких целей они используются?
8. Дайте понятие «степенные средние». Для каких целей используются эти
характеристики?
9. Дайте понятие позиционные (или структурные) средние. Для каких целей
используются эти характеристики?
10.Перечислите основные характеристики разброса случайных величин?
26
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
2 ЛАБОРАТОРНАЯ РАБОТА № 3-4.
Исследование корреляционных зависимостей между признаками
Цель работы: Приобретение навыков исследования корреляционных зависимостей между признаками.
2.1 Задание для работы в лаборатории
По предложенным преподавателем исходным данным требуется исследовать
влияние некоторых признаков X1 , X2 , X3, X4 , X5. на признак Y.
Для выполнения поставленного задания необходимо:
1. Визуальный анализ данных.
Построить графики данных для X1 , X2 , X3, X4 , X5., Y. Оценить визуально наличие или отсутствие грубых погрешностей в каждом признаке.
2. Проверка гипотезы о нормальном распределении исходных данных.
Проверить гипотезу о нормальном распределении признаков: Y, X1, X2 , X3, X4 ,
X5.. Оценить, являются ли признаки однородными.
В отчете результаты выполнения п. 2 представить в виде таблицы:
Статистические характеристики исходной информации
Номер
переменной
Среднее
арифметическое
значение,
ед.
Среднее
квадратическое
отклонение, ед.
Коэффициент вариации, %
Асимметрия
Эксцесс
Ошибка
АсимЭксметрии
цесса
У
Х1
Х2
…
Хn
При проверке нормальности распределения признаков следует использовать
неравенства (2.9) и (2.10) теоретической части описания лабораторной работы №2.
Для проверки однородности признака используйте формулу (2.2).
Сделайте выводы.
3. Корректировка исходного массива данных.
В случае невыполнения предпосылок об однородности и нормальности анализируемых случайных величин необходимо провести корректировку исходного
массива данных.
В отчете результаты выполнения п. 3 представить в виде таблицы.
Сделать выводы.
Распределение значений признака xi по диапазонам рассеяния признака относительно его средней величины
27
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Количество значений xi, находящихся в диапазоне
КомПризнак
мен
тарий
3
4
Границы диапазонов, ед.
Коммен
тарий
2
Признак
А
1
[
;
]
[
;
]
[
;
]
Процентное соотношение рассеяния значений xi по
диапазонам, %
Признак
Комментарий
5
6
4. Выявление наличия или отсутствия корреляционных связей между признаками на основе анализа полей корреляции.
Построить поля корреляции для определения существования и форм зависимости признака Y от признаков X1 , X2 , X3, X4 , X5.
В отчете привести результаты выполнения п.4. Сделать выводы по каждому
полю корреляции.
5. Выявление наличия или отсутствия линейных связей между признаками на основе выборочных парных линейных коэффициентов корреляции.
Изучить зависимость признака Y от признаков X1 , X2 , X3, X4 , X5. путем расчета выборочных парных линейных коэффициентов корреляции.
В отчете привести формулу расчета выборочных парных линейных коэффициентов корреляции. Результаты расчетов свести в таблицу.
Исследование корреляционной зависимости признака Y от признаков
X1 , X2 , X3, X4 , X5.
X1
X2
X3
X4
X5
1.Парные линейные коэффициенты
корреляции
rxi y
Комментарий
о силе связи
между xi и y
Сделать выводы.
6. Проверка значимости каждого выборочного коэффициента корреляции.
Проверка значимости каждого выборочного коэффициента корреляции осуществляется с помощью формул (2.14) – (2.16).
28
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
В отчете следует привести теоретическую часть проверки значимости выборочного коэффициента корреляции. Результаты расчетов свести в таблицу.
Проверка значимости выборочных коэффициентов корреляции
rx1i y
rx 2i y
rx 3i y
rx 4i y
rx 5i y
1.Фактическое значение t-критерия Стьюдента
tr 
r
1 r2
* n2
2. Табличное значение
t-критерия Стьюдента
t табл  t крит  t ,df
3. Комментарий о значимости выборочного
коэффициента корреляции rxi y
Сделать выводы.
7. Построение доверительного интервала для каждого коэффициента
корреляции.
Построить доверительный интервал для каждого коэффициента корреляции:
(r  t r ; r  t r ) , где t - коэффициент доверия,  r - средняя ошибка коэффициента
корреляции.
Результаты расчетов свести в таблицу.
Доверительные интервалы выборочных коэффициентов корреляции
rx1i y
rx 2i y
1.Парные линейные коэффициенты корреляции
rxi y
2. Средняя ошибка коэффициента
корреля-
1 r2
ции  r 
n2
3. Коэффициент доверия
t
4.Доверительный интервал выборочного коэффициента корреляции
29
rx 3i y
rx 4i y
rx 5i y
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Сделать выводы.
8. Построение и анализ матрицы парных линейных коэффициентов корреляции.
Построить матрицу парных линейных коэффициентов корреляции и выявить
коллинеарные признаки.
В отчете привести матрицу парных линейных коэффициентов корреляции,
проанализировать ее, сделать выводы. Пример анализа корреляционной матрицы
представлен в теоретической части для лабораторной работы №2.
9. Выводы.
Сделать выводы по каждому пункту и по всей работе в целом. Указать признаки, которые целесообразно включить в уравнение линейной регрессии. Предложить модели уравнений регрессии: парные и множественные.
2.2 Теоретическая часть для лабораторной работы №3-4
Корреляционный анализ, разработанный К. Пирсоном и Дж. Юлом, является
одним из методов статистического анализа взаимозависимости нескольких признаков – компонент случайного вектора x. Основная задача корреляционного анализа
состоит в оценке степени зависимости между случайными величинами.
Степень линейной зависимости между количественными переменными
характеризуется с помощью парных, частных и множественных коэффициентов корреляции и детерминации.
Парный коэффициент корреляции характеризует тесноту линейной зависимости между двумя переменными на фоне действия всех остальных показателей,
входящих в модель.
Частный коэффициент корреляции характеризует тесноту линейной зависимости между двумя переменными при исключении влияния всех остальных показателей, входящих в модель.
Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной и совокупностью других рассматриваемых переменных.
Коэффициент детерминации характеризует долю вариации (дисперсии) результативного признака y, объясняемую регрессией, в общей вариации (дисперсии)
у.
Данные коэффициенты корреляции изменяются в пределах от -1 до +1, причем ближе коэффициент корреляции к ± 1, тем сильнее зависимость между переменными. Если коэффициент корреляции больше 0, то связь положительная, а если
меньше нуля – отрицательная.
Корреляционной связью называют частный случай статистической связи, состоящий в том, что разным значениям одной переменной соответствуют различные
30
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
средние значения другой. Выявление корреляционных связей способствует решению широкого круга задач. В некоторых случаях требуется подтвердить не наличие,
а отсутствие корреляционной связи.
Однако наличие корреляционной связи не всегда означает наличие причинноследственной зависимости. Существуют три пути возникновения корреляционной
связи:
1. Причинная зависимость результативного признака (его вариации) от
вариации факторного признака. Например, признак Х - балл оценки плодородия
почв, признак Y -урожайность сельскохозяйственной культуры.
2. Корреляционная связь между двумя следствиями общей причины.
Приведем пример крупнейшего статистика России начала XX в. А. А. Чупрова: если
в качестве признака х взять число пожарных команд, а за признак у - сумму убытков
за год в городе от пожаров, то между признаками х и у в совокупности городов России существенна прямая корреляция; в среднем, чем больше пожарников в городе,
тем больше и убытков от пожаров. Данную корреляцию нельзя интерпретировать
как связь причины и следствия; оба признака - следствия общей причины - размера
города. Вполне логично, что в крупных городах больше пожарных частей, но больше и пожаров, и убытков от них за год больше, чём в мелких городах.
3. Взаимосвязь признаков, каждый из которых и причина, и следствие.
Например, корреляция между уровнями производительности труда рабочих и уровнем оплаты 1 ч труда (тарифной ставкой). С одной стороны, уровень зарплаты следствие производительности труда: чем она выше, тем выше и оплата. Но с другой стороны, установленные тарифные ставки и расценки играют стимулирующую
роль: при правильной системе оплаты они выступают в качестве фактора, от которого зависит производительность труда. В такой системе признаков допустимы обе
постановки задачи. Каждый признак может выступать и в роли независимой переменной Х, и в качестве зависимой переменной Y.
Поэтому результаты корреляционного анализа необходимо проверять логикой, опираясь на теоретические и практические знания об исследуемых свойствах.
Основная задача корреляционного анализа состоит в выявлении связи между случайными переменными путем точечной и интервальной оценки различных
(парных, множественных, частных) коэффициентов корреляции.
Требования к отбору факторов для корреляционного анализа
Отбор факторов для корреляционного анализа является очень важным моментом. От того, насколько правильно он сделан, зависит точность выводов по итогам
анализа. Главная роль при отборе факторов принадлежит теории, а также практическому опыту анализа. При этом необходимо придерживаться следующих правил.
1. При отборе факторов в первую очередь следует учитывать причинноследственные связи между показателями, так как только они раскрывают сущность
изучаемых явлений. Анализ же таких факторов, которые находятся только в матема31
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
тических соотношениях с результативным показателем, не имеет практического
смысла.
2. При создании многофакторной корреляционной модели необходимо отбирать самые значимые факторы, которые оказывают решающее воздействие на результативный показатель, так как охватить все условия и обстоятельства практически невозможно. Факторы, которые имеют критерий надежности по Стьюденту
меньше табличного, не рекомендуется принимать в расчет.
3. Все факторы должны быть количественно измеримы, т.е. иметь единицу
измерения.
4. В корреляционную модель линейного типа не рекомендуется включать факторы, связь которых с результативным показателем имеет криволинейный характер.
5. Не рекомендуется включать в корреляционную модель взаимосвязанные
факторы. Если парный коэффициент корреляции между двумя факторами больше
0,85, то по правилам корреляционного анализа один из них необходимо исключить,
иначе это приведет к искажению результатов анализа.
6. Нежелательно включать в корреляционную модель факторы, связь которых
с результативным показателем носит функциональный характер.
Большую помощь при отборе факторов для корреляционной модели оказывают аналитические группировки, способ сопоставления параллельных и динамических рядов, линейные графики. Благодаря им можно определить наличие, направление и форму зависимости между изучаемыми показателями. Отбор факторов можно
производить также в процессе решения задачи корреляционного анализа на основе
оценки их значимости по критерию Стьюдента, о котором будет сказано ниже.
Поскольку корреляционная связь с достаточной выразительностью и полнотой
проявляется только в массе наблюдений, объем выборки данных должен быть достаточно большим, так как только в массе наблюдений сглаживается влияние других
факторов. Чем большая совокупность объектов исследуется, тем точнее результаты
анализа.
Собранная исходная информация должна быть проверена на достоверность, однородность и соответствие закону нормального распределения.
В первую очередь необходимо убедиться в достоверности информации,
насколько она соответствует объективной действительности. Использование недостоверной, неточной информации приведет к неправильным результатам анализа и
выводам.
Одно из условий корреляционного анализа - однородность исследуемой информации относительно распределения ее около среднего уровня. Если в совокупности имеются группы объектов, которые значительно отличаются от среднего
уровня, то это говорит о неоднородности исходной информации.
Критерием однородности информации служит среднеквадратическое отклонение и
коэффициент вариации, которые рассчитываются по каждому факторному и результативному
показателю.
Среднеквадратическое отклонение показывает абсолютное отклонение индивидуальных значений от среднеарифметического. Оно определяется по формуле:
32
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
n
 (x  x)

i 1
2
i
n
.
(2.1)
Коэффициент вариации характеризует относительную меру отклонения отдельных значений от среднеарифметической. Он рассчитывается по формуле:
Vх 

x
*100 .
(2.2)
Чем больше коэффициент вариации, тем относительно больший разброс и
меньшая выравненность изучаемых объектов.
Изменчивость вариационного ряда принято считать незначительной, если вариация не превышает 10 %, средней - если составляет 10-20 %, значительной - если она больше 20 %, но не превышает 33 %.
Если же вариация выше 33 %, то это говорит о неоднородности информации и
необходимости исключения нетипичных наблюдений, которые обычно бывают в
первых и последних ранжированных рядах выборки.
На основании самого высокого показателя вариации можно определить необходимый объем выборки данных для корреляционного анализа по следующей формуле:
n
V 2 *t
,
m2
(2.3)
где n - необходимый объем выборки данных; V - вариация, %; t - показатель надежности связи, который при уровне вероятности Р = 0,05 равен 1,96; m - показатель
точности расчетов (допускается ошибка 5-8 %).
Результаты исследований с целью отбора факторов целесообразно представлять в форме таблицы 2.1.
Таблица 2.1 - Статистические характеристики исходной информации
Номер
переменной
Среднее
арифметическое
значение,
ед.
Среднее
квадратическое
отклонение, ед.
Вариация, %
Асимметрия
Эксцесс
Ошибка
АсимЭксметрии
цесса
У
Х1
Х2
…
Хn
Проверка гипотез о нормальном законе распределения
Для оценки соответствия имеющихся экспериментальных данных нормальному закону распределения целесообразно совместное использование графических
и статистических методов. Графический метод позволяет выдвигать гипотезу о виде
33
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
распределения, давать визуальную ориентировочную оценку расхождения или совпадений распределений.
Нормальное распределение широко используется в различных сферах человеческой деятельности для приближенного описания случайных явлений, так как требует знания всего двух параметров – среднего значения М е и стандартного отклонения  е . Случайная величина Х имеет нормальное распределение вероятностей с
параметрами а и  , если плотность ее распределения задается формулой:
f ( x) 
1
2
1 ( x  a ) 2
e
2 2
,  x  ,   0.
(2.4)
Математическое ожидание и дисперсия случайной величины Х соответственно равны M e  a и  2 .
Нормальное распределение обладает рядом важнейших свойств, которые приводятся ниже:
1. Вероятность больших отклонений нормальной случайной величины от центра ее
распределения (параметра a) ничтожно мала.
2. График функции плотности нормального распределения симметричен относительно средней (параметра а).
3. Стандартное отклонение  характеризует степень сжатия или растяжения графика функции плотности распределения вероятностей.
4. Нормальная случайная величина с математическим ожиданием а и стандартным
отклонением 
с вероятностью близкой к 1 попадает в интервал
(a  3 )  Х  (a  3 ) . Это утверждение получило название правило трех сигм.
Если случайная величина распределена по нормальному закону распределения
с математическим ожиданием а и стандартным отклонением  , то
p ( X  x )  Ф(
xa

), p( X  x)  1  Ф(
xa

),
(2.5)
где Ф – функция вероятностей Лапласа.
Эти соотношения позволяют определить вероятность того, что случайная величина Х будет меньше (или больше) заданного значения х.
Предположение о подчинении выборки на соответствие закону нормального распределения можно сделать следующим образом:
1. По коэффициенту вариации.
Если коэффициент вариации превышает 33%, говорить о нормальности распределения данных выборки нельзя. Предварительный анализ с помощью коэффициента вариации дает самую грубую оценку.
2. По коэффициентам эксцесса и асимметрии (получаются неплохие результаты при большом числе наблюдений (n > 100) и использовании выборочных
коэффициентов эксцесса и асимметрии).
34
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Для нормально распределенной случайной величины коэффициенты эксцесса
и асимметрии равны 0. Поэтому, если соответствующие эмпирические величины достаточно малы, можно предположить, что генеральная совокупность распределена
по нормальному закону.
. Принято говорить, что предположение о нормальности распределения не
противоречит имеющимся данным, если асимметрия лежит в диапазоне от -0,2 до
0,2, а эксцесс – от -1 до 1.
В практических расчетах в качестве асимметрии применяется нормированный коэффициент асимметрии третьего порядка, который не зависит от масштаба, выбранного при измерении варианта, так как является отвлеченной величиной:
A3 
3
.
3
(2.6)
Если A3  0 , то в ряду распределения преобладают варианты, которые меньше,
чем средняя, т.е. ряд отрицательно асимметричен (или с левосторонней скошенностью – более длинная ветвь влево). Если A3  0 , то для ряда распределения характерна положительная асимметрия (правосторонняя скошенность – более длинная
ветвь вправо), A3  0 при симметричном распределении, так как варианты равноудалены от x и имеют одинаковую частоту. Поэтому 3  0 .
Для определения крутизны (заостренности) распределения вычисляется центральный момент четвертого порядка и определяется нормированный момент
четвертого порядка:
A4 
4
.
4
(2.7)
Для нормального распределения A4  3 . При оценке крутизны в качестве эталонного выбирается нормальное распределение, которое сравнивается с фактическим и вычисляется показатель эксцесса распределения:
Еs 
4
 3.
4
(2.8)
При симметричном распределении Es  0 . Если Es  0 , то распределение является островершинным, если Es  0 - плосковершинным. В результате более при
сравнении распределений двух случайных величин при равенстве их средних предпочтительной является величина с большим коэффициентом эксцесса.
Однако случай, когда A3  0 и Es  0 , чисто теоретический. На практике
для признания симметричности распределения используют следующее допущение:
если A3 /  A  3 ,
(2.9)
3
где  A 
3
6(n  1)
, (n – число значений случайной величины),
(n  1)( n  3)
то асимметрия считается несущественной, а ее наличие объясняется воздействием
случайных факторов. В противном случае асимметрия статистически значима (существенна) и факт ее наличия требует дополнительной интерпретации.
35
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Аналогично, если
Es /  E  3 ,
(2.10)
s
где  E 
s
24 n(n  2)( n  3)
,
(n  1) 2 (n  3)( n  5)
то эксцесс считается незначительным и его величиной можно пренебречь.
3. На основе среднего абсолютного отклонения. Для не очень больших выборок (n<120) можно вычислить среднее абсолютное отклонение (САО):
,
(2.11)
где n – объем выборки;
- среднее значение выборки.
Для выборки, имеющей приближенно нормальный закон распределения,
должно выполняться условие:
.
(2.12)
4. На основе критериев согласия (например, χ2 (хи-квадрат)).
При малом n (50<n <100) наиболее убедительные результаты дает использование критериев согласия. Здесь нулевая гипотеза Н0 представляет собой утверждение
о том, что распределение генеральной совокупности, из которой получена выборка,
не отличается от нормального. Один из критериев - непараметрический критерий χ2
(хи-квадрат). Он основан на сравнении эмпирических частот интервалов группировки с теоретическими (ожидаемыми) частотами, рассчитанными по формулам нормального распределения. Для его применения желательно иметь не менее 40 – 50
выборочных данных, сгруппированных не менее чем в 7 интервалов, в каждом из
которых находится хотя бы 5 наблюдений.
5. На основе размаха варьирования. Проверку гипотезы нормальности распределения для сравнительно широкого класса выборок (3<n<1000) можно выполнить с помощью метода, основанного на размахе варьирования R.
Для его использования определяют размах упорядоченной совокупности
наблюдений ( x1  x2  ...  xk  ...  xn ):
Rn  xn  x1 .
R
критерия попадает в диапазон табS
R
R
=2,670 ….3,685; для n=20 =3,180 … 4,490; для
S
S
Если фактическое численное значение
личных значений: для n=10
36
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
n=30
R
= 3,470 …4,890, для уровня значимости α=0,05 , то нулевая гипотеза Н 0 о
S
ненормальном распределении случайной величины отвергается и принимается альтернативная гипотеза Н 1 о нормальном распределении случайной величины.
Анализ
R
можно проводить и при 10% уровне значимости (α=0,10).
S
В случае невыполнения предпосылок об однородности и нормальности анализируемых случайных величин необходимо провести корректировку исходного
массива данных. С этой целью можно воспользоваться «правилом трех сигм». Для
каждой случайной величины формируется таблица 2.2
Таблица 2.2 - Распределение значений признака xi по диапазонам рассеяния признака относительно его средней величины
Количество значений xi, находящихся в диапазоне
КомПризнак
мен
тарий
3
4
Границы диапазонов, ед.
Коммен
тарий
2
Признак
А
1
[
;
]
[
;
]
[
;
]
Процентное соотношение рассеяния значений xi по
диапазонам, %
Признак
Комментарий
5
6
На основе данных таблицы 2.2 структура рассеяния значений признака по трем диапазонам сопоставляется со структурой рассеяния по правилу «трех сигм», справедливому для нормальных и близких к нему распределений:
68,3% значений располагаются в диапазоне (
),
95,4% значений располагаются в диапазоне (
),
99,7% значений располагаются в диапазоне (
).
Если полученная в табл. 2.2 структура рассеяния хi по 3-м диапазонам незначительно расходится с правилом «трех сигм», можно предположить, что распределение единиц совокупности по данному признаку близко к нормальному.
Расхождение с правилом «трех сигм» может быть существенным. Например,
менее 60% значений хi попадают в центральный диапазон (
) или значительно
37
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
более 5% значения хi выходит за диапазон (
). В этих случаях распределение
нельзя считать близким к нормальному.
Если исходные данные неоднородные или не распределены нормально, то их
корректируют. Из массива первичной информации исключаются все резко выделяющиеся (аномальные) значения, т.е. значения, уровень которых не попадает в интервал xi  3 x  xi  xi  3 x или используют правила отсева грубых погрешностей.
i
i
Данный критерий надежен при числе измерений n ≥ 20...50. Это правило обычно
считается чересчур жестким, в связи с этим рекомендуется назначать границу цензурирования исходя из объёма выборки: при 6 < n ≤1000 она равна 4 «сигма» ; при
100 < n ≤1000 − 4,5 «сигма» ; при 1000 < n ≤10000 − 5 «сигма». Данное правило используется только при нормальном распределении.
Пример отсева грубых погрешностей методом максимального относительного отклонения:
Пирометром измеряется температура поверхности нагретого тела. Будем
предполагать, что температура видимой поверхности нагретого тела во всех точках
одинакова. Различными исследователями было проведено шесть измерений температуры и получены следующие их значения: Температура, 0С: 925, 950, 975, 1000,
1025, 1050 (n=6).
Имеются ли среди этих измерений грубые погрешности? Предварительно вычислим оценки x и S:
n
n
2
 xi
 xi  x
x  i 1  987 ,5 0 C; S x  i 1
 46,8 0 C.
n
n 1


Для определения Sx использовали (n-1), т.к. истинное значение измеряемой
температуры нам не известно. Заметим, что здесь это важно, т.к. сделано мало измерений (всего n=6).
Выберем измерения, имеющие наибольшее отклонение от среднеарифметического значения. Таких значений оказалось два: 925 0C и 1050 0C.
Для оценки нуль-гипотезы о несущественности отклонения выбранного
xmax от x используется распределение Стьюдента. С этой целью рассчитывается максимальное относительное отклонение t эксп 
x max  x
Sx
. При этом предполагается, что
случайная величина ( x  x ) распределена по нормальному закону. Максимальное от38
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
носительное отклонение сравнивается с теоретическим значением критерия Стьюдента t , которое зависит от уровня значимости α (0,05; 0,1; 0,01) и числа степеней
свободы  =n-1.
Если tэксп>t, , то имеется достаточно основания с вероятностью P=1- α исключить "выскакивающее" значение как грубую ошибку и отвергнуть нульгипотезу. В противном случае tэксп<t, , нуль-гипотеза принимается и от отсева "выскакивающего значения" лучше воздержаться с вероятностью P.
Вычислим
t эксп 
1050  987 ,5
46,8
 1,34.
При =0,05 и  =n-1=5 определяем t0,05;5=2,57.
Так как tэксп<t, , то от отсева выделяющихся наблюдений лучше воздержаться.
Аналогично проводим расчеты для второго значения - 925 0C:
t эксп 
925  987 ,5
46,8
 1,34.
Так как tэксп<t, , то от отсева выделяющихся наблюдений лучше воздержаться.
В результате сформирован новый массив данных, который используется в
дальнейшем анализе. Однако для этого массива тоже предварительно рассчитываются основные характеристики.
Другой способ отсева грубых погрешностей – на основе размаха варьирования. Для этого определяют размах упорядоченной совокупности наблюдений
( x1  x2  ...  xk  ...  xn ):
Rn  xn  x1 .
Если какой-либо член вариационного ряда, например xk , резко отличается от
всех других, то производят проверку, используя следующее соотношение:
~
x  z * Rn  xk  ~
x  z * Rn .
~
где x – выборочное среднее арифметическое значение, вычисленное после
исключения предполагаемого промаха;
z – критериальное значение.
39
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Нулевую гипотезу (об отсутствии грубой погрешности) принимают, если указанное неравенство выполняется. Если xk не удовлетворяет вышеуказанному соотношению, то этот результат исключают из вариационного ряда.
Коэффициент z зависит от числа членов вариационного ряда n, что представлено в таблице 2.3.
Таблица 2.3 – Критерий вариационного размаха
n
5
6
7
8-9
10-11 12-15 16-22 23-25 26-63 64150
z
1,7
1,6
1,5
1,4
1,3
1,2
1,1
1,0
0,9
0,8
Проверка гипотез о наличии линейной корреляционной связи
Для проверки гипотезы о наличии линейной корреляционной связи наибольшее распространение имеет коэффициент линейной корреляции (Пирсона),
предполагающий нормальный закон распределения наблюдений. Для двумерной
нормально распределенной случайной величины XY при отсутствии линейной корреляции между X и Y коэффициент корреляции равен нулю. Поэтому процедура
проверки заключается в расчете выборочной оценке коэффициента корреляции и
оценке значимости его отличия от нуля.
Коэффициент корреляции – параметр, характеризующий степень линейной
взаимосвязи между двумя выборками, рассчитывается по формуле:
n
 (x  x) * ( y  y)
rxy  i 1
i
i
 x * y
. ………………………………………….(2.13)
Коэффициент корреляции изменяется от –1 (строгая обратная линейная зависимость) до 1 (строгая прямая пропорциональная зависимость). При значении коэффициенты корреляции, равным 0, линейной зависимости между двумя выборками
нет. Под прямой зависимостью понимают зависимость, при которой увеличение или
уменьшение значения одного признака ведет, соответственно, к увеличению или
уменьшению второго. При обратной зависимости увеличение одного признака приводит к уменьшению второго и наоборот.
На практике коэффициент корреляции принимает некоторые промежуточные
значения между 1 и –1. Для оценки степени взаимосвязи можно руководствоваться
следующей классификацией корреляционных связей по абсолютной величине коэффициента корреляции:
- очень сильная, практически линейная зависимость между параметрами при
r>0,90;
- сильная (тесная) при коэффициенте корреляции r>0,7;
- умеренная при 0,50<r<0,70;
- слабая при 0,30<r<0,5;
40
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
- практически отсутствует при r<0,30. В этих случаях обычно считают, что
линейную взаимосвязь между параметрами выявить не удалось.
Приближенная оценка коэффициента корреляции может быть получена графическим способом с помощью поля корреляции. Поле точек разделяется на четыре
квадранта линиями, соответствующими медианам величин Х и Y. Для оценки коэффициента корреляции используется формула
r  (n1  n2 ) (n1  n2 ) ,
где n1 – число точек в квадрантах I, III а n2 – в квадрантах II, IV:
Рисунок 2.1 - Поля корреляции прямо (а) и обратно (б)
коррелирующих величин
Вычислив выборочный коэффициент корреляции, необходимо оценить его
статистическую значимость. Не исключено, что ненулевое значение коэффициента
является не отражением действительной связи между признаками, а получено в результате специфики данной выборки.
Статистическая значимость выборочного коэффициента корреляции проверяется с помощью t-критерия Стьюдента. Фактическое значение t-критерия Стьюдента определяется по формуле:
r
tr 
* n2,
(2.14)
1 r2
где n – объем выборочной совокупности, r – выборочный коэффициент корреляции.
Фактическое значение t-критерия Стьюдента сравнивается с его табличным
значением, которое находят по таблицам Стьюдента с учетом заданного уровня значимости α (α может быть равным 0,5, 0,05 или 0,01) и числом степеней свободы
df=n-m-1(для парной регрессии df=n-2). Если t r  t табл  t крит  t ,df , то это означает,
что выборочный коэффициент корреляции значим, т.е. он значимо отличается от
нуля.
41
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Для того, чтобы понять, насколько значимо отличие выборочного коэффициента корреляции от 0, строят доверительный интервал (r  t r ; r  t r ) , где t - коэффициент доверия,  r - средняя ошибка коэффициента корреляции. Коэффициент
доверия t для доверительной вероятности 0,95 равен 2, для 0,999 равен 3. Доверительная вероятность р=1- α. Таким образом, для р=0,95 α=0,05, для р=0,999
α=0,001.
Средняя ошибка коэффициента корреляции вычисляется по формуле:
r 
1 r2
.
n2
(2.15)
Если 0 не попадает в доверительный интервал, то коэффициент корреляции
можно считать статистически значимым.
Рассмотренная формула рекомендована к применению при большом числе
наблюдений, а также для случая, если r не близка к +1 или -1. В противном случае
распределение оценок выборочного коэффициента корреляции отличается от нормального. Чтобы обойти это затруднение Р. Фишером было предложено для оценки
существенности r ввести вспомогательную величину z:
z
1
1 r
* ln
.
2
1 r
(2.16)
При изменении r от -1 до +1 величина z изменяется от - ∞ до + ∞, что соответствует нормальному закону распределения. Стандартная ошибка величины z определяется по формуле:
1
.
(2.17)
mz 
n3
Далее выдвигается гипотеза Н0 о том, что корреляция отсутствует, т.е. теоретическое значение коэффициента корреляции равно 0. Коэффициент корреляции
z
значимо отличается от нуля, если
 t z  t ,df , т.е. если фактическое значение t z
mz
превышает его табличное значение на уровне значимости α.
Пример
По n=25 изучается влияние на результативный признак у двух факторных признаков х1 и х2. Построена матрица парных коэффициентов корреляции (табл. 2.4).
Таблица 2.4 – Матрица парных линейных коэффициентов корреляции
у
Х1
Х2
1,00
У
42
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Х1
Х2
0,85
-0,5
1,00
-0,3
1,00
Поясните смысл приведенных коэффициентов. Какое уравнение целесообразно строить: 1) парную регрессию у на х1; 2) парную регрессию у на х2; 3) множественную регрессию?
Решение
1. В клетках матрицы находятся парные линейные коэффициенты корреляции. Они оценивают степень линейной связи между двумя признаками.
2. Анализ первого столбца матрицы парных коэффициентов корреляции.
По матрице можно сделать вывод о сильной положительной связи между признаками у и х1 и об умеренной отрицательной связи между признаками у и х2. В данном
случае целесообразным является построение парной регрессии у на х1 и множественной регрессии. Выбор между ними будет основываться на величине коэффициента детерминации регрессионной модели.
3. Анализ всех остальных элементов матрицы (кроме элементов первого
столбца). Между признаками х1 и х2 мультиколлинеарности не наблюдается, так
как парный линейный коэффициент корреляции между этими признаками равен 0,3 (слабая связь). Поэтому выводы п.2 остаются в силе.
2.3 Вопросы для самостоятельной подготовки
1. Сформулируйте понятия функциональной и стохастической зависимостей.
2. Какая взаимосвязь случайных величин называется корреляционной?
3. Перечислите требования к отбору исходных факторов для изучения корреляционной зависимости между ними.
4. Поясните требование однородности исходных данных.
5. Поясните, что представляет собой коэффициент вариации и каким образом
он рассчитывается?
6. Что представляет собой дифференциальная функция нормального распределения?
7. Назовите основные свойства нормального распределения.
8. Назовите варианты проверки гипотезы о нормальном распределении исходных данных.
9. Поясните, каким образом проверяется гипотеза о нормальном распределении случайной величины на основе коэффициентов асимметрии и эксцесса?
10. Поясните, каким образом проверяется гипотеза о нормальном распределении случайной величины на основе критерия χ2 (хи-квадрат).
43
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
11. Поясните, в чем заключается правило «трех сигм»? Каким образом его используют в практических исследованиях?
12. В каких случаях требуется корректировка исходной информации, предполагаемой для использования в корреляционном анализе?
13. Каким образом осуществляют корректировку исходной информации, используя правило «трех сигм»?
14. Каким образом можно осуществить отсев грубых погрешностей методом
максимального относительного отклонения?
15. Каким образом можно осуществить отсев грубых погрешностей с использованием размаха вариации?
16. В чем заключается основная задача корреляционного анализа?
17. Для оценки какой корреляционной зависимости используется выборочный
коэффициент корреляции? Каковы его свойства?
18. Что такое «поле корреляции»? Каким образом оно анализируется?
19. Как проверяется значимость коэффициента корреляции?
20. Поясните, что представляет собой матрица парных линейных коэффициентов корреляции?
21. Для совокупности трех случайных величин X, Y, Z получена матрица выборочных коэффициентов корреляции
Укажите наиболее тесно связанные пары величины.
22. Каким образом выявляются мультиколлинеарные признаки?
23. Что оценивает выборочный коэффициент множественной корреляции?
24. Поясните практическое использование матрицы парных линейных коэффициентов корреляции.
Тест «Корреляционный анализ»
Выбрать правильный ответ.
1. Коэффициент корреляции, равный нулю, означает, что между переменными: а) линейная связь отсутствует; б) существует линейная связь; в) ситуация не
определена.
2. Коэффициент корреляции, равный 1, означает, что между переменными: а)
линейная связь отсутствует; б) существует линейная связь; в) функциональная зависимость; г) ситуация не определенна.
3. В каких пределах изменяется множественный коэффициент корреляции: а)
от 0 до 1; б) от -1 до 0; в) от -1 до 1; г) от 0 до 10.
4. В каких пределах изменяется коэффициент детерминации: а) от 0 до 1; б) от
-1 до 0; в) от -1 до 1; г) от 0 до 10.
5. Коэффициент детерминации – это: а) квадрат парного коэффициента корреляции; б) квадрат частного коэффициента корреляции; в) квадрат множественного
коэффициента корреляции.
44
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
6. Величина, рассчитанная по формуле r 
xy  x  y
, является оценкой: а) коsx sy
эффициента детерминации; б) парного коэффициента корреляции; в) частного коэффициента корреляции; г) множественного коэффициента корреляции.
7. На практике о наличии мультиколлинеарности обычно судят по корреляционной матрице. Если один из элементов корреляционной матрицы больше ______,
то считают, что имеет место мультиколлинеарность и в уравнение регрессии следует
включать только один из факторов. Вставьте недостающее значение: а) 0,3; б) 0,5; в)
0,65; г) 0,8; д) 0,9; е) другое значение.
45
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
3 ЛАБОРАТОРНАЯ РАБОТА № 5-6.
Исследование моделей линейной регрессии
Цель работы: получение навыков построения и исследования моделей парной
и множественной линейной регрессии.
3.1 Задание для работы в лаборатории
Требуется построить и исследовать модели парной и множественной линейной регрессии с результативным признаком Y и факторными признаками X1 , X2 , X3,
X4 , X5. Исходные данные предоставляются преподавателем.
1. Формулирование гипотезы о форме связи исследуемого признака и других
факторных признаков:
А. Постройте корреляционную матрицу.
Б. Проанализируйте корреляционную матрицу (отберите факторные признаки,
наиболее сильно связанные с результативным; выявите мультиколлинеарные факторные признаки).
В. Сделайте предположение о целесообразности построения линейного уравнения регрессии (парного и множественного), включающего наиболее информативные факторные признаки. Запишите модели уравнений регрессии в общем виде.
2. Построение и исследование модели парной линейной регрессии:
А. Рассчитайте параметры парного уравнения регрессии, исходя из выбранных
форм связи (линейной).
Б. Поясните интерпретацию уравнения регрессии.
В. Оцените тесноту связи с помощью коэффициента детерминации.
Г. Дайте сравнительную оценку силы связи фактора с результатом с помощью
среднего коэффициента эластичности.
Д. Оцените качество уравнений регрессии с помощью средней ошибки аппроксимации.
Е. Оцените статистическую значимость результатов регрессионного моделирования с помощью F-критерия Фишера.
Ж. Рассчитайте прогнозное значение результата, если прогнозное значение
фактора увеличится на 5% от его среднего уровня.
3. Построение и исследование модели множественной линейной регрессии,
включающей все факторные признаки:
А. Рассчитайте параметры линейного уравнения множественной регрессии с
перечнем всех факторов (информативных факторов, выявленных в п.1.
Б. Оцените тесноту связи с помощью коэффициента детерминации.
В. Оцените статистическую значимость (существенность) параметров регрессионной модели с помощью t-критерия.
46
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Г. Оцените статистическую значимость уравнения регрессии в целом с помощью F-критерия.
Д. Оцените качество уравнения регрессии через среднюю ошибку аппроксимации.
4. Построение и исследование модели множественной линейной регрессии,
включающей только информативные факторные признаки, выявленные в п.1:
А. Рассчитайте параметры линейного уравнения множественной регрессии.
Б. Оцените тесноту связи с помощью коэффициента детерминации.
В. Оцените статистическую значимость (существенность) параметров регрессионной модели с помощью t-критерия.
Г. Оцените статистическую значимость уравнения регрессии в целом с помощью F-критерия.
Д. Дайте сравнительную оценку силы связи факторов с результатом с помощью средних (общих) коэффициентов эластичности.
Е. Оцените качество уравнения регрессии через среднюю ошибку аппроксимации.
Ж. Рассчитайте прогнозное значение результата, если прогнозные значения
факторов составляют 80% от их максимальных значений.
З. Рассчитайте ошибки и доверительный интервал прогноза для уровня значимости 5 или 10% (α=0,05; α=0,10).
5. Сравнение результатов моделирования.
Сравнение результатов моделирования в п. 2, 3, 4 (модель парной линейной
регрессии; модель множественной линейной регрессии, включающая все факторные
признаки; модель множественной линейной регрессии, включающая только информативные признаки), используя критерии: коэффициент детерминации, критерий
Фишера, критерий Стьюдента, средняя ошибка аппроксимации, сумма квадратов
остатков уравнения регрессии. Целесообразно сравнение выполнить в таблице.
Оформите выводы.
Критерий сравнения
Модель парной ли- Модель
множенейной регрессии
ственной линейной
регрессии с включением всех факторов
Коэффициент
детерминации
Значение F-критерия
и его оценка
Значения t-критерия
и их оценка
Средняя ошибка аппроксимации
47
Модель
множественной линейной
регрессии с включением только информативных факторов
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Сумма
остатков
квадратов
3.2 Теоретическая часть для лабораторной работы №5-6
Регрессионный анализ – это статистический метод исследования зависимости
случайной величины Y от переменных Хj (j = 1, 2, …, k), рассматриваемых в регрессионном анализе как неслучайные величины независимо от истинного закона распределения Хj.
Перечислим основные требования, предъявляемые к анализируемой информации:
1. Используемые для исследования наблюдения должны являться случайно
выбранными из генеральной совокупности объектов. В противном случае исходные данные, представляющие собой определенную выборку из генеральной совокупности, не будут отражать ее характер, полученные по ним выводы о закономерностях развития окажутся бессмысленными и не имеющими никакой практической
ценности.
2. Требование независимости наблюдений друг от друга.
Зависимость наблюдений друг от друга называется автокорреляцией, для ее
устранения в теории корреляционно-регрессионного анализа созданы специальные
методы;
3. Исходная совокупность данных должна быть однородной, без аномальных
наблюдений. Одно-единственное, резко выделяющееся наблюдение может привести
к катастрофическим последствиям для регрессионной модели, ее параметры окажутся смещенными, выводы абсурдными.
4. Желательно, чтобы исходные данные для анализа подчинялись нормальному закону распределения. Нормальный закон распределения используется для того,
чтобы при проверке значимости коэффициентов корреляции и построении для них
интервальных границ можно было использовать определенные критерии. Если же
проверять значимость и строить интервальные оценки не требуется, переменные
могут иметь любой закон распределения.
В регрессионном анализе при построении уравнения регрессии требование
нормальности распределения исходных данных предъявляется лишь к результативной переменной Y. Обычно предполагается, что случайная величина Y имеет
нормальный закон распределения с условным математическим ожиданием Ý = (x1 ,
…, xk), являющимся функцией от аргументов xj, с постоянной, не зависящей от аргументов дисперсией σ2.
Независимые факторы Хj рассматриваются как неслучайные величины и могут
в действительности иметь любой закон распределения. Как и в случае корреляционного анализа, требование нормальности распределения нужно для проверки значимости регрессионного уравнения, его коэффициентов и нахождения доверительных
интервалов.
48
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
5. Число наблюдений, по которым устанавливается взаимосвязь признаков и
строится модель регрессии, должно превышать количество факторных признаков
хотя бы в 3-4 раза (а лучше в 8-10 раз).
Это объясняется тем, что статистическая связь проявляется только при значительном числе наблюдений на основе действия закона больших чисел, причем, чем
связь слабее, тем больше требуется наблюдений для установления связи, чем сильнее - тем меньше;
6. Факторные признаки Хj не должны находиться между собой в функциональной зависимости. Значительная связь независимых (факторных, объясняющих)
признаков между собой указывает на мультиколлениарность. Ее наличие приводит
к построению неустойчивых регрессионных моделей, «ложных» регрессий.
Для проведения регрессионного анализа из (k+1)-мерной генеральной совокупности (Y, X1, X2, …, Xj, …, Xk) берется выборка объемом n и каждое i-ое наблюдение характеризуется значениями переменных (yi, xi1, xi2, …, xij, …, xik), где xij - значение j –ой переменной для i-го наблюдения (i = 1,2,…, n), yi – значение результативного признака для i-го наблюдения.
Наиболее часто используется множественная линейная регрессионная модель.
В матричной форме она имеет вид:
Y  X   ,
(3.1)
где Y – случайный вектор-столбец размерности (n х 1) наблюдаемых значений результативного признака (y1, y2,…, yn); X – матрица размерности [n x (k+1)] наблюдаемых значений аргументов; элемент матрицы xij рассматривается как неслучайная
величина (i = 1, 2, …, n, j = 0, 1, 2, …, k); β – вектор-столбец размерности [(k+1) x 1]
неизвестных, подлежащих оценке параметров (коэффициентов регрессии) модели; ε
– случайный вектор-столбец размерности (n x 1) ошибок наблюдений (остатков).
Компоненты вектора ε независимы между собой, имеют нормальный закон
распределения с нулевым математическим ожиданием и постоянной дисперсией.
Для оценки вектора β наиболее часто используют метод наименьших квадратов (МНК), согласно которому в качестве оценки принимают вектор b, который минимизирует сумму квадратов отклонения наблюдаемых значений y i от модельных
значений ŷ i , т.е. квадратичную форму:
n
Q  (Y  X ) T (Y  X )   ( y i  yˆ i ) 2  min
i 1
(3.2)
Справочные материалы для выполнения лабораторной работы №3 находятся
в Приложении Б. Элементы регрессионной статистики и дисперсионного анализа
сведены в табл. 3.1, 3.2.
Таблица 3.1 - Регрессионная статистика
49
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Наименование
Содержание
Формула
Множественный R
Коэффициент множественной корреляции, индекс корреляции
R-квадрат
Коэффициент детерминации, R2
R  R2
n
n
 ( yˆi  y )2
e
2
i
R 2  i n1
 1  n i 1
 ( yi  y )2
 ( yi  y )2
i 1
Нормированный
R-квадрат
Стандартная
ошибка
Скорректированный R2
Наблюдения
Количество значений переменной Y
Среднеквадратическое
от модели
i 1
R 2  1  (1  R 2 ) *
отклонение
e 
n 1
n  m 1
 e /(n  k  1) 
2
i
 ESS /(n  k  1)
n
Множественный R – коэффициент корреляции. Он равен парному линейному
коэффициенту корреляции для парного линейного уравнения регрессии. В противном случае его следует рассматривать просто как корень коэффициента детерминации.
R-квадрат – это коэффициент детерминации. Коэффициент является одной из
наиболее эффективных оценок адекватности регрессионной модели, мерой качества
уравнения регрессии в целом (или, как говорят, мерой качества подгонки регрессионной модели к наблюденным значениям.
Если R-квадрат > 0,95, говорят о высокой точности аппроксимации (модель
хорошо описывает явление). Если R-квадрат лежит в диапазоне от 0,8 до 0,95, говорят об удовлетворительной аппроксимации (модель в целом адекватна описываемому явлению). Если R-квадрат < 0,6, принято считать, что точность аппроксимации
недостаточна и модель требует улучшения (введения новых независимых переменных, учета нелинейностей и т. д.).
Нормированный R-квадрат – скорректированный (адаптированный, поправленный) коэффициент детерминации.
n 1
R  1  (1  R ) *
n  m 1
2
2
или
(n  1) * R 2  m
R 
n  m 1 ,
2
где n – количество значений переменной Y; m – количество факторных признаков Хj
.
Недостатком коэффициента детерминации R-квадрат является то, что он увеличивается при добавлении новых объясняющих переменных, хотя это и не обязательно означает улучшение качества регрессионной модели. В этом смысле предпо50
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
чтительнее использовать нормированный, который в отличие от R-квадрат может
уменьшаться при введении в модель новых объясняющих переменных, не оказывающих существенное влияние на зависимую переменную.
Стандартная ошибка - среднее квадратическое отклонение от модели.
Таблица 3.2 - Дисперсионный анализ
Наименование
Регрессия
Df – число
степеней
свободы
m
SS – сумма
квадратов
MS – дисперсия на одну
степень свободы

 ( y  y )  RSS
RSS 
  yˆ  y 
2
m
i
Остаток
Итого
n – m –1
n–1
2
i
ESS   ei
2
e
2
i
n  m 1
TSS    yi  y 
m

F-критерий Фишера
R2
n  m 1
F
*
2
m
1 R
ESS
n  m 1
2
Пояснения к дисперсионной статистике:
Df– число степеней свободы связано с числом единиц совокупности и с числом определяемых по ней констант.
SS – Сумма квадратов отклонений значений признака Y.
MS – Дисперсия на одну степень свободы.
F и Значимость F позволяют проверить значимость уравнения регрессии, т.е.
установить, соответствует ли математическая модель, выражающая зависимость
между переменными, экспериментальным данным и достаточно ли включенных в
уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Значимость F определяется как вероятность полученного значения критериальной статистики. Если эта вероятность меньше, например, 0.05 (заданного уровня значимости), то гипотеза о незначимости регрессии (т.е. гипотеза о
том, что все коэффициенты функции регрессии равны нулю) отвергается и считается, что регрессия значима.
F – Наблюдаемое (эмпирическое) значение статистики F, по которой проверяется гипотеза равенства нулю одновременно всех коэффициентов модели. Значимость F – теоретическая вероятность того, что при гипотезе равенства нулю одновременно всех коэффициентов модели F-статистика больше эмпирического значения F.
t – значение – расчетное значение статистики Стьюдента t расчi ; используется
для оценки значимости коэффициентов уравнения регрессии.
P-Значение – вероятность, позволяющая определить значимость коэффициента регрессии. Для этого вычисляются уровни значимости, соответствующие значениям критериальных статистик. Если вычисленный уровень значимости меньше заданного уровня значимости (например, 0.05). то принимается гипотеза о значимом
отличии коэффициента от нуля; в противном случае принимается гипотеза о незна51
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
чимом отличии коэффициента от нуля, т.е. что означает, что соответствующая независимая переменная практически не влияет на зависимую переменную.
Обозначения Нижние 95% и Верхние 95% -приводятся границы доверительных интервалов с доверительным уровнем 0.95. Эти границы вычисляются по
формулам:
Нижние 95% = Коэффициент - Стандартная ошибка * tα;
Верхние 95% = Коэффициент + Стандартная ошибка * tα.
Здесь tα – квантиль порядка α распределения Стьюдента с (n-m-1) степенью
свободы. В данном случае α= 0.95.
Аналогично вычисляются границы доверительных интервалов: Нижние
90.0% и Верхние 90.0%.
Пример
По данным n=20 сельскохозяйственных районов требуется построить регрессионную модель урожайности на основе следующих показателей: у - урожайность
зерновых культур (ц/га); х1 - число колесных тракторов (приведенной мощности) на
100 га; х2 – число зерноуборочных комбайнов на 100 га; х3 – число орудий поверхностной обработки почвы на 100 га; х4 – количество удобрений, расходуемых на
гектар; х5 – количество химических средств оздоровления растений, расходуемых на
гектар. Исходные данные для анализа приведены в таблице 3.3.
Таблица 3.3 - Исходные данные
Номер
наблюдения
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
y
Х1
х2
х3
х4
х5
9,70
8,40
9,00
9,90
9,60
8,60
12,50
7,60
6,90
13,50
9,70
10,70
12,10
9,70
7,00
7,20
8,20
8,40
13,10
8,70
1,59
0,34
2,53
4,63
2,16
2,16
0,68
0,35
0,52
3,42
1,78
2,40
9,36
1,72
0,59
0,28
1,64
0,09
0,08
1,36
0,26
0,28
0,31
0,40
0,26
0,30
0,29
0,26
0,24
0,30
0,30
0,32
0,40
0,28
0,29
0,26
0,29
0,22
0,25
0,26
2,05
0,46
2,46
6,44
2,16
2,69
0,73
0,42
0,49
3,02
3,19
3,30
11,51
2,26
0,60
0,30
1,44
0,05
0,03
1,17
0,32
0,59
0,30
0,43
0,39
0,32
0,42
0,21
0,20
1,37
0,73
0,25
0,39
0,82
0,13
0,09
0,20
0,43
0,73
0,99
0,14
0,66
0,31
0,59
0,16
0,17
0,23
0,08
0,08
0,73
0,17
0,14
0,38
0,17
0,35
0,15
0,08
0,20
0,20
0,42
52
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Решение
С целью анализа взаимосвязи показателей построим матрицу парных линейных коэффициентов корреляции (таблица 3.4).
Таблица 3.4 – Матрица парных коэффициентов корреляции
Y
1,00
0,43
0,37
0,40
0,58
0,33
Y
Х1
Х2
Х3
Х4
Х5
Х1
х2
х3
х4
х5
1,00
0,85
0,98
0,11
0,34
1,00
0,88
0,03
0,46
1,00
0,03
0,28
1,00
0,57
1,00
Анализ корреляционной матрицы показывает, что результативный показатель
наиболее тесно связан с показателем х4 (количество удобрений, расходуемых на
гектар). ryx  0,58 .
В тоже время связь между признаками-факторами достаточно тесная. Например, существует практически функциональная связь между числом колесных тракторов х1 и числом орудий поверхностной обработки почвы х3 ( rx x  0,98 ). Это свидетельствует о наличии мультиколлинеарности между признаками х1 и х3. Признаки
х1 и х2 , а также х2 и х3 тоже мультиколлинеарны ( rx x  0,85 ; rx x  0,88 ). Делаем
вывод о том, что признаки-факторы, которые мултиколлинеарны, одновременно в
уравнение регрессии включены быть не могут.
Продемонстрируем целесообразность такого вывода. Построим регрессионную модель урожайности, включив в нее все исходные показатели.
4
1 3
1 2
2 3
yˆ  3,515  0,006 x1  15,542 x 2  110 x3  4,475 x 4  2,932 x5 .
Для проверки гипотезы о существенности коэффициентов рассчитаем для
каждого коэффициента уравнения регрессии t расч : t расч1  0,01 ; t расч2  0,72 ;
j
t расч3  0,13 ; t расч4  2,90 ; t расч5  0,95 . Критическое значение t кр  2,14 найдено по таб-
лице t-распределения при уровне значимости α=0,05 и числе степеней свободы ν=14
(ν= 20 – 5 – 1). Из уравнения следует, что статистически существенным является коэффициент регрессии только при х4, так как t 4  2,90  t кр  2,14 .
Не поддаются экономической интерпретации отрицательные знаки коэффициентов регрессии при х1 и х5 . Из уравнения следует, что повышение насыщенности
сельского хозяйства колесными тракторами х1 и средствами оздоровления растений х5 отрицательно сказывается на урожайности. Таким образом, полученное
уравнение регрессии использовать на практике нельзя.
После реализации алгоритма пошагового регрессионного анализа с исключением переменных и учетом того, что в уравнение должна войти только одна из трех
53
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
тесно связанных переменных (х1,, х2 , х3.), получаем окончательное уравнение регрессии:
yˆ  7,342  0,34 x1  3,294 x 4 .
В уравнение включен х1 , как определяющий из трех показателей. Уравнение
значимо при α=0,05, так как F расч  266  Fкр  3,59 , найденного по таблице Fраспределения при α=0,05;  1  2; 2  17 . Существенны и все коэффициенты регрессии 1 и  4 . В уравнении t кр =2,11 (α=0,05;   17 ). Коэффициент регрессии 1 следует признать существенным ( 1 ≠0) из экономических соображений, при этом
t расч1  2,09 лишь незначительно меньше t кр =2,11. При α=0,1 t кр =1,76 и 1 статистически существенен. Аналогично существенен и  2 : t расч4  3,02 .
Интерпретация уравнения регрессии: из уравнения следует, что увеличение
на 1 числа тракторов на 100 га пашни приводит к росту урожайности зерновых в
среднем на 0,345 ц/га (b1=0,345).
Коэффициенты эластичности Э1=0,068 и Э2=0,161 показывают, что при увеличении показателей х1 и х4 на 1 % урожайность зерновых повышается соответственно на 0,068% и 0,161% ( Э j  b j 
xj
y
).
Множественный коэффициент детерминации R 2  0,469 свидетельствует о том,
что только 46,9% вариации урожайности объясняется вошедшими в модель показателями (х1 и х4), то есть насыщенностью растениеводства тракторами и удобрениями. Остальная часть вариации обусловлена действием неучтенных факторов (х2 , х3
, х5, погодных условий и др.).
Средняя относительная ошибка аппроксимации А  10,5% характеризует адекватность модели.
3.3 Вопросы для самостоятельной подготовки
1. Каковы основные задачи регрессионного анализа?
2. В чем особенность классической модели парной линейной регрессии?
3. В каких случаях для описания результативного признака целесообразно построение модели парной линейной регрессии?
4. Перечислите требования к исходной информации при построении модели
парной линейной регрессии.
5. Поясните смысл коэффициента регрессии, назовите способы его оценивания.
6. В чем суть метода наименьших квадратов?
7. В каких случаях возможно использование МНК?
8. Поясните предпосылки МНК.
54
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
9. Что такое число степеней свободы?
10. Что определяет уровень значимости α?
11. Какова концепция F-критерия Фишера?
12. Как определяется табличное значение критерия Фишера? Как определяется
фактическое (расчетное) значение критерия Фишера?
13. В чем смысл средней ошибки аппроксимации и как она определяется?
14. Что характеризует эластичность?
15. Как строится доверительный интервал коэффициентов регрессии?
16. Как рассчитывается прогнозная оценка результативного признака?
17. Каковы основные задачи множественного регрессионного анализа?
18. Запишите модель множественной линейной регрессии. Поясните, каким
образом осуществляется интерпретация модели регрессии.
19. Поясните смысл коэффициентов регрессии, назовите способы их оценивания.
20. Изложите сущность дисперсионного анализа и результаты его представления в Excel.
21. Изложите результаты представления регрессионного анализа в Excel.
22. Что такое число степеней свободы?
23. Что определяет уровень значимости α?
24. Какова концепция F-критерия Фишера?
25. Как определяется табличное значение критерия Фишера? Как определяется
фактическое (расчетное) значение критерия Фишера?
26. Как определяется значимость (существенность) коэффициентов регрессии?
27. Как определяется табличное значение критерия Стьюдента? Как определяется фактическое (расчетное) значение критерия Стьюдента?
28. Перечислите и поясните критерии, по которым сравниваются регрессионные модели, описывающие один и тот же результативный признак.
29. Назовите трудности при построении уравнения множественной линейной
регрессии.
30. Изложите сущность явления мультколлинеарности.
31. Назовите основные направления решения проблемы мультиколлинерности
признаков в регрессионном уравнении.
32. Каким образом строится прогноз по уравнению регрессии?
33. Каким образом строится доверительный интервал оценки прогноза по
уравнению регрессии?
55
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
4 ЛАБОРАТОРНАЯ РАБОТА № 7-8.
Использование фиктивных переменных в уравнении множественной линейной регрессии
Цель работы: Приобретение навыков исследования уравнения множественной линейной регрессии с включением фиктивных переменных.
4.1 Задание для работы в лаборатории
На основе представленных преподавателем исходных данных с целью изучения влияния качественных факторных признаков на результативный признак требуется проанализировать целесообразность включения фиктивных переменных в модель множественной регрессии. Для этого необходимо:
1) построить модель множественной регрессии с исходными количественными
факторами и проанализировать ее (оценить пригодность модели к практическому
использованию, точность модели, проверить адекватность модели);
2) построить модель множественной регрессии с включением, дополнительно
к исходным, качественных факторов; проанализировать ее (оценить пригодность
модели к практическому использованию, точность модели, проверить адекватность
модели);
3) сравнить результаты моделирования и сделать вывод о целесообразности
(или нецелесообразности) включения в модель фиктивных переменных; результаты
сравнения свести в таблицу;
4) пояснить, каким образом можно использовать полученную модель на практике.
4.2 Теоретическая часть для лабораторной работы №7-8
Использование фиктивных переменных при построении уравнения множественной линейной регрессии
В ряде случаев, при построении уравнения регрессии, может возникнуть необходимость включения факторов, которые носят качественный характер. Это могут
быть такие признаки как профессия, пол, образование, климатические условия, принадлежность к определенному региону и т.п. Для того чтобы включить подобные
факторы в регрессионную модель им надо присвоить либо число 0, либо 1. Такого
рода сконструированные переменные принято называть фиктивными переменными
или манекенами.
Качественные признаки могут приводить к неоднородности исследуемой совокупности, что может быть учтено при моделировании двумя путями:
1) регрессия строится для каждой качественно отличной группы единиц совокупности, т.е. для каждой группы в отдельности, чтобы преодолеть неоднородность
единиц общей совокупности;
56
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
2) общая регрессионная модель строится для совокупности в целом, учитывающей неоднородность данных. В этом случае в регрессионную модель вводятся
фиктивные переменные, т.е. строится регрессионная модель с переменной структурой, отражающей неоднородность данных. Причем, существует правило: если качественная переменная имеет k альтернативных значений, то при моделировании используются только (k-1) фиктивная переменная.
Проверка адекватности модели регрессии
Действия, выполняемые в данном случае, представляют собой процесс (этап)
верификации модели регрессии, т.е. процесс, в ходе которого подвергается анализу
качество полученной модели. С этой целью анализируется остаточная компонента
 i . Качество регрессионной модели характеризуется выполнением определенных
статистических свойств и точностью, т.е. степенью близости к фактическим данным. Модель считается хорошей со статистической точки зрения, если она адекватна и достаточно точна.
Теоретически доказано, что свойства оценок коэффициентов регрессии, а,
следовательно, и качество построенной регрессии существенно зависят от свойств
случайной составляющей  i . Для получения по МНК наилучших результатов необходимо, чтобы выполнялся ряд предпосылок относительно случайного отклонения
i .
Предпосылки применимости метода МНК (условия Гаусса-Маркова):
1. Математическое ожидание  i . равно нулю: М (  i .) = 0.
Данное условие означает, что случайное отклонение в среднем не оказывает
влияния на зависимую переменную. В каждом конкретном случае случайный член
может быть либо положительным, либо отрицательным, но он не должен иметь систематического смещения. Выполнимость М (  i .) = 0 влечет выполнимость
M Y X  xi      * xi .
2. Дисперсия  i . постоянна: D(  i .) =  2 для всех i; данное условие подразумевает, что несмотря на то, что при каждом конкретном наблюдении случайное
отклонение может быть большим, либо меньшим, не должно быть априорной причины , вызывающей большую ошибку (отклонение). Выполнимость данной предпосылки называется гомоскедастичностью (постоянством дисперсии отклонений).
Невыполнимость данной предпосылки называется гетероскедастичностью (непостоянством дисперсий отклонений).
3. Значения  i . независимы между собой. Откуда вытекает, в частности, что
 0 при i  j ,
cov(  i  j )   2
 при i  j .
57
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Выполнимость данной предпосылки предполагает, что отсутствует систематическая связь между любыми случайными отклонениями. Другими словами, величина и знак любого случайного отклонения не должны быть причинами величины и
знака любого другого отклонения.
Если данное условие выполняется, то говорят об отсутствии автокорреляции
остатков уравнения регрессии.
4. Величина  i . должна быть независима от объясняющих переменных:
  x  cov  i , xi   0 .
Выполнимость этой предпосылки не столь критична для эконометрических
моделей.
i i
Известно, что, если условия 1)-4) выполняются, то оценки, сделанные с помощью МНК, обладают следующими свойствами:
1) Оценки являются несмещенными, т.е. математическое ожидание оценки
каждого параметра равно его истинному значению: М(а) =; М(b)=. Это вытекает
из того, что М(  i .) = 0, и говорит об отсутствии систематической ошибки в определении положения линии регрессии.
2) Оценки состоятельны, так как дисперсия оценок параметров при возрастании числа наблюдений стремится к нулю:
lim D( a )  0 lim D( b )  0
n 
; n 
.
Иначе говоря, если п достаточно велико, то практически наверняка а близко к
, а b близко к : надежность оценки при увеличении выборки растет.
3) Оценки эффективны, они имеют наименьшую дисперсию по сравнению с
любыми другими оценками данного параметра, линейными относительно результативного признака у . В англоязычной литературе такие оценки называются BLUE
(Best Linear Unbiased Estimators - наилучшие линейные несмещенные оценки).
Перечисленные свойства не зависят от конкретного вида распределения величин  i ., тем не менее, обычно предполагается, что они распределены нормально. Эта
предпосылка необходима для проверки статистической значимости сделанных оценок и определения для них доверительных интервалов. При ее выполнении оценки
МНК имеют наименьшую дисперсию не только среди линейных, но среди всех несмещенных оценок.
Если свойства 3) и 4) нарушены, то есть дисперсия возмущений непостоянна
и/или значения є связаны друг с другом, то свойства несмещенности и состоятельности сохраняются, но свойство эффективности - нет.
Наряду с выполнением указанных предпосылок МНК при построении классических регрессионных моделей предполагается:
1) объясняющие переменные не являются случайными величинами;
2) случайные отклонения имеют нормальные распределения;
58
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
3) отсутствуют ошибки классификации;
4) отсутствует совершенная мультиколлинеарность.
Проверка предпосылок МНК осуществляется следующим образом:
1. Математическое ожидание еi. равно нулю: М (еi) = 0.
Равенство нулю математического ожидания ряда остатков означает выполнение следующего соотношения:
n
e
i
(4.1)
e  i 1  0 .
n
Однако в случае применения метода наименьших квадратов такая проверка
является излишней, поскольку использование МНК предполагает выполнение раn
венства  ei  0 , откуда безусловным образом следует равенство нулю математичеi 1
ского ожидания значений остаточного ряда.
В общем, проверку условия 1 можно выполнить по t-критерию Стьюдента.
Если расчетное значение статистики Стьюдента меньше табличного (критического)
значения статистики Стьюдента (tрасч<tтабл), то с вероятностью α принята гипотеза
H0, следовательно математическое ожидание остатков уравнения регрессии равно
нулю и предпосылка выполняется.
2. Дисперсия  i . постоянна: D(еi) =  2 для всех i.
Равенство дисперсий подразумевает, что, несмотря на то, что при каждом конкретном наблюдении случайное отклонение может большим либо маленьким, положительным либо отрицательным, не должно быть некой априорной причины, вызывающей большую ошибку (отклонение) при одних наблюдениях и меньшую – при
других.
Однако на практике гетероскедастичность не так уж и редка. Зачастую есть
основания считать, что вероятностные распределения случайных отклонений при
различных наблюдениях будут различными. Это не означает, что случайные отклонения обязательно будут большими при определенных условиях и малыми – при
других, но это означает, что априорная вероятность этого велика.
На рис. 4.1 представлен пример линейной регрессии - зависимости потребления y от дохода х. На рис. А) дисперсия потребления остается одной и той же для
различных уровней дохода, на рис. 4.1б при аналогичной зависимости среднего потребления от дохода дисперсия потребления не остается постоянной, а увеличивается с ростом дохода.
59
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Рисунок 4.1 – Изучение гомоскедастичности а) и гетероскедастичности б)
Фактически это означает, что во втором случае субъекты с большим доходом
в среднем потребляют больше, чем субъекты с меньшим доходом, и, кроме того,
разброс в их потреблении более существенен для большего уровня дохода. Фактически люди с большими доходами имеют больший простор для распределения своего
дохода. Реалистичность данной ситуации не вызывает сомнений. Разброс значений
потребления вызывает разброс точек наблюдения относительно линии регрессии,
что и определяет дисперсию случайных отклонений.
Проблема гетероскедастичности в большей степени характерна для пространственных данных и довольно редко встречается при рассмотрении временных рядов.
Если условие гомоскедастичности не выполняется, то имеет место гетероскедастичность. Гетероскедастичность в отдельных случаях может привести к смещенности оценок коэффициентов уравнения регрессии.
Гетероскедастичность будет сказываться на эффективности коэффициентов
уравнения регрессии. Нельзя использовать формулу стандартной ошибки коэффициентов регрессии , так как она предполагает единую дисперсию остатков для любых значений фактора.
Практически нарушение гомоскедастичности означает, что  i2  ki *  2 . При
этом величина ki может меняться при переходе от одного значения фактора к другому, т.е. при наличии гетероскедастичности сумма квадратов отклонений имеет
1
вид: S   * ( yi  (a  bxi )) 2 . Задача состоит в том, чтобы определить величину ki ,
i ki
т.е. внести поправку в исходные переменные. С этой целью рекомендуется использовать обобщенный МНК, который эквивалентен обычному МНК, примененному к
преобразованным данным.
60
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Наличие гетероскедастичности можно наглядно установить с помощью графического метода. Выводы о наличии гетероскедастичности будут более надежными, если использовать графики зависимости e(x) или e 2 ( x) в случае парной регрессии и график зависимости e 2 ( yˆ ) в случае множественной линейной регрессии.
На рис. 4.2.а) все отклонения находятся внутри полуполосы постоянной ширины, параллельной оси абсцисс. Это говорит о независимости дисперсий от значений переменной и их постоянстве, т.е. этот случай соответствует гомоскедастичности.
На рис. 4.2 б) – г) наблюдаются некие систематические изменения в соотношениях между значениями переменной и квадратами отклонений, что отражает проявление гетероскедастичности.
Рисунок 4.2 – Изучение графика остатков e 2 ( x)
Графический анализ отклонений является удобным и достаточно надежным в
случае парной регрессии. При множественной регрессии графический анализ возможен для каждой отдельной объясняющей переменной. Чаще же вместо объясняющих переменных по оси абсцисс откладывают значения ŷ (рис. 4.3).
61
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Рисунок 4.3 - Изучение графика остатков для множественной регрессии:
а – остатки неслучайны, б - остатки носят систематический характер,
в – остатки не имеют постоянной дисперсии
При малом объеме выборки для оценки гетероскедастичности можно использовать метод Голдфельда – Квандта. Но он применяется в том случае, если ошибки
регрессии можно считать нормально распределенными случайными величинами.
При обнаружении гетероскедастичности остатков уравнения регрессии ставится
цель ее устранения, чему служит применение обобщенного метода наименьших
квадратов (ОМНК). ОМНК применяется к преобразованным данным и позволяет
получить оценки, которые обладают не только свойством несмещенности, но и
имеют наименьшие выборочные дисперсии.
3. Значения еi независимы между собой.
Автокорреляция остатков (отклонений) обычно встречается в регрессионном
анализе при анализе временных рядов. При использовании пространственных данных наличие автокорреляции встречается довольно редко.
Приведем пример. Пусть исследуется спрос на прохладительные напитки от
дохода по ежемесячным данным. Трендовая зависимость, отражающая увеличение
спроса с ростом дохода, может быть представлена линейным уравнением, изображенным на рис. 4.4. Фактические точки наблюдений превышают трендовую линию
в летние периоды и будут ниже в зимние. Это случай положительной автокорреляции.
Рисунок 4.4 - Исследование спроса на прохладительные напитки Y от дохода
X по месячным данным - случай положительной автокорреляции остатков уравнения регрессии
Отрицательная корреляция фактически означает, что за положительным отклонением имеет место отрицательное и наоборот. Возможная схема рассеивания
точек в этом случае представлена на рис. 4.5. Такая ситуация может иметь место,
например, если ту же зависимость между спросом на прохладительные напитки и
доходами рассматривать по сезонным данным (зима – лето), а не помесячным, как
это было в предыдущем примере с положительной автокорреляцией.
62
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Рисунок 4.5 - Исследование спроса на прохладительные напитки Y от дохода
X по сезонным (квартальным) данным - случай отрицательной
автокорреляции
остатков уравнения регрессии
Причинами автокорреляции являются: 1) ошибки спецификации, 2) инерция,
3) эффект паутины, 4) сглаживание данных.
Наличие автокорреляции в остатках приводит к тому, что оценки параметров
перестают быть эффективными, оценки дисперсии становятся смещенными и заниженными, что влечет за собой увеличение t-статистик и признание статистической
значимости уравнения регрессии, тогда как в действительности оно таковым не является и, следовательно, модель нельзя использовать для прогноза.
Возможно графическое определение автокорреляции путем построения и анализа последовательно-временных графиков зависимостей отклонений  i от моментов их получения (рис. 4.6).
Рисунок 4.6 – Исследование автокорреляции остатков уравнения регрессии
63
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
На рис. 4.6 а - г имеются определенные связи между отклонениями, т.е. автокорреляция имеет место. Отсутствие зависимости на рис. 4.6 д, скорее всего, свидетельствует об отсутствии автокорреляции.
На практике для анализа коррелированности отклонений используется статистика Дарбина-Уотсона. Расчетное значение DW рассчитывается по формуле:
n
 (e  e )
DW  d  t 2
t
2
t 1
,
(4.2)
et2
где et , et 1 - остатки уравнения регрессии (последующего и предыдущего номеров
выборки); n - объем выборки.
Значения статистики Дарбина-Уотсона находятся в пределах: 0  DW  4 .
Табличное значение Дарбина-Уотсона находится по специальным таблицам,
позволяющим при данном числе наблюдений n, количестве объясняющих переменных m, заданном уровне значимости α определить границы приемлемости гипотезы
о наличии или отсутствии автокорреляции остатков. А именно по таблицам можно
определить d l - нижнюю границу и d u - верхнюю границу зоны неопределенности,
в которой ничего нельзя сказать о наличии или отсутствии автокорреляции остатков:
1) если DW  d l , то это свидетельствует о наличии положительной автокорреляции остатков уравнения регрессии.
2) если d l  DW  d u , то расчетное значение статистики Дарбина-Уотсона
находится в зоне неопределенности, где об автокорреляции ничего сказать нельзя.
3) если d u  DW  2 , то автокорреляция считается отсутствующей с вероятностью p 1   .
4) если 2  DW  4  d u , то автокорреляция считается отсутствующей с вероятностью p 1   .
5) если 4  d u  DW  4  d l , то расчетное значение статистики ДарбинаУотсона находится в зоне неопределенности, где об автокорреляции ничего сказать
нельзя.
6) если 4  d l  DW  4 , это свидетельствует о наличии отрицательной автокорреляции остатков уравнения регрессии
При наличии автокорреляции остатков построенное уравнение регрессии
обычно считается неудовлетворительным.
4. Величина еi должна быть независима от объясняющих переменных
  x  cov  i , xi   0 , т.е. случайной переменной;
i i
Пример выполнения условия 4: остатки еi не зависят от объясняющей переменной xi - рис. 4.7.
64
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Рисунок 4.7 – Изучение изменения еi - пример случайных остатков
Если график показывает зависимость еi от величины xi , то модель не адекватна (рис. 4.8) . Причинами могут быть:
1) нарушена 3–я предпосылка МНК;
2) неправильная спецификация модели и в нее требуется ввести дополнительные члены xi , например, xi2 , или преобразовать значения y .
Рисунок 4.8 - Пример неслучайных остатков
Скопление точек в определенных участках значений фактора xi говорит о
наличии систематической погрешности модели. Корреляция еi с xi позволяет проводить корректировку модели, в частности, использовать кусочно-линейные модели.
Необходимым для получения по МНК состоятельных оценок параметров регрессии является соблюдение 3–й и 4–й предпосылок.
Проверка случайности последовательности еi проводится с помощью критерия пиков (поворотных точек). Каждое значение ряда (еi) сравнивается с двумя,
рядом стоящими. Точка считается поворотной, если она либо больше и предыдущего и последующего значения (  i 1   i   i 1 ), либо меньше и предыдущего и последующего значения (  i 1   i   i 1 ).
65
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
В случайном ряду должно выполняться строгое неравенство: , (6.14)
p  2 * (n  2) / 3  2 * (16 n  29) / 90 ,
где p - число поворотных точек;
[ ] - целая часть результата вычислений.
Нормальность распределения остатков можно проверить с помощью коэффициентов асимметрии и эксцесса. Последовательность проверки изложена в теоретической части к лабораторной №1.
Ниже изложена стандартная схема анализа регрессионных зависимостей:
1. Подбор начальной модели. Он осуществляется на основе экономической
теории, предыдущих знаний об объекте исследования, опыта исследователя и его
интуиции.
2. Оценка параметров модели на основе имеющихся статистических данных.
3. Осуществление тестов проверки качества модели (обычно используется статистика для коэффициентов регрессии, статистика для коэффициентов детерминации, статистика Дарбина-Уотсона для анализа остатков и ряд других тестов).
4. При наличии хотя бы одного неудовлетворительного ответа по какому-либо
тесту модель совершенствуется с целью устранения выявленного недостатка.
5. При положительных ответах по всем проведенным тестам модель считается
качественной. Она используется для анализа и прогноза зависимой переменной.
Однако не стоит абсолютизировать полученный результат. Даже качественная
модель является подгонкой спецификации модели под имеющиеся данные. Поэтому
бывает так, что разные исследователи строят разные модели для объяснения одной и
той же переменной. Другая проблема заключается в том, что иногда хорошие с точки зрения диагностических тестов модели обладают весьма низкими прогнозными
качествами.
Кроме того, до сих достаточно спорным является вопрос, как строить модель:
начинать с самой простой и постепенно усложнять ее или же начинать с максимально сложной модели и упрощать ее на основе проводимых исследований. И тот и
другой подход имеют как достоинства, так и недостатки.


4.3. Вопросы для самостоятельной подготовки
1. Дайте понятие адекватной модели регрессии. Приведите пример. Поясните
графически.
2. Дайте понятие точной модели регрессии. Приведите пример. Поясните графически.
3. Поясните, каким образом адекватность и точность модели регрессии зависят от регрессионных остатков.
4. Поясните сущность условий Гаусса-Маркова.
5. Поясните смысл понятий гомоскедастичность и гетероскедастичность.
6. Поясните последствия гетероскедастичности.
7. Поясните, что означает наличие автокорреляции остатков уравнения регрессии. Каковы последствия наличия этого явления.
66
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
8. Какими свойствами обладают оценки коэффициентов уравнения регрессии,
рассчитанные по МНК?
9. Перечислите условия, которые помимо предпосылок МНК (условий ГауссаМаркова) предполагаются при построении классических регрессионных моделей.
10. Как проверить выполнение 1-й предпосылки МНК М (еi) = 0?
11. Как проверить выполнение 2-й предпосылки МНК D(еi) =  2 для всех i?
12. Как проверить выполнение 3-й предпосылки МНК - значения  i . независимы между собой?
13. Как проверить выполнение 4-й предпосылки МНК -   x  cov  i , xi   0 ?
14. Каким образом проверяется случайность остатков уравнения регрессии?
15. Каким образом проверяется нормальность распределения остатков уравнения регрессии?
16. Каким образом можно изучить влияние качественных переменных на результативный признак в регрессионной модели?
17. Дайте понятие «фиктивная переменная».
18. Какой эффект будет достигнут включением фиктивных переменных в регрессионную модель – множественную регрессию?
19. Каким образом составляется выборка для построения множественной линейной регрессии с включением фиктивных переменных? Это временная или пространственная выборка?
20. Каким образом рассчитываются коэффициенты уравнения регрессии с
фиктивными переменными?
21. Каким образом осуществляется прогнозирование результативного признака по уравнению регрессии с фиктивными
i i
67
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
5. Рекомендуемая литература
Основная литература
1. Крутиков В.Н. Анализ данных [Электронный ресурс]: учеб. пособие /
В.Н. Крутиков, В.В. Мешечкин - Кемерово: Кемеровский государственный
университет,
2014.
138
с.
Режим
доступа:
по
подписке.
–
URL: https://biblioclub.ru/index.php?page=book&id=278426 – Библиогр. в кн. – ISBN
978-5-8353-1770-7. – Текст : электронный.
2. Прикладная математическая статистика [Электронный ресурс]: учеб. пособие / сост. А.А. Мицель - Томск: ТУСУР, 2016. - 113 с. Режим доступа http://biblioclub.ru/index.php?page=book&id=480889.
Дополнительная литература
1. Афанасьев В.Н. Статистическая методология в научных исследованиях
[Электронный ресурс]: учеб. пособие / В.Н. Афанасьев, Н.С. Еремеева, Т.В. Лебедева. - Оренбург : ОГУ, 2017. - 246 с. Режим доступа - URL:
http://biblioclub.ru/index.php?page=book&id=485266.
2. Большаков А.А. Методы обработки многомерных данных и временных рядов: учеб. Пособие по напр. «Информатика и вычислительная техника»/ А.А. Большаков, Р.Н. Каримов. – 2-е изд., стер. – М.: Горячая линия – Телеком, 2014. – 520 с. :
ил. – Библиогр. в конце глав. – ISBN 978-5-7782-3183-2. – Текст электронный. (1 ч/з)
3. Новикова Е.Н. Компьютерная обработка результатов измерений [Электронный ресурс] : учеб. пособие / Е.Н. Новикова, О.Л. Серветник - Ставрополь : СКФУ,
2017. - 182 с. Режим доступа - http://biblioclub.ru/index.php?page=book&id=483751.
4. Программные системы статистического анализа: обнаружение закономерностей в данных с использованием системы R и языка Python: [16+] / В.М. Волкова,
М.А. Семенова, Е.С.Четвертакова, С.С. Вожов ; Новосибирский государственный
технический университет. – Новосибирск: Новосибирский государственный технический университет, 2017. – 74 с.: ил., табл. – Режим доступа: по подписке. –
URL: https://biblioclub.ru/index.php?page=book&id=576496. – Библиогр.: с. 48. – ISBN
978-5-7782-3183-2. – Текст: электронный.
5. Факторный анализ в задачах обработки экспериментальных данных: учеб.
пособие по курсу «Математические основы экспериментальных исследований» / И.
Н. Архиреева, В. П. Бородюк, Ю. Е. Голяс, В. Г. Киреева; Под ред. Г. Ф. Филаретова; Моск. энерг. ин-т. - М. : Изд-во МЭИ, 1994. – 37 с.
6 Программное обеспечение и Интернет-ресурсы
1. Текстовый редактор Microsoft Word.
2. Электронные таблицы Microsoft Excel
68
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
3. Презентационный редактор Microsoft Power Point.
4. Информационные Банки Системы КонсультантПлюс и/или др., установленные в филиале МЭИ в г. Смоленске.
5. Электронная справочно-информационная система библиотеки филиала
ФГБОУ ВО «НИУ «МЭИ» в г. Смоленске.
6. Научная и учебно-методическая литература [Электронный ресурс]. – Электронные данные.- URL: http://www.intuit.ru.
7. СПС КонсультантПлюс [Электронный ресурс]. – Электронные данные. URL:http://www.consultant.ru (вкладка «О компании и продуктах», ссылка «Студенту
и преподавателю», по тексту «Руководство пользователя «КонсультантПлюс: Шаг за
шагом», скачать «cons_manual.rar».
8. http://e.lanbook.com
9. http://biblioclub.ru
69
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
ПРИЛОЖЕНИЕ А
МАТЕМАТИКО-СТАТИСТИЧЕСКИЕ ТАБЛИЦЫ
Значения статистика Дарбина-Уотсона при 5%-ном уровне значимости
n
6
7
8
9
10
11
12
13
14
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
k=1
dL
0,61
0,7
0,76
0,82
0,88
0,93
0,97
1,01
1,05
1,1
1,13
1,16
1,18
1,20
1,22
1,24
1,26
1,27
1,29
1,30
1,32
1,33
1,34
1,35
k=2
du
1,4
1,36
1,33
1,33
1,32
1,32
1,33
1,34
1,35
1,37
1,38
1,39
1,4
1,41
1,42
1,43
1,44
1,45
1,45
1,46
1,47
1,48
1,48
1,49
dL
0,47
0,56
0,56
0,63
0,66
0,81
0,86
0,91
0,98
1,02
1,05
1,08
1,10
1,13
1,15
1,17
1,19
1,21
1,22
1,24
1,26
1,27
1,28
70
k=3
du
1,9
1,78
1,78
1,7
1,6
1,58
1,56
1,55
1,54
1,54
1,53
1,53
1,54
1,54
1,54
1,54
1,55
1,56
1,55
1,56
1,56
1,56
1,57
dL
-
du
-
0,37
0,37
0,46
0,60
0,66
0,72
0,77
0,86
0,90
0,93
0,87
1,00
1,03
1,05
1,08
1,10
1,12
1,14
1,16
1,18
1,20
1,21
2,29
2,29
2,13
1,93
1,86
1,82
1,78
1,73
1,71
1,69
1,68
1,68
1,67
1,66
1,66
1,66
1,66
1,65
1,65
1,65
1,65
1,65
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Таблица значений F-критерия Фишера при 5%-ном уровне значимости
K1
1
2
3
4
K2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
20
21
22
23
24
25
26
27
28
29
30
35
40
45
50
60
161,45
18,51
10,13
7,71
6,61
5,99
5,59
5,32
5,12
4,96
4,84
4?75
4,67
4,60
4,54
4.35
4,32
4,30
4,28
4,26
4,34
4.22
4,21
4,20
4,18
4,17
4,12
4,08
4,06
4,03
4,00
199,5
19,00
9,55
6,94
5,79
5,14
4,74
4,46
4,26
4,1
3,98
3,88
3,80
3,34
3,68
3,49
3,47
3,44
3,42
3,40
3,38
3,37
3,35
3,34
3,33
3,32
3,26
3,23
3,21
3,18
3,15
71
215,72
19,16
9,28
6,59
5,41
4,76
4,35
4,07
3,86
3,71
3,59
3,49
3,41
3,34
3,29
3,10
3,07
3,05
3,03
3,01
2,99
2,98
2,96
2,95
2,93
2,92
2,87
2,84
2,81
2.79
2,76
224,54
19,25
9,12
6,39
5,19
4,53
4,12
3,84
3,63
3,48
3,36
3,26
3,18
3,11
3,06
2,87
2,84
2,82
2,80
2,78
2,76
2,74
2,73
2,71
2,70
2,69
2,64
2,61
2,58
2,56
2,52
Методическое обеспечение дисциплины
Б1.В.ДВ.04.01 «Методы анализа данных»
Критические значения критерия Стьюдента
при уровне значимости 0,10, 0,05, 0,01
Число стеα
Число стеα
пеней сво- 0,10
0,05
0,01 пеней сво- 0,10
0,05
боды
боды
1
6,3138 12,706 63,657
18
1,7341 2,1009
2
2,9200 4,3027 9,9248
19
1,7291 2,0930
3
2,3534 3,1825 5,8409
20
1,7247 2,0860
4
2,1308 2,7764 4,6041
21
1,7207 2,0796
5
2,0150 2,5706 4,0321
22
1,7171 2,0739
6
1,9432 2,4469 3,7074
23
1,,7139 2,0687
7
1,8946 2,3646 3,4995
24
1,7109 2,0639
8
1,8595 2,3060 3,3554
25
1,7081 2,0595
9
1,8331 2,2622 3,2498
26
1,7056 2,0555
10
1,8125 2,2281 3,1693
27
1,7033 2,0518
11
1,7959 2,2010 3,1058
28
1,7011 2,0484
12
1,7823 2,1788 3,0545
29
1,6991 2,0452
13
1,7709 2,1604 3,0123
30
1,6973 2,0423
14
1,7613 2,1448 2,9768
40
1,6839 2,0211
15
1,7459 2,1199 2,9208
60
1,6707 2,0003
16
1,7459 2,1199 2,9208
120
1,6577 1,9799
17
1,7396 2,1098 2,8982
∞
1,6449 1,9600
72
0,01
2,8784
2,8609
2,8453
2,8304
2,8188
2,8073
2,7969
2,7874
2,7787
2,7707
2,7633
2,7564
2,7500
2,7045
2,6603
2,6174
2,5758