Основы регрессионного
анализа
Под регрессионным анализом понимают исследование
закономерностей связи
между явлениями (процессами), которые зависят от
многих, иногда неизвестных, факторов.
Часто между переменными x и y существует связь, но
не вполне
определенная, при которой одному значению x
соответствует несколько значений
(совокупность) y . В таких случаях связь называют
регрессионной. Таким образом,
функция y = f (x) является регрессионной
(корреляционной), если каждому
значению аргумента соответствует статистический ряд
распределения y .
Суть регрессионного анализа сводится к установлению
уравнения регрессии, т.е.
вида кривой между случайными величинами
(аргументами x и функцией y ), оценке
тесноты связей между ними, достоверности и
адекватности результатов измерений.
Чтобы предварительно определить наличие такой связи
между x и y , наносят
точки на график и строят так называемое
корреляционное поле (рис. 1). По виду
корреляционного поля можно судить о наличии
корреляционной связи. Так, из рис. 1-a
видно, что экспериментальные данные имеют
определенную связь между x и y , а
измерения на рис. 1-б такой связи не показывают.
корреляционное поле
Различают однофакторные (парные) и
многофакторные регрессионные зависимости.
Парная регрессия при парной зависимости
может быть аппроксимирована прямой
линией,
параболой, гиперболой, логарифмической,
степенной или показательной функцией,
полиномом и др. Двухфакторное поле можно
аппроксимировать плоскостью,
параболоидом второго порядка,
гиперболоидом.
Построение модели парной
регрессия (или однофакторная модель)
заключается в нахождении уравнения связи
двух показателей у и х, т.е. определяется как
повиляет изменение одного показателя на
другой.
В задачах по эконометрике основным этапом
является нахождение параметров модели и
оценке их качества. Уравнение модели
парной регрессии можно записать в общем
виде:
где у - зависимый показатель (результативный
признак);
 х - независимый, объясняющий фактор.
В парной регрессии выбор вида
математической функции
может быть осуществлен тремя
методами:

графическим;

аналитическим, т.е. исходя из теории
изучаемой взаимосвязи;

экспериментальным.
При изучении зависимости между двумя
признаками графический метод подбора вида
уравнения регрессии достаточно нагляден.
Он основан на поле корреляции.
Значительный интерес представляет
аналитический метод выбора типа уравнения
регрессии. Он основан на изучении
материальной природы связи исследуемых
признаков.
При обработке информации на компьютере
выбор вида уравнения регрессии обычно
осуществляется экспериментальным методом.
Линейные и нелинейные модели
регрессии
Уравнение линейной регрессии: у=аX+b
Полиномиальная функция
Гиперболическая функция
Степенная модель
Показательная модель
Экспоненциальная модель
Выбрав вид функции регрессии, т.е. вид
рассматриваемой модели зависимости Y от Х (или Х
от У), например, линейную модель yx=a+bx,
необходимо определить конкретные значения
коэффициентов модели.
При различных значениях а и b можно построить
бесконечное число зависимостей вида yx=a+bx т.е на
координатной плоскости имеется бесконечное
количество прямых, нам же необходима такая
зависимость, которая соответствует наблюдаемым
значениям наилучшим образом.
Таким образом, задача сводится к подбору наилучших
коэффициентов.
Линейную функцию a+bx ищем, исходя лишь из
некоторого количества имеющихся наблюдений.
Для нахождения функции с наилучшим соответствием
наблюдаемым значениям используем метод
наименьших квадратов.
Суть МНК заключается в следующем: из всего
множества линий, которые можно провести
через экспериментальные точки на
корреляционном
поле, линия регрессии у=b1+b0x выбирается
так, чтобы сумма квадратов расстояний
по вертикали между экспериментальными
точками и этой линией была наименьшей.
Расстояния между экспериментальными
точками и линией регрессии есть отклонения
ei .
Следовательно, при использовании МНК
минимизируется следующая функция:
Необходимым условием существованием
минимума двух переменных является
равенство её частных производных по
неизвестным параметрам b0 и b1 .
Критерием близости корреляционной
зависимости между x и y к линейной
функциональной зависимости является
коэффициент корреляции r,
показывающий степень тесноты связи x
и y и определяемый отношением:
Коэффициент корреляции интерпретируется как мера
линейной зависимости
случайных величин.
При r > 0 между x и y существует положительная
линейная
связь.
При r <0 между x и y существует отрицательная
линейная связь.
При r = 0
между x и y отсутствует линейная связь.
На рис. 2 представлены примеры меры линейной
зависимости случайных величин
x и y , линиями изображены прямые уравнения
регрессии.
Рис. 2. Геометрическая интерпретация
коэффициента корреляции
Спасибо за внимание