Регрессионный анализ: понятие, задачи, основные цели
Регрессио́нный (линейный) анализ - статистический метод исследования зависимости между зависимой переменной Y и одной или несколькими независимыми переменными X1,X2, .,Xp. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные - критериальными. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных (см. Ложная корреляция), а не причинно-следственные отношения. Цели регрессионного анализа
Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными)
Предсказание значения зависимой переменной с помощью независимой(-ых)
Определение вклада отдельных независимых переменных в вариацию зависимой
Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.
Регрессионным анализом называется определение аналитического выражения связи между исследуемыми переменными, в котором изменение результативной переменной происходит под влиянием факторной переменной.
Модель регрессии или уравнение регрессии позволяет количественно оценить взаимосвязь между исследуемыми переменными.
Предположим, что имеется набор значений двух переменных: yi (результативная переменная) и xi (факторная переменная). Между этими переменными существует зависимость вида: y = f (x).
Задача регрессионного анализа состоит в том, чтобы по данным наблюдений определить такую функцию ỹ = f (x), которая наилучшим образом описывала исследуемую зависимость между переменными.
Для определения аналитической формы зависимости между исследуемыми переменными применяются следующие методы:
) графический метод или визуальная оценка характера связи. В этом случае на линейном графике по оси абсцисс откладываются значения факторной переменной х, а по оси ординат - значения результативной переменной у. Затем на пересечении соответствующих значений отмечаются точки. Полученный точечный график в системе координат (х, у) называется корреляционным полем. Линия, которая соединяет точки на графике, называется эмпирической линией. По её виду можно судить не только о наличии, но и о форме зависимости между изучаемыми переменными;
) на основе теоретического и логического анализа природы изучаемых явлений, их социально-экономической сущности;
) определение аналитической формы зависимости между переменными экспериментальным путём.
При исследовании зависимости между двумя переменными чаще всего используется линейная форма связи. Это связано с двумя обстоятельствами:
) чёткая экономическая интерпретация параметров линейной модели регрессии;
) в большинстве случаев нелинейные модели регрессии преобразуются к линейному виду.
Общий вид модели парной регрессии зависимости переменной у от переменной х:
yi=β0+β1xi+εi,
где yi- результативные переменные,
- факторные переменные,
β0, β1 - параметры модели регрессии, подлежащие оцениванию;
εi - случайная ошибка модели регрессии. Данная величина является случайной, она характеризует отклонения реальных значений результативных переменных от теоретических, рассчитанных по уравнению регрессии.
Присутствие случайной ошибки в модели регрессии порождено следующими источниками:
) нерепрезентативность выборки. Модель парной регрессии в большинстве случаев является большим упрощением истинной зависимости между переменными, потому что в модель входит только одна факторная переменная, не способная полностью объяснить вариацию результативной переменной. При этом результативная переменная может быть подвержена влиянию множества других факторных переменных в гораздо большей степени;