Данный документ представляет собой подробное методическое пособие по выполнению практических заданий в области эконометрического анализа. В материале детально разобраны пять ключевых задач: парная линейная регрессия, множественная регрессия, анализ временных рядов, выявление ложной корреляции и моделирование сезонных колебаний (аддитивная и мультипликативная модели). Приведены пошаговые алгоритмы расчетов, интерпретация коэффициентов и методы прогнозирования.
- Задача 1. Парная регрессия и корреляция
- Пункт 1. Построение поля корреляции
- Пункт 2. Оценка параметров уравнения
- Продолжение таблицы 1
- Пункт 3. Линейный коэффициент корреляции
- Пункт 4. Проверка статистических гипотез
- Пункт 5. Прогнозирование
- Задача 2. Множественная регрессия и корреляция
- Пункт 1. Анализ показателей тесноты связи
- Частные коэффициенты корреляции
- Пункт 2. Расчет параметров уравнения
- Пункты 3-5. Эластичность, детерминация и дисперсионный анализ
- Задача 3. Анализ временных рядов
- Пункт 3. Прогноз по тренду
Задача 1. Парная регрессия и корреляция
Задача 1 каждого варианта составлена по теме “Парная регрессия и корреляция”. Введем следующие обозначения:
- x — факторный признак, независимая (объясняющая) переменная;
- y — результативный признак, зависимая переменная;
- x — фактические значения факторного признака;
- y — фактические значения результативного признака;
- ŷ — расчетные (полученные по уравнению регрессии) значения результативного признака;
- a, b — параметры уравнения регрессии.
В контрольных заданиях используется уравнение парной линейной регрессии вида: ŷ = a + bx.
Рассмотрим методику выполнения на условиях конкретной задачи: American Express Company в течение долгого времени полагала, что владельцы ее кредитных карт предпочитают оплачивать свои расходы во время путешествий при помощи их карт. Для выяснения этого из компьютерной базы компании были случайно выбраны 25 владельцев карточек, которым были заданы вопросы о числе миль, которые они провели в путешествиях. Данные опроса о расходах путешественников и числе миль, проведенных ими в пути, составляют исходную информацию задачи.
[IMAGE_1]
| N п/п | Число миль, X | Расходы, Y | N п/п | Число миль, X | Расходы, Y |
|---|---|---|---|---|---|
| 1 | 1211 | 1802 | 14 | 3209 | 4492 |
| 2 | 1345 | 2405 | 15 | 3466 | 4244 |
| 3 | 1422 | 2005 | 16 | 3643 | 5298 |
| 4 | 1687 | 2511 | 17 | 3852 | 4801 |
| 5 | 1847 | 2332 | 18 | 4033 | 5147 |
| 6 | 2026 | 2305 | 19 | 4267 | 5738 |
| 7 | 2133 | 3016 | 20 | 4498 | 6420 |
| 8 | 2253 | 3385 | 21 | 4533 | 6059 |
| 9 | 2400 | 3090 | 22 | 4804 | 6426 |
| 10 | 2468 | 3694 | 23 | 5090 | 6321 |
| 11 | 2699 | 3371 | 24 | 5233 | 7025 |
| 12 | 2806 | 3998 | 25 | 5439 | 6964 |
| 13 | 3082 | 3555 | — | — | — |
Пункт 1. Построение поля корреляции
Построение поля корреляции результата и фактора производится по исходным данным о парах значений факторного и результативного признаков с соблюдением масштаба. На основе поля корреляции делаются выводы о направлении и возможной функциональной форме связи между факторным и результативным признаками (прямая — обратная, линейная — нелинейная).
[IMAGE_2]
Для условий рассматриваемой задачи поле корреляции выглядит следующим образом: Связь между факторным и результативным признаками прямая, линейная.
Пункт 2. Оценка параметров уравнения
Оценка параметров уравнения парной линейной регрессии производится обычным методом наименьших квадратов (МНК): ŷ = a + bx, где a и b – оценки параметров модели. Величины, минимизирующие суммы квадратов отклонений (y — ŷ)² для случая парной линейной регрессии, находятся как:
b = (nΣxy — ΣxΣy) / (nΣx² — (Σx)²)
a = (Σy — bΣx) / n
Значения ошибок, называемые обычно остатками, рассчитываются как e = y — ŷ. Проведите интерпретацию полученных результатов.
Расчет необходимых данных лучше всего организовать в таблице. Для нашего примера таблица будет выглядеть следующим образом:
[IMAGE_3]
| N/N | х | у | (x-xср) | (y-yср) | (x-xср)(y-yср) | (x-xср)² | ŷ | e |
|---|---|---|---|---|---|---|---|---|
| 1 | 1211 | 1802 | -1966,84 | -2454,16 | 4826940 | 3868460 | 1787,652 | 14,34756 |
| … | … | … | … | … | … | … | … | … |
Продолжение таблицы 1
[IMAGE_4]
| N/N | х | у | (x-xср) | (y-yср) | (x-xср)(y-yср) | (x-xср)² | ŷ | e |
|---|---|---|---|---|---|---|---|---|
| 14 | 3209 | 4492 | 31,16 | 235,84 | 7348,774 | 970,9456 | 4295,268 | 196,7322 |
| … | … | … | … | … | … | … | … | … |
| Сумма | 79446 | 106404 | — | — | 51398430 | 40952877 | 106404 | 0 |
| Средн. | 3177,84 | 4256,16 | — | — | — | — | — | — |
В соответствии с расчетами, представленными в таблице 1, a = 267,7715; b = 1,2551. Соответственно уравнение регрессии может быть записано как: ŷ = 267,7715 + 1,2551x.
Коэффициент регрессии линейной функции (b) есть абсолютный показатель силы связи, характеризующий среднее абсолютное изменение результата при изменении факторного признака на единицу своего измерения. Полученное уравнение может быть объяснено следующим образом: с увеличением расстояния на 1 милю расходы путешественника в среднем увеличиваются на 1,2551 условных денежных единиц. Свободный член уравнения равен 267,7715, что может трактоваться как влияние на величину расходов других, неучтенных в модели факторов.
Пункт 3. Линейный коэффициент корреляции
Линейный коэффициент корреляции характеризует тесноту линейной связи между изучаемыми признаками. Его можно определить по следующей формуле:
r = Σ((x-xср)(y-yср)) / sqrt(Σ(x-xср)² * Σ(y-yср)²)
Значения линейного коэффициента корреляции принадлежит промежутку [-1;1]. Чем ближе его абсолютное значение к 1, тем теснее связь между признаками. Положительная величина свидетельствует о прямой связи, отрицательная — об обратной.
Для нашей задачи r = 0,98329, что подтверждает вывод, сделанный в пункте 1, что связь между признаками прямая, а также указывает на очень сильную взаимосвязь между количеством миль, проведенных в пути и расходами.
Квадрат коэффициента (индекса) корреляции называется коэффициентом детерминации и показывает долю вариации результативного признака, объясненную вариацией факторного признака. Для нашей задачи коэффициент детерминации равен 0,9669, то есть 96,69% вариации результативного признака (расходов путешественников) объясняется вариацией факторного признака (количеством миль, проведенных в пути).
Пункт 4. Проверка статистических гипотез
Рекомендуется использовать следующую общую процедуру проверки гипотез:
- Сформулируйте нулевую гипотезу о том, что коэффициент регрессии статистически незначим: H0: b = 0 (линейной зависимости нет) при конкурирующей: H1: b ≠ 0 (линейная зависимость есть).
- Определите фактическое значение соответствующего критерия.
- Сравните полученное фактическое значение с табличным.
- Если фактическое значение используемого критерия превышает табличное, нулевая гипотеза отклоняется.
Статистическая значимость коэффициента регрессии проверяется с помощью t-критерия Стьюдента: t = b / S_b, где S_b — стандартная ошибка оценки. Для нашего примера t_набл = 25,8, а t_табл = 2,07, следовательно нулевая гипотеза отвергается в пользу альтернативной и коэффициент регрессии статистически значим.
Оценка статистической значимости построенной модели регрессии в целом производится с помощью F-критерия Фишера. Для нашего примера F = 671,137, а F_табл = 4,45. Так как F_набл > F_табл, построенная модель регрессии в целом значима.
Пункт 5. Прогнозирование
Для выполнения пункта 5 необходимо изучить вопрос об интервальном оценивании в регрессионном анализе. Для расчета точечного прогноза подставьте в уравнение регрессии заданное значение факторного признака x_прогн.
Так, например, если необходимо оценить расходы путешественника, преодолевшего 4500 миль: ŷ = 267,7715 + 1,2551 * 4500 = 5915,7215 условных денежных единиц.
Доверительный интервал для значений ŷ, лежащих на линии регрессии, имеет вид: ŷ ± t_табл * S_ŷ. Для нашего примера этот доверительный интервал будет выглядеть как 5247,8367 — 6582,9665, то есть с вероятностью 0,95 можно утверждать, что расходы одного путешественника, преодолевшего 4500 миль составят от 5247,8367 до 6582,9665 условных денежных единиц.
Задача 2. Множественная регрессия и корреляция
Задача 2 предполагает построение и анализ двухфакторного уравнения линейной регрессии вида: ŷ = a + b1x1 + b2x2.
Пример: Компания, производящая моющие средства, проанализировала эффективность рекламных расходов. Аналитик оценил параметры модели: ŷ = a + b1x1 + b2x2, где ŷ – объем продаж, x1 – расходы на теле/радио рекламу, x2 – расходы на демонстрацию в магазинах.
| Номера наблюдений | y | x1 | x2 |
|---|---|---|---|
| 1 | 72 | 12 | 5 |
| … | … | … | … |
| 10 | 90 | 18 | 5 |
Пункт 1. Анализ показателей тесноты связи
Необходимо рассмотреть дескриптивные статистики (средняя, стандартное отклонение, коэффициент вариации, асимметрия, эксцесс). По результатам анализа можно сделать вывод, что совокупность признаков однородна.
Парный коэффициент корреляции характеризует степень тесноты линейной связи между результативным и факторным признаками. Матрица парных коэффициентов (таблица 3) определяет тесноту парных зависимостей.
| — | y | x1 | x2 |
|---|---|---|---|
| y | 1,0000 | 0,9393 | 0,4167 |
| x1 | 0,9393 | 1,0000 | 0,4174 |
| x2 | 0,4167 | 0,4174 | 1,0000 |
Коэффициент корреляции между y и x1 свидетельствует о значительной связи. Связь между y и x2 не является статистически значимой.
Частные коэффициенты корреляции
Частные коэффициенты корреляции характеризуют тесноту связи между результативным и факторным признаками при фиксированном воздействии других факторов. Приведенные в таблице 4 линейные коэффициенты частной корреляции оценивают тесноту связи значений двух переменных, исключая влияние всех других переменных.
| — | y | x1 | x2 |
|---|---|---|---|
| y | 1,0000 | 0,9265 | 0,0790 |
| x1 | 0,9265 | 1,0000 | 0,0834 |
| x2 | 0,0790 | 0,0834 | 1,0000 |
Наиболее тесно связаны y и x1. При сравнении коэффициентов парной и частной корреляции видно, что из-за влияния межфакторной зависимости происходит некоторое завышение оценки тесноты связи.
Пункт 2. Расчет параметров уравнения
Результаты построения уравнения множественной регрессии представлены в таблице 5.
| Независимые переменные | Коэффициенты | Стандартные ошибки | t-статистики | Вероятность |
|---|---|---|---|---|
| Константа | 44,61 | 4,58 | 9,73 | 0,0001 |
| x1 | 2,35 | 0,36 | 6,51 | 0,0003 |
| x2 | 0,16 | 0,78 | 0,21 | 0,8399 |
Уравнение имеет вид: y = 44,61 + 2,35×1 + 0,16×2. Параметр x1 является статистически значимым, а x2 — нет.
Пункты 3-5. Эластичность, детерминация и дисперсионный анализ
Частные коэффициенты эластичности показывают, на сколько процентов от значения своей средней изменяется результат при изменении фактора xj на 1%. По значениям частных коэффициентов эластичности можно сделать вывод о более сильном влиянии на результат y рекламной компании по радио и телевидению.
Совокупный множественный коэффициент детерминации R² = 0,8829 указывает на весьма высокую степень обусловленности вариации результата вариацией факторов.
Дисперсионный анализ (таблица 6) подтверждает статистическую значимость всего уравнения, его параметров и показателя тесноты связи.
Задача 3. Анализ временных рядов
Имеются данные о расходах семьи на товар «А» в 1994-1999 гг. Коэффициент автокорреляции первого порядка равен 0,9896, что свидетельствует о тесной прямой связи между текущими и непосредственно предшествующими уровнями временного ряда.
Для определения вида тренда рассчитываются цепные абсолютные приросты, абсолютные ускорения и цепные коэффициенты роста. В данном случае для описания тренда выбрана линейная модель: ŷ = a + bt.
Трендовое линейное уравнение регрессии имеет вид: ŷ = 41,8333 + 4,7143t. Коэффициент b = 4,7143 означает, что расходы на товар «А» в среднем за год увеличиваются на 4,7143 руб.
Пункт 3. Прогноз по тренду
Точечная оценка расходов семьи на товар «А» на 2000 год (t=3,5) составляет 58,3333 руб. С вероятностью 0,95 можно ожидать, что в 2000 году расходы семьи на товар «А» будут находиться в пределах от 55,4089 до 61,2577 руб.
