Частная корреляция. Процедура пошагового отбора переменных


Московский Государственный Университет Приборостроения и Информатики

Курсовая работа по дисциплине: «Эконометрика»

Тема: «Частная корреляция. Процедура пошагового отбора переменных»

Выполнила: Студентка 3-го курса

Института управления и экономики

Плотникова А. С.

Проверил: Воловиков С. А.

Москва 2014

Введение

Установленная тесная зависимость между двумя исследуемыми величинами не является следствием их причинной взаимообусловленности. Из причинной связи величин следует стохастическая связь, из стохастической связи не всегда следует причинная. За счет эффектов одновременного влияния неучтенных факторов на исследуемые переменные может искажаться смысл истинной связи между переменными. Например, подсчеты приводят к положительному значению коэффициента корреляции между парой случайных величин, в то время как истинная связь между ними имеет отрицательный смысл. Классическим примером является корреляция между рождаемостью в небольших городах и количеством аистов в них (коэффициент Пирсона оказался близок к 0,8), хотя причинно-следственной связи очевидно нет. Такую корреляцию между двумя переменными часто называют ложной. Более детально подобные ситуации — обнаружение и исключение «общих причинных факторов», расчет «очищенных» или частных коэффициентов корреляции — исследуют методами многомерного корреляционного анализа.

Исключить влияние третьей переменной позволяет частный коэффициент корреляции. О нем и пойдет речь в данной работе.

Основные понятия корреляции

Итак, а что же такое корреляция. Понятие корреляции появилось в середине XIX века в работах английских статистиков Ф. Гальтона и К. Пирсона. Этот термин произошел от латинского «correlatio» — соотношение, взаимосвязь. А корреляция — это вероятностная или статистическая зависимость, не имеющая строго функционального характера. Корреляционные зависимости занимают промежуточное положение между функциональной зависимостью и полной независимостью переменных.

Между величинами, характеризующими экономические явления, в большинстве случаев существуют зависимости, отличные от функциональных. Действительно, в экономике закономерности не проявляются также точно и неизменно, как, например, в физике, химии или астрономии.

Пусть, например, мы рассматриваем зависимость величины Y от величины x — y(x). Невозможность выявления строгой связи между двумя переменными объясняется тем, что значение зависимой переменной Y определяется не только значением переменной x, но и другими (неконтролируемыми или неучтенными) факторами, а также тем, что измерение значений переменных неизбежно сопровождается некоторыми случайными ошибками.

Вследствие этого корреляционный анализ широко используется при установлении взаимосвязи экономических показателей. Корреляция рассчитывается по формуле (1):

(1)

x — математическое ожидание х, у — математическое ожидание y. (Математическое ожидание — среднее значение случай величины.)

cov (x, y) — ковариация переменных (ковариация определяет меру взаимодействия двух случайных переменных)

уx — стандартное отклонение x; уy — стандартное отклонение y.

Итак, если с увеличением x значение зависимой переменной Y в среднем увеличивается, то такая зависимость называется прямой или положительной. Если среднее значение Y при увеличении x уменьшается, имеет место отрицательная или обратная корреляция. Если с изменением x значения Y в среднем не изменяются, то говорят, что корреляция — нулевая.

Частная корреляция

Частная корреляция — анализ взаимосвязи между двумя величинами при фиксированных значениях остальных величин. В том случае, когда имеются одна независимая и одна зависимая переменные, естественной мерой зависимости (в рамках линейного подхода) является (выборочный) коэффициент корреляции между ними. Использование множественной регрессии позволяет обобщить это понятие на случай, когда имеется несколько независимых переменных. Корректировка здесь необходима по следующим очевидным соображениям. Высокое значение коэффициента корреляции между исследуемой зависимой и какой-либо независимой переменной может, как и раньше, означать высокую степень зависимости, но может быть обусловлено и другой причиной. А именно, есть третья переменная, которая оказывает сильное влияние на две первые, что и служит, в конечном счете причиной их высокой коррелированности. Поэтому возникает естественная задача найти «чистую» корреляцию между двумя переменными, исключив (линейное) влияние других факторов. Это можно сделать с помощью коэффициента частной корреляции. Для простоты предположим, что имеется регрессионная модель:

у=а+х1b1+x2b2+?,

где, как обычно, у — (n x 1) вектор наблюдений зависимой переменной; х1, х2 — (n x 1) векторы независимых переменных; a, b1, b2 — скалярные параметры, ? — (n x 1) вектор ошибок.

Наша цель — определить корреляцию между у и, например, первым регрессором х1 после исключения влияния х2.

Соответствующая процедура устроена следующим образом:

Осуществим регрессию у на х2 и константу и получим прогнозные значения y=1+2х2.

Осуществим регрессию х1 на х2 и константу и получим прогнозные значений 1=1+2х2.

Удалим влияние х2, взяв остатки еу = у — и ех1 = х1-1

Определим выборочный коэффициент частной корреляции между у и х1 при исключении влияния х2 как выборочный коэффициент корреляции между еу и ех1: r(y, x1/x2)=r(ey, ex1).

Напомним, что из свойств метода наименьших квадратов следует, что еу и ех1 не коррелированны с х2. Именно в этом смысле указанная процедура соответствует интуитивному представлению об «исключении линейного влияния переменной х2».

Прямыми вычислениями можно показать, что справедлива следующая формула, связывающая коэффициенты частной и обычной корреляции:

Значение r(y, x1/x2) лежат в интервале [-1,1], как у обычного коэффициента корреляции. Равенство коэффициента r(y, x1/x2) нулю означает, говоря неострого, отсутствием прямого (нелинейного) влияния переменной х1 на у.

Существует тесная связь между коэффициентом частной корреляции r(y, x1/x2) и коэффициентом детерминации R2, а именно:

или

.

Описанная выше процедура очевидным образом обобщается на случай, когда исключается влияние не одной, а нескольких переменных: достаточно переменную х2 заменить на набор переменных Х2, сохраняя определение. Формула r(y, x1/x2) в этом случае, естественно, усложнится.

Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается. Например, r(y, x1/x2) коэффициент частной корреляции первого порядка. Коэффициенты частной более высоких порядков можно определить через коэффициенты частной корреляции более низких порядков по рекуррентной формуле:

.

В эконометрике частные коэффициенты корреляции обычно не имеют самостоятельного значения. В основном их используют на стадии формирования многофакторной модели, в частности в процедуре присоединения-удаления факторов.

Пример частной корреляции

Проиллюстрируем приведенное выше понятие частных коэффициентов корреляции и их отличие от обычных коэффициентов корреляции на следующем примере

Пример. Рынки валютных фьючерсов. Рассмотрим вопрос о связи российского и западного рынков валютных фьючерсов.

В настоящее время несколько российских бирж ведут торговлю срочными контрактами на поставку доллара США: МТБ, МЦФБ, РТСБ и др. Однако в течение периода наблюдений (ноябрь 1992г. — сентябрь 1995г.) на МТБ приходилось от 75 до 85% общего объема торговли. Поэтому в качестве цен фьючерсных контрактов на поставку доллара США мы выбрали котировки контрактов на МТБ.

Динамика цен валютных фьючерсов на Западе не сильно зависит от биржи. Для анализа мы взяли биржу с наибольшим объемом торговли — IMM (International Monetary Marcet, Chicago).

Мы используем ежедневные данные — цена закрытия для IMM и котировочная цена для МТБ — показатели, которые используют торговые палаты этих бирж для ежедневного перерасчета позиций инвесторов (вариационной маржи).

В качестве параметров для сравнения мы взяли не сами цены контрактов, а «доходности», приведенные к годичному базису, определяемые как

yt, T=(lnFTt — lnSt)/(T-t)*365,

где FTt — цена контракта в момент времени t на поставку 1 доллара в момент времени T (т. е. со сроком до поставки T-t);

St — спот-курс доллара в момент t. (Для рубля — данные ММВБ, для немецкой марки DM, британского фунта BP, японской йены JY — данные IMM.) yt, T(RU), yt, T(DM), yt, T(BP), yt, T(JY) обозначают доходности (*) контрактов на поставку доллара в рублях, DM, BP, JY.

На наш взгляд, это показатель в меньшей мере зависит от темпа инфляции, чем сама цена контракта. Время t измеряется в днях.

Рассмотрим таблицу коэффициентов корреляции доходностей yt, T(RU), yt, T(DM), yt, T(BP), yt, T(JY):

Таблица 1

RU

DM

BP

YU

RU

1

DM

0,626

1

BP

0,380

0,775

1

JY

0,615

0,919

0,602

1

Из таблицы 1 видны высокие (0.602, 0.775, 0.919) значения коэффициентов корреляции показателей для западных валют, что неудивительно ввиду высокой степени интегрированности западных финансовых рынков. Удивление вызывают высокие 0.615 (0.626) значений коэффициентов корреляции показателей для рубля и японской йены (немецкой марки).

Рассмотрим теперь таблицу коэффициентов частной корреляции между доходностями yt, T (XX) для ХХ = RU, DM, BP, JY (устранено влияние временного тренда t).

Таблица 2

RU

DM

BP

JY

RU

1

DM

0,024

1

BP

0,008

0,807

1

JY

-0,003

0,488

0,276

1

Теперь мы видим картину более реалистичную. Наиболее тесно связаны между собой европейские валюты (BP, DM), слабее связь европейских валют и японской йены и практически отсутствует связь российской валюты с западными.

Таким образом, высокие коэффициенты корреляции в первой таблице, например 0б626 для RU-DM, были лишь следствием того, что на интервале наблюдений (ноябрь 1992г. — сентябрь 1995г.) отмечалось падение курса рубля по отношению к немецкой марке, т. е. эта корреляция является следствием наличия временного тренда в yt, T (RU) и yt, T (DM).

Наш вывод подтверждается так же тем, что коэффициенты корреляция yt, T (RU) и yt, T (DM) c t достаточно высоки (-0,673; -0,920).

Процедура пошагового отбора переменных

частная корреляция пошаговый отбор

Коэффициент частной корреляции часто используется при решении проблемы спецификации модели. остановимся на этом аспекте более подробно.

Иногда исследователь заранее знает характер зависимости исследуемых величин, опираясь, например, на экономическую теорию, предыдущие результаты, априорные знания и т. п., и задача состоит лишь в оценивании неизвестных параметров. Классический пример — оценивание параметров производственной функции Кобба-Дугласа Y=AK^бL^в, где Y — совокупный выпуск, K — капиталовложения и L — трудозатраты. Логарифмируя это равенство, получаем линейное относительно lnA, б, в уравнение, из которого, например, с помощью метода наименьших квадратов можно получить оценки этих параметров, проверять те или иные гипотезы и т. д.

Однако на практике довольно часто приходится сталкиваться с ситуацией, когда имеется большое число наблюдений различных параметров (независимых переменных), но нет априорной модели изучаемого явления. Возникает естественная проблема, какие переменные включить в регрессионную схему.

В компьютерные пакеты включены различные эвистические процедуры пошагового отбора регрессоров. Основными пошаговыми процедурами являются процедура последовательного присоединения, процедура присоединения-удаления и процедура последовательного удаления. Опишем кратко одну из таких процедур, использующую понятие коэффициента частной корреляции.

Процедура присоединения-удаления.

На первом шаге из исходного набора объясняющих переменных выбирается включается в число регрессоров) переменная, имеющая наибольший по модулю коэффициент корреляции с зависимой переменной y.

Второй шаг состоит из двух подшагов. На первом из них, который выполняется, если число регрессоров уде больше двух, делается попытка исключить один из регрессоров. Ищется тот регрессор xs, удаление которого приводит к наименьшему уменьшению коэффициента детерминации. Затем сравнивается значение F-статистики для роверки гипотезы Н0 о незначимости это регрессора с некоторым заранее заданным пороговым значением Fискл. Если F<Fискл, то хs удаляется из списка регрессоров. Заметим, что гипотеза Н0 о равенстве коэффициента при хs нулю эквивалентна гипотезе о равенстве коэффициентов детерминации до и после удалении регрессора, а так же гипотезе о том, что коэффициент частной корреляции хs и y равен 0. Второй подшаг состоит в попытке включения нового регрессора из исходного набора предсказывающих переменных. Ищем переменную хs с наибольшим по модулю частным коэффициентом корреляции (исключается влияние ранее включенных в уравнении регрессоров) и сравниваем значение F-статистики для проверки гипотезы Н0 о незначимости этого регрессора с некоторым заранее заданным пороговым значением Fвкл. Если F>Fвкл, то хр включается в список регрессоров. Обычно выбирают Fискл<Fвкл. Второй шаг повторяется до тех пор, пока происходит изменение списка регрессоров. Конечно, ни одна из пошаговых процедур не гарантирует получение оптимального по какому-либо критерию набора регрессоров.

Заключение

Именно понятия корреляции и частных корреляций лежат в основе статистических выводов, направленных на анализ зависимостей и взаимозависимостей, что является решающим для применения статистических методов на практике. Действительно, сила статистических методов состоит в том, что они позволяют исследовать зависимость факторов.

Ранжирование факторов в множественной линейной регрессии, может быть проведено через стандартизированные коэффициенты регрессии. Эту цель можно достигнуть с помощью частных коэффициентов корреляции для линейных связей. При нелинейной связи исследуемых признаков эту функцию выполняют частные индексы детерминации. помимо этого, частные коэффициенты корреляции широко используют при решении проблемы отбора факторов: целесообразность включения фактора в модель может определяться величиной частных коэффициентов корреляции.

Частные коэффициенты корреляции характеризуют тесноту связи между результатом и фактором при устранении влияния другого фактора (или факторов), которые включены в уравнение регрессии.

Частные коэффициенты на основе стандартизированных коэффициентов регрессии (бета-коэффициентов) дают меру тесноты связи каждого фактора с показателем (результатом) в чистом виде.

Список использованной литературы

1. Магнус Я. Р., Катышев П. К., Лересецкий А. Л. Эконометрика. Начальный курс: Учеб. — 6-е изд, перераб. 2004г.

2. Айвазян С. А. и др. Прикладная статистика: Исследование зависимостей: Справ. изд. / С. А. Айвазян, И. С. Енюков, Л. Д. Мешалкин; Под ред. С. А. Айвазяна. — М.: Финансы и статистика, 2005. — 487 с.

3. А. И. Орлов. Эконометрика. Учебник. М.: Издательство «Экзамен», 2007

4. Практикум по эконометрике: Учеб. пособие / И. И. Елисеева, С. В. Курышева, Н. М. Гордиенко и др. — М.: Финансы и статистика, 2001.

5. Практикум по эконометрике: Учеб. пособие / И. И. Елисеева, С. В. Курышева, Н. М. Гордиенко и др. — М.: Финансы и статистика, 2001.

6. Тихомиров Н. П., Дорохина Е. Ю. Эконометрика, 2003.

Если вы думаете скопировать часть этой работы в свою, то имейте ввиду, что этим вы только снизите уникальность своей работы! Если вы хотите получить уникальную курсовую работу, то вам нужно либо написать её своими словами, либо заказать её написание опытному автору:
УЗНАТЬ СТОИМОСТЬ ИЛИ ЗАКАЗАТЬ »