АЛТЫНОРДА
Новости Казахстана

Реферат. Различные аспекты многомерной регрессии

Министерство Образований и Науки Республики Казахстан

Евразийский Институт Рынка

 

 

 

 

 

 

Реферат

На тему: «Различные аспекты многомерной регрессии»

 

 

 

 

 

 

                                                         Выполнил (а): студентка 2 курса

                                                                         Нуришева Г.Т.

                                                 Проверил (а): Рысбаева А.К.

 

 

 

 

 

Алматы-2006

 

Введение

В данном реферате рассматриваются некоторые проблемы многомерных регрессионных моделей, часто возникающие при их практическом использовании.

         На практике исследователю нередко приходится сталкиваться с ситуацией, когда полученная им регрессия является «плохой», т.е. t-статистики большинства оценок малы, что свидетельствует о незначимости соответствующих независимых переменных (регрессоров. В то же время F-статистика может быть достаточно большой, что говорит о значимости регрессии в целом. Одна из возможных причин такого явления носит названия мультиколлинеарности и возникает при наличии высокой корреляции между регрессорами. Проблеме  мультиколлинеарности посвящено начало этого реферата.

         Регрессионные модели являются достаточно гибким инструментом, позволяющим, в частности, оценивать влияние качественных признаков на изучаемую переменную. Это достигается введением в число регрессоров так называемых фиктивных переменных, принимающих, как правило, значения 1 и 0 в зависимости от наличия или отсутствия соответствующего признака в очередном наблюдении. С формальной точки зрения фиктивные переменные ничем не отличаются от других регрессоров. Наиболее сложный и интересный вопрос, возникающий при их использовании,-это правильная интерпретация получаемых оценок.

         В этом реферате мы также рассмотрим задачу нахождения частной корреляции модели.

 

 

 

 

 

 

  1. Мультиколлинеарность

         Одним из условий классической регрессионной модели является предположение о линейной независимости объясняющих переменных, что означает линейную независимость столбцов матрицы регрессоров Х или (эквивалентно), что матрица (Х’Х)-1 имеет полный ранг к. При нарушении этого условия, т.е. когда один из столбцов матрицы Х есть линейная комбинация остальных столбцов, говорят, что имеет место полная коллинеарность. В этой ситуации нельзя построить МНК-оценку параметра b, что формально следует  из сингулярности матрицы Х’Х и невозможности решить нормальное уравнение. Нетрудно также понять и содержательный смысл этого явления.  Рассмотрим следующий простой пример регрессии (Green 1993): С=b1+b2S+b3N+b4T+e, где С — потребление, S – зарплата,  N – доход, получаемый вне работы, T – полный доход. Поскольку выполнено равенство  T=S+N, то для произвольного числа h исходную регрессию можно переписать в следующем виде: С=b1+b2 S+b3 N+b4 T+e, где  b2’=b2+hb3 ‘=b3+h, b4’=b4h. Таким образом, одни и те же наблюдения могут быть объяснены различными наборами коэффициентов b. Эта ситуация тесно связана с проблемой идентифицируемости системы, о чем более подробно будет говориться позднее. Кроме того, если с учетом равенства T=S+N переписать исходную систему в виде. 

С=b1+(b+b4)S+(b3 +b4)N+e, то становится ясно, что оценить можно лишь три параметра b1, (b+b4) и (b3 +b4), а не четыре  исходных. В общем случае можно показать, что если rank (Х’Х)=l<k, то оценить можно только l линейных комбинаций исходных коэффициентов. Если есть полная коллинеарность, то можно выделить в матрице Х максимальную линейно независимую систему столбцов и, удалив остальные столбцы, провести новую регрессию.

         На практике полная коллинеарность встречается исключительно редко. Гораздо чаще приходится сталкиваться с ситуацией, когда матрица Х имеет полный ранг, но между регрессорами имеется высокая степень корреляции, т.е. когда матрица Х’Х, говоря нестрого, близка к вырожденной. Тогда говорят о наличии мультиколлинеарности. В этом случае МНК-оценка формально существует, но обладает «плохими» свойствами. Это нетрудно объяснить, используя геометрическую интерпретацию метода наименьших квадратов. Как уже отмечалось Rn  вектора Y на векторы, образованные столбцами матрицы Х. Если между этими векторами существует приблизительная линейная зависимость, то операция проектирования становится неустойчивой: небольшому изменению в исходных данных может привести к существенному изменению оценок. Рисунок 1.1 наглядно это демонстрирует. Векторы  Y и Y’ мало отличаются друг от друга, но в силу того, что угол между регрессорами Х1  и Х2  отличаются значительно. У проекции вектора Y оба коэффициента разложения по Х1 и Х2  положительны и относительно невелики. У проекции вектора Y’ коэффициент при Х1  принимает большое отрицательное значение. В сил этого обстоятельства интерпретация коэффициентов регрессии становится весьма проблематичной.

 

 

 

                                          Y’                          Y

 

                                                                                     Х2

 

 

                                                                                            Х1

 

 

 

 

Рис 1.1

 

Мультиколлинеарность может возникать в силу разных причин. Например, несколько независимых переменных могут иметь общий временной тренд, относительно которого они совершают малые колебания. В частности, так может случиться, когда значения одной независимой переменной являются лагированными значениями другой.

Выделим некоторые наиболее характерные признаки мультиколлинеарности.

  1. Небольшое изменение исходных данных приводит к существенному изменению оценок коэффициентов модели.
  2. Оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой.
  3. Оценки коэффициентов имеют неправильные с точки зрения теории знаки или неоправданно большие значения.

 

  1. Фиктивные переменные

         Как правило, независимые переменные в регрессионных моделях имеют «непрерывные» области изменения. Однако теория не накладывает никаких ограничений на характер регрессоров, в частности, некоторые переменные могут принимать всего два значения или, в более общей ситуации, дискретное множество значений. Необходимость рассматривать такие переменные возникает довольно часто в тех случаях, когда требуется принимать во внимание какой-либо качественный признак. Например, при исследовании зависимости зарплаты от различных факторов может возникнуть вопрос, влияет ли на ее размер и, если да, то в какой степени, наличие у работника высшего образования. Также можно задать вопрос, существует ли дискриминация в оплате труда между мужчинами и женщинами. В принципе можно оценивать соответствующие уравнения внутри каждой категории, а затем изучать различия между ними, но введение дискретных переменных позволяет оценивать одно уравнение сразу по всем категориям.

         Покажем, как это можно сделать в примере с зарплатой. Пусть  X=(X1 ,…,Xk)’ – набор объясняющих (независимых) переменных, т.е. первоначальная модель описывается уравнениями

         Yt =Xt1 b1 +…+Xtk bk +et =Xt’b+et, t=1,…,n.        (2.1)

Где Yt – размер зарплаты t-го работника. Теперь мы хотим включить в рассмотрение такой фактор, как наличие или отсутствие высшего образования. Введем новую, бинарную, переменную d , полагая dt=1, если в  t-м наблюдении индивидуум имеет высшее образование, и dt=0 в противном случае, и рассмотрим новую систему

         Yt =Xt1 b1 +…+Xtk bk +dt d+et =Zt’g+et, t=1,…,n,           (2.2)

  Где Z= (X1,…,Xk, d)’=(X’,d)’, g=(b1,…,bk,d)’. Иными словами, принимая модель (2.2), мы считаем, что средняя зарплата есть Х’b  при отсутствии высшего образования и  Х’b +d  — при его наличии. Таким образом, величина  d интерпретуется  как среднее изменение зарплаты при переходе из одной категории в другую при неизменных значениях остальных параметров. К системе (2.2) можно применить метод наименьших квадратов и получить оценки соответствующих коэффициентов. Легко понять, что, тестируя гипотезу  d=0, мы проверяем предположение о несущественном различии в зарплате между категориями.

         Фиктивные переменные позволяют строить и оценивать так называемые кусочно-линейные модели, которые можно применять для исследования структурных изменений. Как и раньше, проще всего это продемонстрировать на примере.

         Пусть Y – зависимая переменная и пусть для простоты есть только две независимый переменные: Х и постоянный член. Предположим, что Х и Y представлены в виде временных рядов  {(Xt, Yt ), t=1,…,n}. Из некоторых априорных соображений исследователь считает, что в момент t0 произошла структурная перестройка и линия регрессии будет отличаться от той, что была до момента t0 , но общая линия остается непрерывной (рис 2.2).

Y

 
   

 

 

 

 

                                                                                                                        Рис 2.2

 

 
   

 

 

 

 

 

                                                        Хt0                                       X

                Чтобы оценить такую модель, введем бинарную переменную R, полагая Rt =0, если t £ t0  и   Rt =1, t > t0 , и запишем следующее регрессионное уравнение:

         Yt = b1 + b2 Xt +b3 (Xt-Xt0) Rt +et.

Нетрудно проверить, что регрессионная линия, соответствующая, имеет коэффициент наклона b2  для t £ t0  и b2+b3 для t > t0, и разрыва в точке Xt  не происходит. Таким образом, тестируя гипотезу b3=0, мы проверяем предположение о том, что фактически структурного изменения не произошло.

         Этот подход легко обобщается на случай нескольких структурных изменений в пределах одного временного интервала. Мы предлагаем читателю сделать это самостоятельно.

         В заключение  этого раздела отметим, что с помощью фиктивных переменных можно исследовать влияние разных качественных признаков, а также их взаимное влияние. Следует только быть внимательным, чтобы при включении нескольких бинарных переменных не нарушить линейную независимость регрессоров.

 

 

 

 

 

Қазақстан Республикасының Білім және Ғылым Министрлігі

Еуразия Нарық Институты

 

«Қаржы және банктік менеджмент» кафедрасы

 

 

 

 

 

 

 

 

Курстық жұмыс

 

Тақырыбы: “Мемлекеттік несие және мемлекеттік борыш”

 

 

 

 

 

 

 

 

 

                                                         Орындаған: Нуришева Г.Т.

                                                    Тексерген: Тусаева А.К.

 

 

 

 

 

 

 

 

 

 

 

 

                                    Алматы-2006