Модель множественной регрессии. Спецификация модели множественной регрессии

1. Основные определения и формулы

Множественная регрессия - регрессия между переменными и т.е. модель вида:

где - зависимая переменная (результативный признак);

- независимые объясняющие переменные;

Возмущение или стохастическая переменная, включающая влияние неучтенных в модели факторов;

Число параметров при переменных

Основная цель множественной регрессии - построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

Уравнение множественной линейной регрессии в случае независимых переменных имеет вид а в случае двух независимых переменных - (двухфакторное уравнение).

Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов . Строится система нормальных уравнений:

Решение этой системы позволяет получить оценки параметров регрессии с помощью метода определителей

где - определитель системы;

- частные определители, которые получаются путем замены соответствующего столбца матрицы определителя системы данными правой части системы.

Для двухфакторного уравнения коэффициенты множественной линейной регрессии можно вычислить по формулам:

Частные уравнения регрессии характеризуют изолированное влияние фактора на результат, ибо другие факторы закреплены на неизменном уровне. Эффекты влияния других факторов присоединены в них к свободному члену уравнения множественной регрессии. Это позволяет на основе частных уравнений регрессии определять частные коэффициенты эластичности :

Средние коэффициентами эластичности показывают на сколько процентов в среднем изменится результат при изменении соответствующего фактора на 1%:

Их можно сравнивать друг с другом и соответственно ранжировать факторы по силе их воздействия на результат.

Тесноту совместного влияния факторов на результат оценивает коэффиц и ент (индекс) множественной корреляции :

Величина индекса множественной корреляции лежит в пределах от 0 до 1 и должна быть больше или равна максимальному парному индексу корреляции:

Чем ближе значение индекса множественной корреляции к 1, тем теснее связь результативного признака со всем набором исследуемых факторов.

Сравнивая индексы множественной и парной корреляции, можно сделать вывод о целесообразности (величина индекса множественной корреляции существенно отличается от индекса парной корреляции) включения в уравнение регрессии того или иного фактора.

При линейной зависимости совокупный коэффициент множественной ко р реляции определяется через матрицу парных коэффициентов корреляции:

где - определитель матрицы парных коэффициентов корреляции;

- определитель матрицы межфакторной корреляции.

Частны е коэффициент ы корреляции характеризуют тесноту линейной зависимости между результатом и соответствующим фактором при устранении влияния других факторов. Если вычисляется, например, (частный коэффициент корреляции между и при фиксированном влиянии ), это означает, что определяется количественная мера линейной зависимости между и которая будет иметь место, если устранить влияние на эти признаки фактора

Частные коэффициенты корреляции, измеряющие влияние на фактора при неизменном уровне других факторов, можно определить как:

или по рекуррентной формуле:

Для двухфакторного уравнения:

или

Частные коэффициенты корреляции изменяются в пределах от -1 до +1.

Сравнение значений парного и частного коэффициентов корреляции показывает направление воздействия фиксируемого фактора. Если частный коэффициент корреляции получится меньше, чем соответствующий парныйкоэффициент значит взаимосвязь признаков и в некоторой степени обусловлена воздействием на них фиксируемой переменной И наоборот, большее значение частного коэффициента по сравнению с парным свидетельствует о том, что фиксируемая переменная ослабляет своим воздействием связь и

Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается. Например, - коэффициент частной корреляции первого порядка.

Зная частные коэффициенты корреляции (последовательно первого, второго и более высокого порядка), можно определить совокупный коэффициент мн о жественной корреляции :

Качество построенной модели в целом оценивает коэффициент (индекс) множественной детерминации , который рассчитывается как квадрат индекса множественной корреляции: Индекс множественной детерминации фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии факторов. Влияние других, не учтенных в модели факторов, оценивается как

Если число параметров при близко к объему наблюдений, то коэффициент множественной корреляции приблизится к единице даже при слабой связи факторов с результатом. Для того чтобы не допустить возможногопреувеличения тесноты связи, используется скорректированный индекс множественной корреляции , который содержит поправку на число степеней свободы:

Чем больше величина тем сильнее различия и

Значимость частных коэффициентов корреляции проверяется аналогично случаю парных коэффициентов корреляции. Единственным отличием является число степеней свободы, которое следует брать равным =--2.

Значимость уравнения множественной регрессии в целом , так же как и в парной регрессии, оценивается с помощью - критерия Фишера :

Мерой для оценки включения фактора в модель служит частный -критерий . В общем виде для фактора частный -критерий определяется как

Для двухфакторного уравнения частные -критерии имеют вид:

Если фактическое значение превышает табличное, то дополнительное включение фактора в модель статистически оправданно и коэффициент чистой регрессии при факторе статистически значим. Если же фактическое значение меньше табличного, то фактор нецелесообразно включать в модель, а коэффициент регрессии при данном факторе в этом случае статистически незначим.

Для оценки значимости коэффициентов чистой регрессии по -критерию Стьюдента используется формула:

где - коэффициент чистой регрессии при факторе

- средняя квадратическая (стандартная) ошибка коэффициента регрессии которая может быть определена по формуле:

При дополнительном включении в регрессию нового фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если это не так, то включаемый в анализ новый фактор не улучшает модель и практически является лишним фактором. Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по -критерию Стьюдента.

При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

Для оценки мультиколлинеарности факторов может использоваться опред е литель матрицы между факторами . Чем ближе к 0 определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к 1 определитель, тем меньше мультиколлинеарность факторов.

Для применения МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это означает, что для каждого значения фактора остатки имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность . При нарушении гомоскедастичности выполняются неравенства

Наличие гетероскедастичности можно наглядно видеть из поля корреляции (рис. 9.22).

Рис. 9.22 . Примеры гетероскедастичности:

а) дисперсия остатков растет по мере увеличения

б) дисперсия остатков достигает максимальной величины при средних значениях переменной и уменьшается при минимальных и максимальных значениях

в) максимальная дисперсия остатков при малых значениях и дисперсия остатков однородна по мере увеличения значений

Для проверки выборки на гетероскедастичность можно использовать метод Гольдфельда-Квандта (при малом объеме выборки) или критерий Бартлетта (при большом объеме выборки).

Последовательность применения теста Гольдфельда-Квандта :

1) Упорядочить данные по убыванию той независимой переменной, относительно которой есть подозрение на гетероскедастичность.

2) Исключить из рассмотрения центральных наблюдений. При этом где - число оцениваемых параметров. Из экспериментальных расчетов для случая однофакторного уравнения регрессии рекомендовано при =30 принимать =8, а при =60 соответственно =16.

3) Разделить совокупность из наблюдений на две группы (соответственно с малыми и большими значениями фактора ) и определить по каждой из групп уравнение регрессии.

4) Вычислить остаточную сумму квадратов для первой и второй групп и найти их отношение где При выполнении нулевой гипотезы о гомоскедастичности отношение будет удовлетворять -критерию Фишера со степенями свободы для каждой остаточной суммы квадратов. Чем больше величина превышает тем более нарушена предпосылка о равенстве дисперсий остаточных величин.

Если необходимо включить в модель факторы, имеющие два или более качественных уровней (пол, профессия, образование, климатические условия, принадлежность к определенному региону и т.д.), то им должны быть присвоены цифровые метки, т.е. качественные переменные преобразованы в количественные. Такого вида сконструированные переменные называют фиктивными (и с кусственными) переменными .

К оэффициент регрессии при фиктивной переменной интерпретируется как среднее изменение зависимой переменной при переходе от одной категории к другой при неизменных значениях остальных параметров. Значимость влияния фиктивной переменной проверяется с помощью -критерия Стьюдента.

2. Решение типовых задач

Пример 9. 2. По 15 предприятиям отрасли (табл. 9.4) изучается зависимость затрат на выпуск продукции (тыс. ден. ед.) от объема произведенной продукции (тыс. ед.) и расходов на сырье (тыс. ден. ед). Необходимо:

1) Построить уравнение множественной линейной регрессии.

2) Вычислить и интерпретировать:

Средние коэффициенты эластичности;

Парные коэффициенты корреляции, оценить их значимость на уровне 0,05;

Частные коэффициенты корреляции;

Коэффициент множественной корреляции, множественный коэффициент детерминации, скорректированный коэффициент детерминации.

3) Оценить надежность построенного уравнения регрессии и целесообразность включения фактора после фактора и после

Таблица 9.4

	x 1	x 2

Решение:

1) В Excel составим вспомогательную таблицу рис. 9.23.

Рис. 9.23 . Расчетная таблица многофакторной регрессии.

С помощью встроенных функций вычислим: =345,5; =13838,89; =8515,78; =219,315; =9,37; =6558,08.

Затем найдем коэффициенты множественной линейной регрессии и оформим вывод результатов как на рис. 9.24.

Рис. 9.24 . Решение задачи в MS Excel

Для вычисления значения коэффициента используем формулы

Формулы для вычисления параметров заносим в ячейки Е 20 , Е 2 1, Е 2 2. Так длявычисления параметра b 1 в Е 20 поместим формулу =(B20*B24-B21*B22)/(B23*B24-B22^2) и получим 29,83. Аналогично получаем значения =0,301 и Коэффициент =-31,25 (рис. 9.25.).

Рис. 9.25 . Вычисление параметров уравнения множественной регрессии (в с т роке формул формула для расчета b 2) .

Уравнение множественной линейной регрессии примет вид:

31,25+29,83+0,301

Таким образом, при увеличении объема произведенной продукции на 1 тыс. ед. затраты на выпуск этой продукции в среднем увеличатся на 29,83 тыс. ден. ед., а при увеличении расходов на сырье на 1 тыс. ден. ед. затраты увеличатся в среднем на 0,301 тыс. ден. ед.

2) Для вычисления средних коэффициентов эластичности воспользуемся формулой: Вычисляем: =0,884 и =0,184. Т.е. увеличение только объема произведенной продукции (от своего среднего значения) или только расходов на сырье на 1% увеличивает в среднем затраты на выпуск продукции на 0,884% или 0,184% соответственно. Таким образом, фактор оказывает большее влияние на результат, чем фактор

Для вычисления парных коэффициентов корреляции воспользуемся функцией «КОРРЕЛ» рис. 9.26.

Рис. 9.26 . Вычисление парных коэффициентов корреляции

Значения парных коэффициентов корреляции указывают на весьма тесную связь с и на тесную связь с В то же время межфакторная связь очень сильная (=0,88>0,7), что говорит о том, что один из факторов является неинформативным, т.е. в модель необходимо включать или или

З начимост ь парных коэффициентов корреляции оценим с помощью -критерия Стьюдента. =2,1604 определяем с помощью встроенной статистической функции СТЬЮДРАСПОБР взяв =0,05 и =-2=13.

Фактическое значение -критерия Стьюдента для каждого парного коэффициента определим по формулам: . Результат расчета представлен на рис. 9.27.

Рис. 9.27 . Результат расчета фактических значений -критерия Стьюдента

Получим =12,278; =7,1896; =6,845.

Так как фактические значения -статистики превосходят табличные, то парные коэффициенты корреляции не случайно отличаются от нуля, а статистически значимы.

Получим =0,81; =0,34; =0,21. Таким образом, фактор оказывает более сильное влияние на результат, чем

При сравнении значений коэффициентов парной и частной корреляции приходим к выводу, что из-за сильной межфакторной связи коэффициенты парной и частной корреляции отличаются довольно значительно.

Коэффициент множественной корреляции

Следовательно, зависимость от и характеризуется как очень тесная, в которой =93% вариации затрат на выпуск продукции определяются вариацией учтенных в модели факторов: объема произведенной продукции и расходов на сырье. Прочие факторы, не включенные в модель, составляют соответственно 7% от общей вариации

Скорректированный коэффициент множественной детерминации =0,9182 указывает на тесную связь между результатом и признаками.

Рис. 9.28 . Результаты расчета частных коэффициентов корреляции и коэфф и циента множественной корреляции

3) Оценим надежность уравнения регрессии в целом с помощью -критерия Фишера. Вычислим . =3,8853 определяем взяв =0,05, =2, =15-2-1=12 помощью встроенной статистической функции FРАСПОБР с такими же параметрами.

Так как фактическое значение больше табличного, то с вероятностью 95% делаем заключение о статистической значимости уравнения множественной линейной регрессии в целом.

Оценим целесообразность включения фактора после фактора и после с помощью частного -критерия Фишера по формулам

; .

Для этого в ячейку B32 заносим формулу для расчета F x 1 «=(B28- H24^2)*(15-3)/(1-B28) », а в ячейку B 33 формулу для расчета F x 2 «=(B28-H23^2)*(15-3)/(1-B28) », результат вычисления F x 1 = 22,4127, F x 2 = 1,5958. Табличное значение критерия Фишера определим с помощью встроенной функции FРАСПОБР с параметрами =0,05, =1, =12 «=FРАСПОБР(0,05; 1 ;12) », результат - =4,747. Так как =22,4127>=4,747, а =1,5958<=4,747, то включение фактора в модель статистически оправдано и коэффициент чистой регрессии статистически значим, а дополнительное включение фактора после того, как уже введен фактор нецелесообразно (рис. 9.29).

Рис. 9.29 . Результаты расчета критерия Фишера

Низкое значение (немногим больше 1) свидетельствует о статистической незначимости прироста за счет включения в модель фактора после фактора Это означает, что парная регрессионная модель зависимости затрат на выпуск продукции от объема произведенной продукции является достаточно статистически значимой, надежной и что нет необходимости улучшать ее, включая дополнительный фактор (расходы на сырье).

3. Дополнительные сведения для решения задач с помощью MS Excel

Сводные данные основных характеристик для одного или нескольких массивов данных можно получить с помощью инструмента анализа данных Опис а тельная статистика . Порядок действий следующий:

1. Необходимо проверить доступ к Пакету анализа . Для этого в ленте выбираем вкладку «Данные», в ней раздел «Анализ» (рис. 9.30.).

Рис. 9.30 . Вкладка данные диалоговое окно «Анализ данных»

2. В диалоговом окне «Анализ данных» выбрать Описательная стат и стика и нажать кнопку «ОК», в появившемся диалоговом окне заполните необходимые поля (рис. 9.31):

Рис. 9.31 . Диалоговое окно ввода параметров инструмента
« Описательная статистика »

Входной интервал - диапазон, содержащий данные результативного и объясняющих признаков;

Группирование - указать, как расположены данные (в столбцах или строках);

Метки - флажок, который указывает, содержит ли первая строка названия столбцов или нет;

Выходной интервал - достаточно указать левую верхнюю ячейку будущего диапазона;

Новый рабочий лист - можно задать произвольное имя нового листа, на который будут выведены результаты.

Для получения информации Итоговой статистики, Уровня наде ж ности, -го наибольшего и наименьшего значений нужно установить соответствующие флажки в диалоговом окне.

Получаем следующую статистику (рис. 2.10).

100 р бонус за первый заказ

Выберите тип работы Дипломная работа Курсовая работа Реферат Магистерская диссертация Отчёт по практике Статья Доклад Рецензия Контрольная работа Монография Решение задач Бизнес-план Ответы на вопросы Творческая работа Эссе Чертёж Сочинения Перевод Презентации Набор текста Другое Повышение уникальности текста Кандидатская диссертация Лабораторная работа Помощь on-line

Узнать цену

Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. Поведение отдельных экономических переменных контролировать нельзя, т. е. не удается обеспечить равенство всех прочих условий для оценки влияния одного исследуемого фактора. В этом случае следует попытаться выявить влияние других факторов, введя их в модель, т. е. построить уравнение множественной регрессии:

Такого рода уравнение может использоваться при изучении потребления. Тогда коэффициенты - частныепроизводные потребления по соответствующим факторам :

в предположении, что все остальные постоянны.

В 30-е гг. XX в. Кейнс сформулировал свою гипотезу потребительской функции. С того времени исследователи неоднократно обращались к проблеме ее совершенствования. Современная потребительская функция чаще всего рассматривается как модель вида:

где С - потребление; у - доход; Р - цена, индекс стоимости жизни; М - наличные деньги; Z - ликвидные активы.

При этом

Множественная регрессия широко используется в решении проблем спроса, доходности акций; при изучении функции издержек производства, в макроэкономических расчетах и целого ряда других вопросов эконометрики. В настоящее время множественная регрессия – один из наиболее распространенных методов эконометрики. Основная цель множественной регрессии - построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

Построение уравнения множественной регрессия начинается с решения вопроса о спецификации модели. Спецификация модели включает в себя два круга вопросов: отбор факторов и выбор вида уравнения регрессии.

Требования к факторам.

1 Они должны быть количественно измеримы.

2.Факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.

Разновидностью интеркоррелированности факторов является мультиколлинеарность - наличие высокой линейной связи между всеми или несколькими факторами.

Причинами возникновения мультиколлинеарности между призанками являются:

1. Изучаемые факторные признаки, характеризуют одну и ту же сторону явления или процесса. Например, показатели объема производимой продукции и среднегодовой стоимости основных фондов одновременно включать в модель не рекомендуется, так как они оба характеризуют размер предприятия;

2. Использование в качестве факторных признаков показателей, суммарное значение которых представляет собой постоянную величину;

3. Факторные признаки, являющиеся составными элементами друг друга;

4. Факторные признаки, по экономическому смыслу дублирующие друг друга.

5. Одним из индикаторов определения наличия мультиколлинеарности между признаками является превышение парным коэффициентом корреляции величины 0,8 (rxi xj) и др.

Мультиколлинеарность может привести к нежелательным последствиям:

1) оценки параметров становятся ненадежными, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только в величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

2) затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированны; параметры линейной регрессии теряют экономический смысл;

3) нельзя определить изолированное влияние факторов на результативный показатель.

Включение в модель факторов с высокой интеркорреляцией (Ryx1Rx1x2) может привести к ненадежности оценок коэф-ов регрессии. Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются неинтерпретированными. Включаемые во множ.регрессию факторы должны объяснить вариацию независимой переменной. Отбор факторов производится на основе качественного теоретико-экономического анализа, который обычно осуществляется в две стадии: на первой подбираются факторы исходя из сущности проблемы; на второй – на основе матрицы показателей корреляции определяют t-статистики для параметров регрессии.

Если факторы коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.

В предыдущих разделах было упомянуто о том, что вряд ли выбранная независимая переменная является единственным фактором, который повлияет на зависимую переменную. В большинстве случаев мы можем идентифицировать более одного фактора, способного влиять каким-то образом на зависимую переменную. Так, например, разумно предположить, что расходы цеха будут определяться количеством отработанных часов, использованного сырья, количеством произведенной продукции. По видимому, нужно использовать все факторы, которые мы перечислили для того, чтобы предсказать расходы цеха. Мы можем собрать данные об издержках, отработанном времени, использованном сырье и т.д. за неделю или за месяц Но мы не сможем исследовать природу связи между издержками и всеми другими переменными посредством корреляционной диаграммы. Начнем с предположений о линейной связи, и только если это предположение будет неприемлимо, попробуем использовать нелинейную модель. Линейная модель для множественной регрессии:

Вариация у объясняется вариацией всех независимых переменных, которые в идеале должны быть независимы друг от друга. Например, если мы решим использовать пять независимых переменных, то модель будет следующей:

Как и в случае простой линейной регрессии мы получаем по выборке оценки и т.д. Наилучшая линия для выборки:

Коэффициент а и коэффициенты регрессии вычисляются с помощью минимальности суммы квадратов ошибок Для дальнейшего регрессионной модели используют следующие предположения об ошибка любого данного

2. Дисперсия равна и одинакова для всех х.

3. Ошибки независимы друг от друга.

Эти предположения те же, что и в случае простой регрессии. Однако в случае они ведут к очень сложным вычислениям. К счастью, выполня вычисления, позволяя нам сосредоточиться на интерпретации и оценке торной модели. В следующем разделе мы определим шаги, которые необх предпринять в случае множественной регрессии, но в любом случае мы полагаться на компьютер.

ШАГ 1. ПОДГОТОВКА ИСХОДНЫХ ДАННЫХ

Первый шаг обычно предполагает обдумать, как зависимая переменная быть связана с каждой из независимых переменных. Нет смысла нительные переменные х, если они не дают возможность объяснения вариа Вспомним, что наша задача состоит в объяснить вариацию изменения независимой переменкой х. Нам необходимо рассчитать коэффид корреляции для всех пар переменных при условии независимости наблк друг от друга. Это даст нам возможность определить, связаны х с у линей! же нет, независимы ли между собой. Это важно в множественной регр Мы можем вычислить каждый из коэффициентов корреляции, как пока: разделе 8.5, чтобы посмотреть, насколько их значения отличны от нуля нужно выяснить, нет ли высокой корреляции между значениями незавю переменных. Если мы обнаружим высокую корреляцию, например, между х то маловероятно, что обе эти переменные должны быть включены в оконч модель.

ШАГ 2. ОПРЕДЕНИЕ ВСЕХ СТАТИСТИЧЕСКИ ЗНАЧИМЫХ МОДЕЛ

Мы можем исследовать линейную связь между у и любой комбинацией переменных. Но модель имеет силу только в том случае, если значимая линейная связь между у и всеми х и если каждый коэффи регрессии значимо отличен от нуля.

Мы можем оценить значимость модели в целом, используя того, мы должны использовать -критерий для каждого коэффициента регр чтобы определить, значимо ли он отличен от нуля. Если коэффициент сии не значимо отличается от нуля, то соответствующая независимая перем не помогает в прогнозе значения у и модель не имеет силы.

Полная процедура заключается в том, чтобы установить множествениу нейную регрессионную модель для всех комбинаций независимых переме. Оценим каждую модель, используя F-критерий для модели в целом и -кри для каждого коэффициента регрессии. Если F-критерий или любой из -кря! незначимы, то эта модель не имеет силы и не может быть использована.

модели исключаются из рассмотрения. Этот процесс занимает очень много времени. Например, если у нас имеются пять независимых переменных, то возможно построение 31 модели: одна модель со всеми пятью переменными, пять моделей, включающие четыре из пяти переменных, десять - с тремя переменными, десять - с двумя переменными и пять моделей с одной.

Можно получить множественную регрессию не исключая последовательно независимые переменные, а расширяя их круг. В в этом случае мы начинаем с построения простых регрессий для каждой из независимых переменных поочередно. Мы выбираем лучшую из этих регрессий, т.е. с наивысшим коэффициентом корреляции, затем добавляем к этому, наиболее приемлемому значению переменной у вторую переменную. Этот метод построения множественной регрессии называется прямым.

Обратный метод начинается с исследования модели, включающей все независимые переменные; в нижеприведенном примере их пять. Переменная, которая дает наименьший вклад в общую модель, исключается из рассмотрения, остается только четыре переменных. Для этих четырех переменных определяется линейная модель. Если же эта модель не верна, исключается еще одна переменная, дающая наименьший вклад, остается три переменных. И этот процесс повторяется со следующими переменными. Каждый раз, когда исключается новая переменная, нужно проверять, чтобы значимая переменная не была удалена. Все эти действия нужно производить с большим вниманием, так как можно неосторожно исключить нужную, значимую модель из рассмотрения.

Не важно, какой именно метод используется, может быть несколько значимых моделей и каждая из них может иметь огромное значение.

ШАГ 3. ВЫБОР ЛУЧШЕЙ МОДЕЛИ ИЗ ВСЕХ ЗНАЧИМЫХ МОДЕЛЕЙ

Эта процедура может бьгть рассмотрена с помощью примера, в котором определились три важнейших модели. Первоначально было пять независимых переменных но три из них - - исключены из всех моделей. Эти переменные не помогают в прогнозировании у.

Поэтому значимыми моделями оказались:

Модель 1: у прогнозируется только

Модель 2: у прогнозируется только

Модель 3: у прогнозируется вместе.

Для того, чтобы сделать выбор из этих моделей, проверим значения коэффициента корреляции и стандартного отклонения остатков Коэффициент множественной корреляции - есть отношение "объясненной" вариации у к общей вариации у и вычисляется так же, как и коэффициент парной корреляции для простой регрессии при двух переменных. Модель, которая описывает связь между у и несколькими значениями х, имеет множественный коэффициент корреляции который близок к и значение очень мало. Коэффициент детерминации который часто предлагается в ППП, описывает процент изменяемости у, которая обменяется моделью. Модель имеет значение в том случае, когда близко к 100%.

В данном примере мы просто выбираем модель с наибольшим значением и наименьшим значением Предпочтительной моделью оказалась модель следующем шаге необходимо сравнить модели 1 и 3. Различие между этими моделями состоит во включении переменной в модель 3. Вопрос в том повышает ли значительно точность предсказания значения у или же нет! Следующий критерий поможет ответить нам на этот вопрос - это частный F-критерий. Рассмотрим пример, иллюстрирующий всю процедуру построения множественной регрессии.

Пример 8.2. Руководство большой шоколадной фабрики заинтересовано в построении модели для того, чтобы предсказать реализацию одной из своих уже долго существующих торговых марок. Были собраны следующие данные.

Таблица 8.5. Построение модели для прогноза объема реализации (см. скан)

Для того чтобы модель была полезной и имела силу, мы должны отвергнуть Но и принять Значение F-критерия есть соотношение двух величин, описанных выше:

Этот критерий с одним хвостом (односторонний), потому, что средний квадрат, обусловленный регрессией, должен быть больше, чтобы мы могли принять . В предыдущих разделах, когда мы использовали F-критерий, критерии были двусторонние, так как во главу угла ставилось большее значение вариации, каким бы оно ни было. В регрессионном анализе нет выбора - наверху (в числителе) всегда вариация у по регрессии. Если она меньше, чем вариация по остаточной величине, мы принимает Но, так как модель не объясняет изменений у. Это значение F-критерия сравнивается с табличным:

Из таблиц стандартного распределения F-критерия:

В нашем примере значение критерия:

Поэтому мы получили результат с высокой достоверностью.

Проверим каждое из значений коэффициентов регрессии. Предположим, что компьютер сосчитал все необходимые -критерии. Для первого коэффициента гипотезы формулируются так:

Время не помогает объяснить изменение продаж при условии, что остальные переменные присутствуют в модели, т.е.

Время дает существенный вклад и должно быть включено в модель, т. е.

Проведем испытание гипотезы на -ном уровне, пользуясь двусторонним -критерием при:

Граничные значения на данном уровне:

Значение критерия:

Рассчитанные значения -критерия должны лежать вне указанных границ для того, чтобы мы смогли отвергнуть гипотезу

Рис. 8.20. Распределение остатков для модели с двумя переменными

Оказалось восемь ошибок с отклонениями 10% или более от фактического объема продаж. Наибольшая из них - 27%. Будет ли размер ошибки принят компанией при планировании деятельности? Ответ на этот вопрос будет зависеть от степени надежности других методов.

8.7. НЕЛИНЕЙНЫЕ СВЯЗИ

Вернемся к ситуации, когда у нас всего две переменные, но связь между ними нелинейная. На практике многие связи между переменными являются криволинейными. Например, связь может быть выражена уравнением:

Если связь между переменными сильная, т.е. отклонение от криволинейной модели относительно небольшое, то мы сможем догадаться о природе наилучшей модели по диаграмме (полю корреляции). Однако трудно применить нелинейную модель к выборочной совокупности. Было бы легче, если бы мы могли манипулировать нелинейной моделью в линейной форме. В первых двух записанных моделях функциям могут быть присвоены разные имена, и тогда будет использоваться множественная модель регрессии. Например, если модель:

лучше всего описывает связь между у и х, то перепишем нашу модель, используя независимые переменные

Эти переменные рассматриваются как обыкновенные независимые переменные, даже если мы знаем, что и х не могут быть независимы друг от друга. Лучшая модель выбирается так же, как и в предыдущем разделе.

Третья и четвертая модели рассматриваются по-другому. Тут мы уже встречаемся с необходимостью так называемой линейной трансформации. Например, если связь

то на графике это будет изображено кривой линией. Все необходимые действия могут быть представлены следующим образом:

Таблица 8.10. Расчет

Рис. 8.21. Нелинейная связь

Линейная модель, при трансформированной связи:

Рис. 8.22. Линейная трансформация связи

В общем, если исходная диаграмма показывает, что связь может быть изображена в форме: то представление у против X, где определит прямую линию. Воспользуемся простой линейной регрессией для установления модели: Рассчитанные значения а и - лучшие значения а и (5.

Четвертая модель, приведенная выше, включает трансформацию у с использованием натурального логарифма:

Взяв логарифмы по обеих сторон уравнения, получим:

поэтому: где

Если , то - уравнение линейной связи между Y и х. Пусть - связь между у и х, тогда мы должны трансформировать каждое значение у взятием логарифма по е. Определяем простую линейную регрессию по х для того, чтобы найти значения А и Антилогарифм записан ниже.

Таким образом, метод линейной регрессии может быть применен к нелинейным связям. Однако в этом случае требуется алгебраическое преобразование при записи исходной модели.

Пример 8.3. Следующая таблица содержит данные об общем годовом объеме производства промышленной продукции в определенной стране за период

Множественный регрессионный анализ является расширением парного регрессионного анализа. О применяется в тех случаям, когда поведение объясняемой, зависимой переменной необходимо связать с влиянием более чем одной факторной, независимой переменной. Хотя определенная часть многофакторного анализа представляет собой непосредственное обобщение понятий парной регрессионной модели, при выполнении его может возникнуть ряд принципиально новых задач.

Так, при оценке влияния каждой независимой переменной необходимо уметь разграничивать ее воздействие на объясняемую переменную от воздействия других независимых переменных. При этом множественный корреляционный анализ сводится к анализу парных, частных корреляций. На практике обычно ограничиваются определением их обобщенных числовых характеристик, таких как частные коэффициенты эластичности, частные коэффициенты корреляции, стандартизованные коэффициенты множественной регрессии.

Затем решаются задачи спецификации регрессионной модели, одна из которых состоит в определении объема и состава совокупности независимых переменных, которые могут оказывать влияние на объясняемую переменную. Хотя это часто делается из априорных соображений или на основании соответствующей экономической (качественной) теории, некоторые переменные могут в силу индивидуальных особенностей изучаемых объектов не подходить для модели. В качестве наиболее характерных из них можно назвать мультиколлинеарность или автокоррелированность факторных переменных.

3.1. Анализ множественной линейной регрессии с помощью

метода наименьших квадратов (МНК)

В данном разделе полагается, что рассматривается модель регрессии, которая специфицирована правильно. Обратное, если исходные предположения оказались неверными, можно установить только на основании качества полученной модели. Следовательно, этот этап является исходным для проведения множественного регрессионного анализа даже в самом сложном случае, поскольку только он, а точнее его результаты могут дать основания для дальнейшего уточнения модельных представлений. В таком случае выполняются необходимые изменения и дополнения в спецификации модели, и анализ повторяется после уточнения модели до тех пор, пока не будут получены удовлетворительные результаты.

На любой экономический показатель в реальных условиях обычно оказывает влияние не один, а несколько и не всегда независимых факторов. Например, спрос на некоторый вид товара определяется не только ценой данного товара, но и ценами на замещающие и дополняющие товары, доходом потребителей и многими другими факторами. В этом случае вместо парной регрессии M (Y / Х = х ) = f (x ) рассматривается множественная регрессия

M (Y / Х1 = х1, Х2 = х2, …, Хр = Хр ) = f (x 1 , х 2 , …, х р ) (2.1)

Задача оценки статистической взаимосвязи переменных Y и Х 1 , Х 2 , ..., Х Р формулируется аналогично случаю парной регрессии. Уравнение множественной регрессии может быть представлено в виде

Y = f (B , X ) +  2

где X - вектор независимых (объясняющих) переменных; В - вектор параметров уравнения (подлежащих определению);  - случайная ошибка (отклонение); Y - зависимая (объясняемая) переменная.

Предполагается, что для данной генеральной совокупности именно функция f связывает исследуемую переменную Y с вектором независимых переменных X .

Рассмотрим самую употребляемую и наиболее простую для статистического анализа и экономической интерпретации модель множественной линейной регрессии. Для этого имеются, по крайней мере, две существенные причины.

Во-первых, уравнение регрессии является линейным, если система случайных величин (X 1 , X 2 , ..., Х Р , Y ) имеет совместный нормальный закон распределения. Предположение о нормальном распределении может быть в ряде случаев обосновано с помощью предельных теорем теории вероятностей. Часто такое предположение принимается в качестве гипотезы, когда при последующем анализе и интерпретации его результатов не возникает явных противоречий.

Вторая причина, по которой линейная регрессионная модель предпочтительней других, состоит в том, что при использовании ее для прогноза риск значительной ошибки оказывается минимальным.

Теоретическое линейное уравнение регрессии имеет вид:

или для индивидуальных наблюдений с номером i :

где i = 1, 2, ..., п.

Здесь В = (b 0 , b 1 ,b Р) - вектор размерности (р+1) неизвестных параметров b j , j = 0, 1, 2, ..., р , называется j -ым теоретическим коэффициентом регрессии (частичным коэффициентом регрессии). Он характеризует чувствительность величины Y к изменению X j . Другими словами, он отражает влияние на условное математическое ожидание M (Y / Х1 = х1, Х2 = х2, …, Хр = x р ) зависимой переменной Y объясняющей переменной Х j при условии, что все другие объясняющие переменные модели остаются постоянными. b 0 - свободный член, определяющий значение Y в случае, когда все объясняющие переменные X j равны нулю.

После выбора линейной функции в качестве модели зависимости необходимо оценить параметры регрессии.

Пусть имеется n наблюдений вектора объясняющих переменных X = (1 , X 1 , X 2 , ..., Х Р ) и зависимой переменной Y :

(1 , х i1 , x i2 , …, x ip , y i ), i = 1, 2, …, n.

Для того чтобы однозначно можно было бы решить задачу отыскания параметров b 0 , b 1 , … , b Р (т.е. найти некоторый наилучший вектор В ), должно выполняться неравенство n > p + 1 . Если это неравенство не будет выполняться, то существует бесконечно много различных векторов параметров, при которых линейная формула связи между X и Y будет абсолютно точно соответствовать имеющимся наблюдениям. При этом, если n = p + 1 , то оценки коэффициентов вектора В рассчитываются единственным образом - путем решения системы p + 1 линейного уравнения:

где i = 1, 2, ..., п.

Например, для однозначного определения оценок параметров уравнения регрессии Y = b о + b 1 X 1 + b 2 X 2 достаточно иметь выборку из трех наблюдений (1 , х i 1 , х i 2 , y i), i = 1, 2, 3. В этом случае найденные значения параметров b 0 , b 1 , b 2 определяют такую плоскость Y = b о + b 1 X 1 + b 2 X 2 в трехмерном пространстве, которая пройдет именно через имеющиеся три точки.

С другой стороны, добавление в выборку к имеющимся трем наблюдениям еще одного приведет к тому, что четвертая точка (х 41 , х 42 , х 43 , y 4) практически всегда будет лежать вне построенной плоскости (и, возможно, достаточно далеко). Это потребует определенной переоценки параметров.

Таким образом, вполне логичен следующий вывод: если число наблюдений больше минимально необходимой величины, т.е. n > p + 1 , то уже нельзя подобрать линейную форму, в точности удовлетворяющую всем наблюдениям. Поэтому возникает необходимость оптимизации, т.е. оценивания параметров b 0 , b 1 , …, b Р , при которых формула регрессии дает наилучшее приближение одновременно для всех имеющихся наблюдений.

В данном случае число  = n - p - 1 называется числом степеней свободы. Нетрудно заметить, что если число степеней свободы невелико, то статистическая надежность оцениваемой формулы невысока. Например, вероятность надежного вывода (получения наиболее реалистичных оценок) по трем наблюдениям существенно ниже, чем по тридцати. Считается, что при оценивании множественной линейной регрессии для обеспечения статистической надежности требуется, чтобы число наблюдений превосходило число оцениваемых параметров, по крайней мере, в 3 раза.

Прежде чем перейти к описанию алгоритма нахождения оценок коэффициентов регрессии, отметим желательность выполнимости ряда предпосылок МНК, которые позволят обосновать характерные особенности регрессионного анализа в рамках классической линейной многофакторной модели.

На любой экономический показатель чаще всего оказывает влияние не один, а несколько факторов. Например, спрос на некоторое благо определяется не только ценой данного блага, но и ценами на замещающие и дополняющие блага, доходом потребителей и многими другими факторами. В этом случае вместо парной регрессии рассматривается множественная регрессия

Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах и в ряде других вопросов экономики. В настоящее время множественная регрессия - один из наиболее распространенных методов в эконометрике. Основной целью множественной регрессии является построение модели с большим числом факторов, а также определение влияния каждого фактора в отдельности и совокупного их воздействия на моделируемый показатель.

Множественный регрессионный анализ является развитием парного регрессионного анализа в случаях, когда зависимая переменная связана более чем с одной независимой переменной. Большая часть анализа является непосредственным расширением парной регрессионной модели, но здесь также появляются и некоторые новые проблемы, из которых следует выделить две. Первая проблема касается исследования влияния конкретной независимой переменной на зависимую переменную, а также разграничения её воздействия и воздействий других независимых переменных. Второй важной проблемой является спецификация модели, которая состоит в том, что необходимо ответить на вопрос, какие факторы следует включить в регрессию (1), а какие - исключить из неё. В дальнейшем изложение общих вопросов множественного регрессионного анализа будем вести, разграничивая эти проблемы. Поэтому вначале будем полагать, что спецификация модели правильна.

Самой употребляемой и наиболее простой из моделей множественной регрессии является линейная модель множественной регрессии:

y=α"+β 1 "x 1 + β 2 "x 2+…+ β p "x p +ε (2)

По математическому смыслу коэффициенты β" j в уравнении (2) равны частным производным результативного признака у по соответствующим факторам:

Параметр а" называется свободным членом и определяет значение у в случае, когда все объясняющие переменные равны нулю. Однако, как и в случае парной регрессии, факторы по своему экономическому содержанию часто не могут принимать нулевых значений, и значение свободного члена не имеет экономического смысла. При этом, в отличие от парной регрессии, значение каждого регрессионного коэффициента β" j равно среднему изменению у при увеличении x j на одну единицу лишь при условии, что все остальные факторы остались неизменными. Величина Î представляет собой случайную ошибку регрессионной зависимости.

Попутно отметим, что наиболее просто можно определять оценки параметров β" j , изменяя только один фактор x j , оставляя при этом значения других факторов неизменными. Тогда задача оценки параметров сводилась бы к последовательности задач парного регрессионного анализа по каждому фактору. Однако такой подход, широко используемый в естественнонаучных исследованиях, (физических, химических, биологических), в экономике является неприемлемым. Экономист, в отличие от экспериментатора - естественника, лишен возможности регулировать отдельные факторы, поскольку не удаётся обеспечить равенство всех прочих условий для оценки влияния одного исследуемого фактора.

Получение оценок параметров α ׳ , b 1 ’ , b 2 ’ , …, b p уравнения регрессии (2) - одна из важнейших задач множественного регрессионного анализа. Самым распространенным методом решения этой задачи является метод наименьших квадратов (МНК). Его суть состоит в минимизации суммы квадратов отклонений наблюдаемых значений зависимой переменной у от её значений получаемых по уравнению регрессии. Поскольку параметры а " , b 1 ’ , b 2 ’ , …, b p являются неизвестными константами, вместо теоретического уравнения регрессии (2), оценивается так называемоеэмпирическое уравнение регрессии, которое можно представить в виде:

Здесь a, b 1 , b 2 ,.. b p - оценки теоретических значений α", β 1 ", β 2 " ",…, β р ", или эмпирические коэффициенты регрессии, е -- оценка отклонения ε. Тогда расчетное выражение имеет вид:

Пусть имеется п наблюдений объясняющих переменных и соответствующих им значений результативного признака:

, (5)

Для однозначного определения значений параметров уравнения (4) объем выборки п должен быть не меньше количества параметров, т.е. п≥р+1 . В противном случае значения параметров не могут быть определены однозначно. Если п=р+1 , оценки параметров рассчитываются единственным образом без МНК простой подстановкой значений (5) в выражение (4). Получается система (р+1) уравнений с таким же количеством неизвестных, которая решается любым способом, применяемым к системам линейных алгебраических уравнений (СЛАУ). Однако с точки зрения статистического подхода такое решение задачи является ненадежным, поскольку измеренные значения переменных (5) содержат различные виды погрешностей. Поэтому для получения надежных оценок параметров уравнения (4) объём выборки должен значительно превышать количество определяемых по нему параметров. Практически, как было сказано ранее, объём выборки должен превышать количество параметров при x j в уравнении (4) в 6-7 раз.

Для проведения анализа в рамках линейной модели множественной регрессии необходимо выполнение ряда предпосылок МНК. В основном это те же предпосылки, что и для парной регрессии, однако здесь нужно добавить предположения, специфичные для множественной регрессии:

5°. Спецификация модели имеет вид (2).

6°. Отсутствие мультиколлинеарности: между объясняющими переменными отсутствует строгая линейная зависимость, что играет важную роль в отборе факторов при решении проблемы спецификации модели.

7°. Ошибки ε i , , имеют нормальное распределение (ε i ~ N(0, σ)) . Выполнимость этого условия нужна для проверки статистических гипотез и построения интервальных оценок.

При выполнимости всех этих предпосылок имеет место многомерный аналог теоремы Гаусса - Маркова: оценки a,b 1 , b 2 ,... b p , полученные по МНК, являются наиболее эффективными (в смысле наименьшей дисперсии) в классе линейных несмещенных оценок.

Модель множественной регрессии. Спецификация модели множественной регрессии

ШАГ 1. ПОДГОТОВКА ИСХОДНЫХ ДАННЫХ

ШАГ 3. ВЫБОР ЛУЧШЕЙ МОДЕЛИ ИЗ ВСЕХ ЗНАЧИМЫХ МОДЕЛЕЙ

8.7. НЕЛИНЕЙНЫЕ СВЯЗИ

3.1. Анализ множественной линейной регрессии с помощью

Читайте также

Что можно и нельзя делать после похорон близкого Можно ли подстригаться до 40 дней

Можно ли сорок дней поминать раньше?

Построение графиков онлайн

THE BELL