Контрольная работа уравнения множественной регрессии. Множественная регрессия

Назначение множественной регрессии – анализ связи между одной зависимой и несколькими независимыми переменными.

Пример: Имеются данные о стоимости одного рабочего места (при покупке 50 рабочих мест) для различных PDM-систем. Требуется: оценить зависимость между ценой рабочего места PDM-системы от количества реализованных в ней характеристик, приведенных в таблице 2.

Таблица 2 - Характеристики PDM-систем

Номер п/п PDM-система Стоимость Управление конфигурацией изделия Модели изделий Коллективная работа Управление изменениями изделий Документооборот Архивы Поиск документов Планирование проекта Управление изготовлением изделий
iMAN Да Да
PartY Plus Да Да
PDM STEP Suite Да Да
Search Да Да
Windchill Да Да
Компас-Менеджер Да Да
T-Flex Docs Да Да
ТехноПро Нет Нет

Численное значение характеристик (кроме «Стоимость», «Модели изделий» и «Коллективная работа») означает количество реализованных требований каждой характеристики.

Создадим и заполним электронную таблицу с исходными данными (Рисунок 27).

Значение «1» переменных «Мод. изд.» и «Коллект. р-та.» соответствует значению «Да» исходных данных, а значение «0» значению «Нет» исходных данных.

Построим регрессию между зависимой переменной «Стоимость» и независимыми переменными «Упр. конф.», «Мод. изд.», «Коллект. р-та», «Упр. изм.», «Док.», «Архивы», «Поиск», «План-е», «Упр. изгот.».

Для начала статистического анализа исходных данных вызвать модуль «Multiple Regression» (рисунок 22).

В появившемся диалоговом окне (рисунок 23) указать переменные по которым будет производиться статистический анализ.

Рисунок 27 - Исходные данные

Для этого нажать кнопку Variables и в появившемся диалоговом окне (рисунок 28) в части соответствующей зависимым переменным (Dependent var.) выбрать «1-Стоимость», а в части соответствующей независимым переменным (Independent variable list) выбрать все остальные переменные. Выбор нескольких переменных из списка осуществляется с использованием клавиш «Ctrl» или «Shift», либо указанием номеров (диапазона номеров) переменных в соответствующем поле.



Рисунок 28 - Диалоговое окно задания переменных для статистического анализа

После того как переменные выбраны нажать кнопку «OK» в диалоговом окне задания параметров модуля «Multiple Regression». В появившемся окне с надписью «No of indep. vars. >=(N-1); cannot invert corr. matrix.» (рисунок 29) нажать кнопку «OK».

Данное сообщение появляется в случае когда система не может построить регрессию по всем заявленным независимым переменным, т.к. число переменных больше или равно числу случаев минус 1.

В появившемся окне (рисунок 30) на закладке «Advanced» можно изменить метод построения уравнения регрессии.

Рисунок 29 - Сообщение об ошибке

Для этого в поле «Method» (метод) выбрать «Forward stepwise» (пошаговый с включением).

Рисунок 30 - Окно выбора метода и задания параметров построения уравнения регрессии

Метод пошаговой регрессии состоит в том, что на каждом шаге в модель включается, либо исключается какая-то независимая переменная. Таким образом, выделяется множество наиболее "значимых" переменных. Это позволяет сократить число переменных, которые описывают зависимость.

Пошаговый анализ с исключением («Backward stepwise»). В этом случае все переменные будут сначала включены в модель, а затем на каждом шаге будут устраняться переменные, вносящие малый вклад в предсказания. Тогда в качестве результата успешного анализа можно сохранить только "важные" переменные в модели, то есть те переменные, чей вклад в дискриминацию больше остальных.

Пошаговый анализ с включением («Forward stepwise»). При использовании этого метода в регрессионное уравнение последовательно включаются независимые переменные, пока уравнение не станет удовлетворительно описывать исходные данные. Включение переменных определяется при помощи F - критерия. На каждом шаге просматриваются все переменные и находится та из них, которая вносит наибольший вклад в различие между совокупностями. Эта переменная должна быть включена в модель на данном шаге, и происходит переход к следующему шагу.

В поле «Intercept» (свободный член регрессии) можно выбрать включать ли его в уравнение («Include in model») либо не учитывать и считать равным нулю («Set to zero»).

Параметр «Tolerance» это толерантность переменных. Определяется как 1 минус квадрат коэффициента множественной корреляции этой переменной со всеми другими независимыми переменными в уравнении регрессии. Поэтому, чем меньший толерантность переменной, тем более избыточный - ее вклад в уравнение регрессии. Если толерантность любой из переменных в уравнении регрессии равна или близка к нулю, то уравнение регресса не может быть оценено. Поэтому параметр толерантность желательно задать равным 0,05 или 0,1.

Параметр «Ridge regression; lambda:» используется, когда независимые переменные высоко межкоррелированые, и устойчивые оценки для коэффициентов уравнения регрессии, не могут быть получен через метод наименьших квадратов. Указанная постоянная (лямбда) будет добавлена к диагонали матрицы корреляций, которая тогда заново будет приведена к стандартизированному виду (так чтобы все диагональные элементы были равны 1.0). Другими словами, данный параметр искусственно уменьшает коэффициенты корреляции так, чтобы можно было вычислить более устойчивые (все же смещенный) оценки параметров регрессии. В наше случае данный параметр не используется.

Параметр «Batch processing/printing» (обработка, печать отчетов) используется, когда необходимо сразу подготовить для отчета несколько таблиц, отражающих результаты и процесс регрессионного анализа. Эта опция весьма полезна, когда необходимо напечатать или проанализировать результаты пошагового регрессионного анализа на каждом шаге.

На закладке «Stepwise» (рисунок 31) можно задать параметры условия включения («F to enter») или исключения («F to remove») переменных при построении уравнения регрессии, а также количество шагов построения уравнения («Number of steps»).

Рисунок 31 – Закладка «Stepwise» окна выбора метода и задания параметров построения регрессионного уравнения

F это величина значения F-критерия.

Если при пошаговом анализе с включением необходимо, чтобы все или почти все переменные вошли в уравнение регрессии то необходимо значение «F to enter» установить минимальным (0,0001), и значение «F to remove» также установить минимальным.

Если при пошаговом анализе с исключением необходимо, удалять все переменные (по одной) из уравнения регрессии то необходимо значение «F to enter» установить очень большим, например 999, и значение «F to remove» установить близким к «F to enter».

Следует помнить, что значение параметра «F to remove» всегда должно быть меньше чем «F to enter».

Опция «Display results» (отображение результатов) имеет два варианта:

2) At each step – отображать результаты анализа на каждом шаге.

После нажатия кнопки «OK» в окне выбора методов регрессионного анализа появится окно результатов анализа (рисунок 32).

Рисунок 32 - Окно результатов анализа

Рисунок 33 - Краткие результаты регрессионного анализа

Согласно результатам анализа коэффициент детерминации . Это означает, что построенная регрессия объясняет 99,987% разброса значений относительно среднего, т.е. объясняет практически всю изменчивость переменных.

Большое значение и его уровень значимости показывают, что построенная регрессия высоко значима.

Для просмотра кратких результатов регрессии нажать кнопку «Summary: Regression result». На экране появится электронная таблица с результатами анализа (рисунок 33).

В третьем столбце («B») отображены оценки неизвестных параметров модели, т.е. коэффициенты уравнения регрессии.

Таким образом, искомая регрессия имеет вид:

Качественно построенное уравнение регрессии можно интерпретировать следующим образом:

1) Стоимость PDM-системы увеличивается с возрастанием количества реализованных функций по управлению изменениями, документообороту и планированию, а также, если в систему включена функция поддержки модели изделия;

2) Стоимость PDM-системы снижается с увеличением реализованных функций управления конфигурацией и с увеличением возможностей поиска.

I have a big bookshelf including many books divided in many varieties. On the top shelf are religious books like Fiqh books, Tauhid books, Tasawuf books, Nahwu books, etc. They are lined up neatly in many rows and some of them are lined up neatly according to the writers. On the second level are my studious books like Grammar books, Writing books, TOEFL books, etc. These are arranged based on the sizes. On the next shelf are many kinds of scientific and knowledgeable books; for example, Philosophies, Politics, Histories, etc. There are three levels for the se. Eventually, in the bottom of my bookshelf are dictionaries, they are Arabic dictionaries and English dictionaries as well as Indonesian dictionaries. Indeed, there are six levels in my big bookshelf and they are lined up in many rows. The first level includes religious books, the second level includes my studious books, the third level having three levels includes many kinds of scientific and knowledgeable books and the last level includes dictionaries. In short, I love my bookshelf.

Specific-to-general order

The skills needed to write range from making the appropriate graphic marks, through utilizing the resources of the chosen language, to anticipating the reactions of the intended readers. The first skill area involves acquiring a writing system, which may be alphabetic (as in European languages) or nonalphabetic (as in many Asian languages). The second skill area requires selecting the appropriate grammar and vocabulary to form acceptable sentences and then arranging them in paragraphs. Third, writing involves thinking about the purpose of the text to be composed and about its possible effects on the intended readership. One important aspect of this last feature is the choice of a suitable style. Unlike speaking, writing is a complex sociocognitive process that has to be acquired through years of training or schooling. (Swales and Feak, 1994, p. 34)

General-to-specific order

"Working part-time as a cashier at the Piggly Wiggly has given me a great opportunity to observe human behavior. Sometimes I think of the shoppers as white rats in a lab experiment, and the aisles as a maze designed by a psychologist. Most of the rats--customers, I mean--follow a routine pattern, strolling up and down the aisles, checking through my chute, and then escaping through the exit hatch. But not everyone is so dependable. My research has revealed three distinct types of abnormal customer: the amnesiac, the super shopper, and the dawdler. . ."

There are many factors that contribute to student success in college. The first factor is having a goal in mind before establishing a course of study. The goal may be as general as wanting to better educate oneself for the future. A more specific goal would be to earn a teaching credential. A second factor related to student success is self-motivation and commitment. A student who wants to succeed and works towards this desire will find success easily as a college student. A third factor linked to student success is using college services. Most beginning college students fail to realize how important it can be to see a counselor or consult with a librarian or financial aid officer.

There are three reasons why Canada is one of the best countries in the world. First, Canada has an excellent health care service. All Canadians have access to medical services at a reasonable price. Second, Canada has a high standard of education. Students are taught be well-trained teachers and are encouraged to continue studying at university. Finally, Canada’s cities are clean and efficiently organized. Canadian cities have many parks and lots of space for people to live. As a result, Canada is a desirable place to live.

York was charged by six German soldiers who came at him with fixed bayonets. He drew a bead on the sixth man, fired, and then on the fifth. He worked his way down the line, and before he knew it, the first man was all by himself. York killed him with a single shot.

As he looked around campus, which had hardly changed, he unconsciously relieved those moments he had spent with Nancy. He recalled how the two of them would seat by the pond, chatting endlessly as they fed the fish and also how they would take walks together, lost in their own world. Yes, Nancy was one of the few friends that he had ever had. ….He was suddenly filled with nostalgia as he recalled that afternoon he had bid farewell to Nancy. He sniffed loudly as his eyes filled with tears.

Примеры решения задач по множественной регрессии

Пример 1. Уравнение регрессии, построенное по 17 наблюдениям, имеет вид:

Расставить пропущенные значения, а также построить доверительный интервал для b 2 с вероятностью 0,99.

Решение. Пропущенные значения определяем с помощью формул:

Таким образом, уравнение регрессии со статистическими характеристиками выглядит так:

Доверительный интервал для b 2 строим по соответствующей формуле. Здесь уровень значимости равен 0,01, а число степеней свободы равно n p – 1 = 17 – 3 – 1 = 13, где n = 17 – объём выборки, p = 3 – число факторов в уравнении регрессии. Отсюда

или . Этот доверительный интервал накрывает истинное значение параметра с вероятностью, равной 0,99.

Пример 2. Уравнение регрессии в стандартизованных переменных выглядит так:

При этом вариации всех переменных равны следующим величинам:

Сравнить факторы по степени влияния на результирующий признак и определить значения частных коэффициентов эластичности.

Решение. Стандартизованные уравнения регрессии позволяют сравнивать факторы по силе их влияния на результат. При этом, чем больше по абсолютной величине коэффициент при стандартизованной переменной, тем сильнее данный фактор влияет на результирующий признак. В рассматриваемом уравнении самое сильное воздействие на результат оказывает фактор х 1 , имеющий коэффициент – 0,82, самое слабое – фактор х 3 с коэффициентом, равным – 0,43.

В линейной модели множественной регрессии обобщающий (средний) коэффициент частной эластичности определяется выражением, в которое входят средние значения переменных и коэффициент при соответствующем факторе уравнения регрессии натурального масштаба. В условиях задачи эти величины не заданы. Поэтому воспользуемся выражениями для вариации по переменным:

Коэффициенты b j связаны со стандартизованными коэффициентами β j соответствующим соотношением, которое подставим в формулу для среднего коэффициента эластичности:

.

При этом знак коэффициента эластичности будет совпадать со знаком β j :

Пример 3. По 32 наблюдениям получены следующие данные:

Определить значения скорректированного коэффициента детерминации, частных коэффициентов эластичности и параметра а .

Решение. Значение скорректированного коэффициента детерминации определим по одному из формул для его вычисления:

Частные коэффициенты эластичности (средние по совокупности) вычисляем по соответствующим формулам:

Поскольку линейное уравнение множественной регрессии выполняется при подстановке в него средних значений всех переменных, определяем параметр а :

Пример 4. По некоторым переменным имеются следующие статистические данные:

Построить уравнение регрессии в стандартизованном и натуральном масштабах.

Решение. Поскольку изначально известны коэффициенты парной корреляции между переменными, начать следует с построения уравнения регрессии в стандартизованном масштабе. Для этого надо решить соответствующую систему нормальных уравнений, которая в случае двух факторов имеет вид:

или, после подстановки исходных данных:

Решаем эту систему любым способом, получаем: β 1 = 0,3076, β 2 = 0,62.

Запишем уравнение регрессии в стандартизованном масштабе:

Теперь перейдем к уравнению регрессии в натуральном масштабе, для чего используем формулы расчета коэффициентов регрессии через бета-коэффициенты и свойство справедливости уравнения регрессии для средних переменных:

Уравнение регрессии в натуральном масштабе имеет вид:

Пример 5. При построении линейной множественной регрессии по 48 измерениям коэффициент детерминации составил 0,578. После исключения факторов х 3 , х 7 и х 8 коэффициент детерминации уменьшился до 0,495. Обоснованно ли было принятое решение об изменении состава влияющих переменных на уровнях значимости 0,1, 0,05 и 0,01?

Решение. Пусть - коэффициент детерминации уравнения регрессии при первоначальном наборе факторов, - коэффициент детерминации после исключения трех факторов. Выдвигаем гипотезы:

;

Основная гипотеза предполагает, что уменьшение величины было несущественным, и решение об исключении группы факторов было правильным. Альтернативная гипотеза говорит о правильности принятого решения об исключении.

Для проверки нуль – гипотезы используем следующую статистику:

,

где n = 48, p = 10 – первоначальное количество факторов, k = 3 – количество исключаемых факторов. Тогда

Сравним полученное значение с критическим F (α ; 3; 39) на уровнях 0,1; 0,05 и 0,01:

F (0,1; 3; 37) = 2,238;

F (0,05; 3; 37) = 2,86;

F (0,01; 3; 37) = 4,36.

На уровне α = 0,1 F набл > F кр , нуль – гипотеза отвергается, исключение данной группы факторов не оправдано, на уровнях 0,05 0,01 нуль – гипотеза не может быть отвергнута, и исключение факторов можно считать оправданным.

Пример 6 . На основе квартальных данных с 2000 г. по 2004 г. получено уравнение . При этом ESS=110,3, RSS=21,4 (ESS – объясненная СКО, RSS – остаточная СКО). В уравнение были добавлены три фиктивные переменные, соответствующие трем первым кварталам года, и величина ESS увеличилась до 120,2. Присутствует ли сезонность в этом уравнении?

Решение . Это задача на проверку обоснованности включения группы факторов в уравнение множественной регрессии. В первоначальное уравнение с тремя факторами были добавлены три переменные, соответствующие первым трем кварталам года.

Определим коэффициенты детерминации уравнений. Общая СКО определяется как сумма факторной и остаточной СКО:

ТSS = ESS 1 + RSS 1 = 110,3 + 21,4 = 131,7

Проверяем гипотезы . Для проверки нуль – гипотезы используем статистику

Здесь n = 20 (20 кварталов за пять лет – с 2000 г. по 2004 г.), p = 6 (общее количество факторов в уравнении регрессии после включения новых факторов), k = 3 (количество включаемых факторов). Таким образом:

Определим критические значения статистики Фишера на различных уровнях значимости:

На уровнях значимости 0,1 и 0,05 F набл > F кр , нуль – гипотеза отвергается в пользу альтернативной, и учет сезонности в регрессии является обоснованным (добавление трех новых факторов оправдано), а на уровне 0,01 F набл < F кр , и нуль – гипотеза не может быть отклонена; добавление новых факторов не оправдано, сезонность в регрессии не является существенной.

Пример 7. При анализе данных на гетероскедастичность вся выборка была после упорядочения по одному из факторов разбита на три подвыборки. Затем по результатам трехфакторного регрессионного анализа было определено, что остаточная СКО в первой подвыборке составила 180, а в третьей – 63. Подтверждается ли наличие гетероскедастичности, если объем данных в каждой подвыборке равен 20?

Решение . Рассчитаем–статистику для проверки нуль–гипотезы о гомоскедастичности по тесту Голдфелда–Квандта:

.

Найдем критические значения статистики по Фишеру:

Следовательно, на уровнях значимости 0,1 и 0,05 F набл > F кр , и гетероскедастичность имеет место, а на уровне 0,01 F набл < F кр , и гипотезу о гомоскедастичности отклонить нельзя.

Пример 8 . На основе квартальных данных получено уравнение множественной регрессии , для которого ESS = 120,32 и RSS = 41,4. Для этой же модели были раздельно проведены регрессии на основе следующих данных: 1 квартал 1991 г. – 1 квартал 1995 г. и 2 квартал 1995 г. – 4 квартал 1996 г. В этих регрессиях остаточные СКО соответственно составили 22,25 и 12,32. Проверить гипотезу о наличии структурных изменений в выборке.

Решение . Задача о наличии структурных изменений в выборке решается с помощью теста Чоу.

Гипотезы имеют вид: , где s 0 , s 1 и s 2 – остаточные СКО соответственно для единого уравнения по всей выборке и уравнений регрессии двух подвыборок общей выборки. Основная гипотеза отрицает наличие структурных изменений в выборке. Для проверки нуль – гипотезы рассчитывается статистика (n = 24; p = 3):

Поскольку F – статистика меньше единицы, нуль – гипотезу нельзя отклонить ни для какого уровня значимости. Например, для уровня значимости 0,05.

Предположим, что застройщик оценивает стоимость группы небольших офисных зданий в традиционном деловом районе.

Застройщик может использовать множественный регрессионный анализ для оценки цены офисного здания в заданном районе на основе следующих переменных.

y - оценочная цена здания под офис;

x 1 - общая площадь в квадратных метрах;

x 2 - количество офисов;

x 3 - количество входов (0,5 входа означает вход только для доставки корреспонденции);

x 4 - время эксплуатации здания в годах.

В этом примере предполагается, что существует линейная зависимость между каждой независимой переменной (x 1 , x 2 , x 3 и x 4) и зависимой переменной (y), то есть ценой здания под офис в данном районе. Исходные данные показаны на рисунке.

Настройки для решения поставленной задачи показаны на рисунке окна "Регрессия ". Результаты расчетов размещены на отдельном листе в трех таблицах

В итоге мы получили следующую математическую модель:

y = 52318 + 27,64*x1 + 12530*x2 + 2553*x3 - 234,24*x4.

Теперь застройщик может определить оценочную стоимость здания под офис в том же районе. Если это здание имеет площадь 2500 квадратных метров, три офиса, два входа и время эксплуатации - 25 лет, можно оценить его стоимость, используя следующую формулу:

y = 27,64*2500 + 12530*3 + 2553*2 - 234,24*25 + 52318 = 158 261 у.е.

В регрессионном анализе наиболее важными результатами являются:

  • коэффициенты при переменных и Y-пересечение, являющиеся искомыми параметрами модели;
  • множественный R, характеризующий точность модели для имеющихся исходных данных;
  • F-критерий Фишера (в рассмотренном примере он значительно превосходит критическое значение, равное 4,06);
  • t-статистика – величины, характеризующие степень значимости отдельных коэффициентов модели.

На t-статистике следует остановиться особо. Очень часто при построении регрессионной модели неизвестно, влияет тот или иной фактор x на y. Включение в модель факторов, которые не влияют на выходную величину, ухудшает качество модели. Вычисление t-статистики помогает обнаружить такие факторы. Приближенную оценку можно сделать так: если при n>>k величина t-статистики по абсолютному значению существенно больше трех, соответствующий коэффициент следует считать значимым, а фактор включить в модель, иначе исключить из модели. Таким образом, можно предложить технологию построения регрессионной модели, состоящую из двух этапов:

1) обработать пакетом "Регрессия " все имеющиеся данные, проанализировать значения t-статистики;

2) удалить из таблицы исходных данных столбцы с теми факторами, для которых коэффициенты незначимы и обработать пакетом "Регрессия " новую таблицу.

Вопросы:

4. Оценка параметров линейной модели множественной регрессии.

5. Оценка качества множественной линейной регрессии.

6. Анализ и прогнозирование на основе многофакторных моделей.

Множественная регрессия является обобщением парной регрессии. Она используется для описания зависимости между объясняемой (зависимой) переменой У и объясняющими (независимыми) переменными Х 1 ,Х 2 ,…,Х k . Множественная регрессия может быть как линейная, так и нелинейная, но наибольшее распространение в экономике получила линейная множественная регрессия.

Теоретическая линейная модель множественной регрессии имеет вид:

соответствующую выборочную регрессию обозначим:

Как и в парной регрессии случайный член ε должен удовлетворять основным предположениям регрессионного анализа. Тогда с помощью МНК получают наилучшие несмещенные и эффективные оценки параметров теоретической регрессии. Кроме того переменные Х 1 ,Х 2 ,…,Х k должны быть некоррелированы (линейно независимы) друг с другом. Для того, чтобы записать формулы для оценки коэффициентов регрессии (2), полученные на основе МНК, введем следующие обозначения:

Тогда можно записать в векторно-матричной форме теоретическую модель:

и выборочную регрессию

МНК приводит к следующей формуле для оценки вектора коэффициентов выборочной регрессии:

(3)

Для оценки коэффициентов множественной линейной регрессии с двумя независимыми переменными , можно решить систему уравнений:

(4)

Как и в парной линейной регрессии для множественной регрессии рассчитывается стандартная ошибка регрессии S:

(5)

и стандартные ошибки коэффициентов регрессии:

(6)

значимость коэффициентов проверяется с помощью t-критерия.

имеющего распространение Стьюдента с числом степеней свободы v= n-k-1.

Для оценки качества регрессии используется коэффициент (индекс) детерминации:

, (8)

чем ближе к 1, тем выше качество регрессии.

Для проверки значимости коэффициента детерминации используется критерий Фишера или F- статистика.



(9)

с v 1 =k, v 2 =n-k-1 степенями свободы.

В многофакторной регрессии добавление дополнительных объясняющих переменных увеличивает коэффициент детерминации. Для компенсации такого увеличения вводится скорректированный (или нормированный) коэффициент детерминации:

(10)

Если увеличение доли объясняемой регрессии при добавлении новой переменной мало, то может уменьшиться. Значит, добавлять новую переменную нецелесообразно.

Пример 4:

Пусть рассматривается зависимость прибыли предприятия от затрат на новое оборудование и технику и от затрат на повышение квалификации работников. Собраны статистические данные по 6 однотипным предприятиям. Данные в млн. ден. ед. приводятся в таблице 1.

Таблица 1

Построить двухфакторную линейную регрессию и оценить ее значимость. Введем обозначения:

Транспонируем матрицу Х:

Обращение этой матрицы:

таким образом зависимость прибыли от затрат на новое оборудование и технику и от затрат на повышение квалификации работников можно описать следующей регрессией:

Используя формулу (5), где k=2 рассчитаем стандартную ошибку регрессии S=0,636.

Стандартные ошибки коэффициентов регрессии рассчитаем, используя формулу (6):

Аналогично:

Проверим значимость коэффициентов регрессии а 1 , а 2 . посчитаем t расч.

Выберем уровень значимости , число степеней свободы

значит коэффициент а 1 значим.

Оценим значимость коэффициента а 2:

Коэффициент а 2 незначим.

Рассчитаем коэффициент детерминации по формуле (7) . Прибыль предприятия на 96% зависит от затрат на новое оборудование и технику и повышение квалификации на 4% от прочих и случайных факторов. Проверим значимость коэффициента детерминации. Рассчитаем F расч.:

т.о. коэффициент детерминации значим, уравнение регрессии значимо.

Большое значение в анализе на основе многофакторной регрессии имеет сравнение влияния факторов на зависимый показатель у. Коэффициенты регрессии для этой цели не используется, из-за различий единиц измерения и различной степени колеблемости. От этих недостатков свободные коэффициенты эластичности:

Эластичность показывает, на сколько процентов в среднем изменяется зависимый показатель у при изменении переменной на 1% при условии неизменности значений остальных переменных. Чем больше , тем больше влияние соответствующей переменной. Как и в парной регрессии для множественной регрессии различают точечный прогноз и интервальный прогноз. Точечный прогноз (число) получают при подстановке прогнозных значений независимых переменных в уравнение множественной регрессии. Обозначим через:

(12)

вектор прогнозных значений независимых переменных, тогда точечный прогноз

Стандартная ошибка предсказания в случае множественной регрессии определяется следующим образом:

(15)

Выберем уровень значимости α по таблице распределения Стьюдента. Для уровня значимости α и числа степеней свободы ν = n-k-1 найдем t кр. Тогда истинное значение у р с вероятностью 1- α попадает в интервал:


Тема 5:

Временные ряды.

Вопросы:

4. Основные понятия временных рядов.

5. Основная тенденция развития – тренд.

6. Построение аддитивной модели.

Временные ряды представляют собой совокупность значений какого-либо показателя за несколько последовательных моментов или периодов времени.

Момент (или период) времени обозначают t, а значение показателя в момент времени обозначают у(t) и называют уровнем ряда .

Каждый уровень временного ряды формируется под воздействием большого числа факторов, которые можно разделить на 3 группы:

Длительные, постоянно действующие факторы, оказывающие на изучаемое явление определяющее влияние и формирующие основную тенденцию ряда – тренд T(t).

Кратковременные периодические факторы, формирующие сезонные колебания ряда S(t).

Случайны факторы, которые формируют случайные изменения уровней ряда ε(t).

Аддитивной моделью временного ряда называется модель, в которой каждый уровень ряда представлен суммой тренда, сезонной и случайной компоненты:

Мультипликативная модель – это модель, в которой каждый уровень ряда представляет собой произведение перечисленных компонент:

Выбор одной из моделей осуществляется на основе анализа структуры сезонных колебаний. Если амплитуда колебаний примерно постоянна, то строят аддитивную модель. Если амплитуда возрастает, то мультипликативную модель.

Основная задача эконометрического анализа заключается в выявлении каждой из перечисленных компонент.

Основной тенденцией развития (трендом) называют плавное и устойчивое изменение уровней ряда во времени свободное от случайных и сезонных колебаний.

Задача выявления основных тенденций развития называется выравниванием временного ряда .

К методам выравнивания временного ряда относят:

1) метод укрупнения интервалов,

2) метод скользящей средней,

3) аналитическое выравнивание.

1) Укрупняются периоды времени, к которым относятся уровни ряда. Затем по укрупненным интервалам суммируются уровни ряда. Колебания в уровнях, обусловленные случайными причинами, взаимно погашаются. Более четко обнаружится общая тенденция.

2) Для определения числа первых уровней ряда рассчитывается средняя величина. Затем рассчитывается средняя из такого же количества уровней ряда, начиная со второго уровня и т.д. средняя величина скользит по ряду динамики, продвигаясь на 1 срок (момент времени). Число уровней ряда, по которому рассчитывается средняя, может быть четным и нечетным. Для нечетного скользящую среднюю относят к середине периода скольжения. Для четного периода нахождение среднего значения не сопоставляют с определением t, а применяют процедуру центрирования, т.е. вычисляют среднее из двух последовательных скользящих средних.

3) Построение аналитической функции, характеризующей зависимость уровня ряда от времени. Для построения трендов применяют следующие функции:

Параметры трендов определяются с помощью МНК. Выбор наилучшей функции осуществляется на основе коэффициента R 2 .

Построение аддитивной модели проведем на примере.

Пример 7:

Имеются поквартальные данные об объеме потребления электроэнергии в некотором районе за 4 года. Данные в млн. кВт в таблице 1.

Таблица 1

Построить модель временного ряда.

В этом примере в качестве независимой переменной рассматриваем номер квартала , а в качестве зависимой переменной y(t) потребление электроэнергии за квартал.

Из диаграммы рассеяния можно увидеть, что тенденция (тренд) носит линейный характер. Видно также наличие сезонных колебаний (период = 4) одинаковой амплитуды, поэтому будем строить аддитивную модель.

Построение модели включает следующие шаги:

1. Проведем выравнивание исходного ряда методом скользящей средней за 4 квартала и проведем центрирование:

1.1. Просуммируем уровни ряда последовательно за каждые 4 квартала со сдвигом на 1 момент времени.

1.2. Разделив полученные суммы на, 4 найдем скользящие средние.

1.3. Приводим эти значения в соответствие с фактическими моментами времени, для чего найдем среднее значение из двух последовательных скользящих средних – центрированные скользящие средние.

2. Рассчитаем сезонную вариацию. Сезонная вариация (t) = y(t) – центрированная скользящая средняя. Построим таблицу 2 .

Таблица 2

Сквозной № квартала t Потребление электроэнергии Y(t) Скользящая средняя за 4 квартала Центрированная скользящая средняя Оценка сезонной вариации
6,0 - - -
4,4 6,1 - -
5,0 6,4 6,25 -1,25
9,0 6,5 6,45 2,55
7,2 6,75 6,625 0,575
: : : : :
6,6 8,35 8,375 -1,775
7,0 - - -
10,8 - - -

3. На основе сезонной вариации в таблице 3 рассчитывается сезонная компонента.

Показатели Год Номер квартала в году I II III IV
- - -1,250 2,550
0,575 -2,075 -1,100 2,700
0,550 -2,025 -1,475 2,875
0,675 -1,775 - -
Итого 1,8 -5,875 -3,825 8,125 Сумма
Среднее 0,6 -1,958 -1,275 2,708 0,075
Сезонная компонента 0,581 -1,977 -1,294 2,690

4. Устраняем сезонную компоненту из исходных уровней ряда:

Вывод:

Аддитивная модель объясняет 98,4% общей вариации уровней исходного временного ряда.

Регрессионный анализ — это статистический метод исследования, позволяющий показать зависимость того или иного параметра от одной либо нескольких независимых переменных. В докомпьютерную эру его применение было достаточно затруднительно, особенно если речь шла о больших объемах данных. Сегодня, узнав как построить регрессию в Excel, можно решать сложные статистические задачи буквально за пару минут. Ниже представлены конкретные примеры из области экономики.

Виды регрессии

Само это понятие было введено в математику в 1886 году. Регрессия бывает:

  • линейной;
  • параболической;
  • степенной;
  • экспоненциальной;
  • гиперболической;
  • показательной;
  • логарифмической.

Пример 1

Рассмотрим задачу определения зависимости количества уволившихся членов коллектива от средней зарплаты на 6 промышленных предприятиях.

Задача. На шести предприятиях проанализировали среднемесячную заработную плату и количество сотрудников, которые уволились по собственному желанию. В табличной форме имеем:

Количество уволившихся

Зарплата

30000 рублей

35000 рублей

40000 рублей

45000 рублей

50000 рублей

55000 рублей

60000 рублей

Для задачи определения зависимости количества уволившихся работников от средней зарплаты на 6 предприятиях модель регрессии имеет вид уравнения Y = а 0 + а 1 x 1 +…+а k x k , где х i — влияющие переменные, a i — коэффициенты регрессии, a k — число факторов.

Для данной задачи Y — это показатель уволившихся сотрудников, а влияющий фактор — зарплата, которую обозначаем X.

Использование возможностей табличного процессора «Эксель»

Анализу регрессии в Excel должно предшествовать применение к имеющимся табличным данным встроенных функций. Однако для этих целей лучше воспользоваться очень полезной надстройкой «Пакет анализа». Для его активации нужно:

  • с вкладки «Файл» перейти в раздел «Параметры»;
  • в открывшемся окне выбрать строку «Надстройки»;
  • щелкнуть по кнопке «Перейти», расположенной внизу, справа от строки «Управление»;
  • поставить галочку рядом с названием «Пакет анализа» и подтвердить свои действия, нажав «Ок».

Если все сделано правильно, в правой части вкладки «Данные», расположенном над рабочим листом «Эксель», появится нужная кнопка.

в Excel

Теперь, когда под рукой есть все необходимые виртуальные инструменты для осуществления эконометрических расчетов, можем приступить к решению нашей задачи. Для этого:

  • щелкаем по кнопке «Анализ данных»;
  • в открывшемся окне нажимаем на кнопку «Регрессия»;
  • в появившуюся вкладку вводим диапазон значений для Y (количество уволившихся работников) и для X (их зарплаты);
  • подтверждаем свои действия нажатием кнопки «Ok».

В результате программа автоматически заполнит новый лист табличного процессора данными анализа регрессии. Обратите внимание! В Excel есть возможность самостоятельно задать место, которое вы предпочитаете для этой цели. Например, это может быть тот же лист, где находятся значения Y и X, или даже новая книга, специально предназначенная для хранения подобных данных.

Анализ результатов регрессии для R-квадрата

В Excel данные полученные в ходе обработки данных рассматриваемого примера имеют вид:

Прежде всего, следует обратить внимание на значение R-квадрата. Он представляет собой коэффициент детерминации. В данном примере R-квадрат = 0,755 (75,5%), т. е. расчетные параметры модели объясняют зависимость между рассматриваемыми параметрами на 75,5 %. Чем выше значение коэффициента детерминации, тем выбранная модель считается более применимой для конкретной задачи. Считается, что она корректно описывает реальную ситуацию при значении R-квадрата выше 0,8. Если R-квадрата<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Анализ коэффициентов

Число 64,1428 показывает, каким будет значение Y, если все переменные xi в рассматриваемой нами модели обнулятся. Иными словами можно утверждать, что на значение анализируемого параметра оказывают влияние и другие факторы, не описанные в конкретной модели.

Следующий коэффициент -0,16285, расположенный в ячейке B18, показывает весомость влияния переменной Х на Y. Это значит, что среднемесячная зарплата сотрудников в пределах рассматриваемой модели влияет на число уволившихся с весом -0,16285, т. е. степень ее влияния совсем небольшая. Знак «-» указывает на то, что коэффициент имеет отрицательное значение. Это очевидно, так как всем известно, что чем больше зарплата на предприятии, тем меньше людей выражают желание расторгнуть трудовой договор или увольняется.

Множественная регрессия

Под таким термином понимается уравнение связи с несколькими независимыми переменными вида:

y=f(x 1 +x 2 +…x m) + ε, где y — это результативный признак (зависимая переменная), а x 1 , x 2 , …x m — это признаки-факторы (независимые переменные).

Оценка параметров

Для множественной регрессии (МР) ее осуществляют, используя метод наименьших квадратов (МНК). Для линейных уравнений вида Y = a + b 1 x 1 +…+b m x m + ε строим систему нормальных уравнений (см. ниже)

Чтобы понять принцип метода, рассмотрим двухфакторный случай. Тогда имеем ситуацию, описываемую формулой

Отсюда получаем:

где σ — это дисперсия соответствующего признака, отраженного в индексе.

МНК применим к уравнению МР в стандартизируемом масштабе. В таком случае получаем уравнение:

в котором t y , t x 1, … t xm — стандартизируемые переменные, для которых средние значения равны 0; β i — стандартизированные коэффициенты регрессии, а среднеквадратическое отклонение — 1.

Обратите внимание, что все β i в данном случае заданы, как нормируемые и централизируемые, поэтому их сравнение между собой считается корректным и допустимым. Кроме того, принято осуществлять отсев факторов, отбрасывая те из них, у которых наименьшие значения βi.

Задача с использованием уравнения линейной регрессии

Предположим, имеется таблица динамики цены конкретного товара N в течение последних 8 месяцев. Необходимо принять решение о целесообразности приобретения его партии по цене 1850 руб./т.

номер месяца

название месяца

цена товара N

1750 рублей за тонну

1755 рублей за тонну

1767 рублей за тонну

1760 рублей за тонну

1770 рублей за тонну

1790 рублей за тонну

1810 рублей за тонну

1840 рублей за тонну

Для решения этой задачи в табличном процессоре «Эксель» требуется задействовать уже известный по представленному выше примеру инструмент «Анализ данных». Далее выбирают раздел «Регрессия» и задают параметры. Нужно помнить, что в поле «Входной интервал Y» должен вводиться диапазон значений для зависимой переменной (в данном случае цены на товар в конкретные месяцы года), а в «Входной интервал X» — для независимой (номер месяца). Подтверждаем действия нажатием «Ok». На новом листе (если так было указано) получаем данные для регрессии.

Строим по ним линейное уравнение вида y=ax+b, где в качестве параметров a и b выступают коэффициенты строки с наименованием номера месяца и коэффициенты и строки «Y-пересечение» из листа с результатами регрессионного анализа. Таким образом, линейное уравнение регрессии (УР) для задачи 3 записывается в виде:

Цена на товар N = 11,714* номер месяца + 1727,54.

или в алгебраических обозначениях

y = 11,714 x + 1727,54

Анализ результатов

Чтобы решить, адекватно ли полученное уравнения линейной регрессии, используются коэффициенты множественной корреляции (КМК) и детерминации, а также критерий Фишера и критерий Стьюдента. В таблице «Эксель» с результатами регрессии они выступают под названиями множественный R, R-квадрат, F-статистика и t-статистика соответственно.

КМК R дает возможность оценить тесноту вероятностной связи между независимой и зависимой переменными. Ее высокое значение свидетельствует о достаточно сильной связи между переменными «Номер месяца» и «Цена товара N в рублях за 1 тонну». Однако, характер этой связи остается неизвестным.

Квадрат коэффициента детерминации R 2 (RI) представляет собой числовую характеристику доли общего разброса и показывает, разброс какой части экспериментальных данных, т.е. значений зависимой переменной соответствует уравнению линейной регрессии. В рассматриваемой задаче эта величина равна 84,8%, т. е. статистические данные с высокой степенью точности описываются полученным УР.

F-статистика, называемая также критерием Фишера, используется для оценки значимости линейной зависимости, опровергая или подтверждая гипотезу о ее существовании.

(критерий Стьюдента) помогает оценивать значимость коэффициента при неизвестной либо свободного члена линейной зависимости. Если значение t-критерия > t кр, то гипотеза о незначимости свободного члена линейного уравнения отвергается.

В рассматриваемой задаче для свободного члена посредством инструментов «Эксель» было получено, что t=169,20903, а p=2,89Е-12, т. е. имеем нулевую вероятность того, что будет отвергнута верная гипотеза о незначимости свободного члена. Для коэффициента при неизвестной t=5,79405, а p=0,001158. Иными словами вероятность того, что будет отвергнута верная гипотеза о незначимости коэффициента при неизвестной, равна 0,12%.

Таким образом, можно утверждать, что полученное уравнение линейной регрессии адекватно.

Задача о целесообразности покупки пакета акций

Множественная регрессия в Excel выполняется с использованием все того же инструмента «Анализ данных». Рассмотрим конкретную прикладную задачу.

Руководство компания «NNN» должно принять решение о целесообразности покупки 20 % пакета акций АО «MMM». Стоимость пакета (СП) составляет 70 млн американских долларов. Специалистами «NNN» собраны данные об аналогичных сделках. Было принято решение оценивать стоимость пакета акций по таким параметрам, выраженным в миллионах американских долларов, как:

  • кредиторская задолженность (VK);
  • объем годового оборота (VO);
  • дебиторская задолженность (VD);
  • стоимость основных фондов (СОФ).

Кроме того, используется параметр задолженность предприятия по зарплате (V3 П) в тысячах американских долларов.

Решение средствами табличного процессора Excel

Прежде всего, необходимо составить таблицу исходных данных. Она имеет следующий вид:

  • вызывают окно «Анализ данных»;
  • выбирают раздел «Регрессия»;
  • в окошко «Входной интервал Y» вводят диапазон значений зависимых переменных из столбца G;
  • щелкают по иконке с красной стрелкой справа от окна «Входной интервал X» и выделяют на листе диапазон всех значений из столбцов B,C, D, F.

Отмечают пункт «Новый рабочий лист» и нажимают «Ok».

Получают анализ регрессии для данной задачи.

Изучение результатов и выводы

«Собираем» из округленных данных, представленных выше на листе табличного процессора Excel, уравнение регрессии:

СП = 0,103*СОФ + 0,541*VO - 0,031*VK +0,405*VD +0,691*VZP - 265,844.

В более привычном математическом виде его можно записать, как:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Данные для АО «MMM» представлены в таблице:

Подставив их в уравнение регрессии, получают цифру в 64,72 млн американских долларов. Это значит, что акции АО «MMM» не стоит приобретать, так как их стоимость в 70 млн американских долларов достаточно завышена.

Как видим, использование табличного процессора «Эксель» и уравнения регрессии позволило принять обоснованное решение относительно целесообразности вполне конкретной сделки.

Теперь вы знаете, что такое регрессия. Примеры в Excel, рассмотренные выше, помогут вам в решение практических задач из области эконометрики.