Пакет программ майкрософт, как эффективное средство эконометрического анализа. Основы анализа данных

Регрессионный анализ — это статистический метод исследования, позволяющий показать зависимость того или иного параметра от одной либо нескольких независимых переменных. В докомпьютерную эру его применение было достаточно затруднительно, особенно если речь шла о больших объемах данных. Сегодня, узнав как построить регрессию в Excel, можно решать сложные статистические задачи буквально за пару минут. Ниже представлены конкретные примеры из области экономики.

Виды регрессии

Само это понятие было введено в математику в 1886 году. Регрессия бывает:

  • линейной;
  • параболической;
  • степенной;
  • экспоненциальной;
  • гиперболической;
  • показательной;
  • логарифмической.

Пример 1

Рассмотрим задачу определения зависимости количества уволившихся членов коллектива от средней зарплаты на 6 промышленных предприятиях.

Задача. На шести предприятиях проанализировали среднемесячную заработную плату и количество сотрудников, которые уволились по собственному желанию. В табличной форме имеем:

Количество уволившихся

Зарплата

30000 рублей

35000 рублей

40000 рублей

45000 рублей

50000 рублей

55000 рублей

60000 рублей

Для задачи определения зависимости количества уволившихся работников от средней зарплаты на 6 предприятиях модель регрессии имеет вид уравнения Y = а 0 + а 1 x 1 +…+а k x k , где х i — влияющие переменные, a i — коэффициенты регрессии, a k — число факторов.

Для данной задачи Y — это показатель уволившихся сотрудников, а влияющий фактор — зарплата, которую обозначаем X.

Использование возможностей табличного процессора «Эксель»

Анализу регрессии в Excel должно предшествовать применение к имеющимся табличным данным встроенных функций. Однако для этих целей лучше воспользоваться очень полезной надстройкой «Пакет анализа». Для его активации нужно:

  • с вкладки «Файл» перейти в раздел «Параметры»;
  • в открывшемся окне выбрать строку «Надстройки»;
  • щелкнуть по кнопке «Перейти», расположенной внизу, справа от строки «Управление»;
  • поставить галочку рядом с названием «Пакет анализа» и подтвердить свои действия, нажав «Ок».

Если все сделано правильно, в правой части вкладки «Данные», расположенном над рабочим листом «Эксель», появится нужная кнопка.

в Excel

Теперь, когда под рукой есть все необходимые виртуальные инструменты для осуществления эконометрических расчетов, можем приступить к решению нашей задачи. Для этого:

  • щелкаем по кнопке «Анализ данных»;
  • в открывшемся окне нажимаем на кнопку «Регрессия»;
  • в появившуюся вкладку вводим диапазон значений для Y (количество уволившихся работников) и для X (их зарплаты);
  • подтверждаем свои действия нажатием кнопки «Ok».

В результате программа автоматически заполнит новый лист табличного процессора данными анализа регрессии. Обратите внимание! В Excel есть возможность самостоятельно задать место, которое вы предпочитаете для этой цели. Например, это может быть тот же лист, где находятся значения Y и X, или даже новая книга, специально предназначенная для хранения подобных данных.

Анализ результатов регрессии для R-квадрата

В Excel данные полученные в ходе обработки данных рассматриваемого примера имеют вид:

Прежде всего, следует обратить внимание на значение R-квадрата. Он представляет собой коэффициент детерминации. В данном примере R-квадрат = 0,755 (75,5%), т. е. расчетные параметры модели объясняют зависимость между рассматриваемыми параметрами на 75,5 %. Чем выше значение коэффициента детерминации, тем выбранная модель считается более применимой для конкретной задачи. Считается, что она корректно описывает реальную ситуацию при значении R-квадрата выше 0,8. Если R-квадрата<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Анализ коэффициентов

Число 64,1428 показывает, каким будет значение Y, если все переменные xi в рассматриваемой нами модели обнулятся. Иными словами можно утверждать, что на значение анализируемого параметра оказывают влияние и другие факторы, не описанные в конкретной модели.

Следующий коэффициент -0,16285, расположенный в ячейке B18, показывает весомость влияния переменной Х на Y. Это значит, что среднемесячная зарплата сотрудников в пределах рассматриваемой модели влияет на число уволившихся с весом -0,16285, т. е. степень ее влияния совсем небольшая. Знак «-» указывает на то, что коэффициент имеет отрицательное значение. Это очевидно, так как всем известно, что чем больше зарплата на предприятии, тем меньше людей выражают желание расторгнуть трудовой договор или увольняется.

Множественная регрессия

Под таким термином понимается уравнение связи с несколькими независимыми переменными вида:

y=f(x 1 +x 2 +…x m) + ε, где y — это результативный признак (зависимая переменная), а x 1 , x 2 , …x m — это признаки-факторы (независимые переменные).

Оценка параметров

Для множественной регрессии (МР) ее осуществляют, используя метод наименьших квадратов (МНК). Для линейных уравнений вида Y = a + b 1 x 1 +…+b m x m + ε строим систему нормальных уравнений (см. ниже)

Чтобы понять принцип метода, рассмотрим двухфакторный случай. Тогда имеем ситуацию, описываемую формулой

Отсюда получаем:

где σ — это дисперсия соответствующего признака, отраженного в индексе.

МНК применим к уравнению МР в стандартизируемом масштабе. В таком случае получаем уравнение:

в котором t y , t x 1, … t xm — стандартизируемые переменные, для которых средние значения равны 0; β i — стандартизированные коэффициенты регрессии, а среднеквадратическое отклонение — 1.

Обратите внимание, что все β i в данном случае заданы, как нормируемые и централизируемые, поэтому их сравнение между собой считается корректным и допустимым. Кроме того, принято осуществлять отсев факторов, отбрасывая те из них, у которых наименьшие значения βi.

Задача с использованием уравнения линейной регрессии

Предположим, имеется таблица динамики цены конкретного товара N в течение последних 8 месяцев. Необходимо принять решение о целесообразности приобретения его партии по цене 1850 руб./т.

номер месяца

название месяца

цена товара N

1750 рублей за тонну

1755 рублей за тонну

1767 рублей за тонну

1760 рублей за тонну

1770 рублей за тонну

1790 рублей за тонну

1810 рублей за тонну

1840 рублей за тонну

Для решения этой задачи в табличном процессоре «Эксель» требуется задействовать уже известный по представленному выше примеру инструмент «Анализ данных». Далее выбирают раздел «Регрессия» и задают параметры. Нужно помнить, что в поле «Входной интервал Y» должен вводиться диапазон значений для зависимой переменной (в данном случае цены на товар в конкретные месяцы года), а в «Входной интервал X» — для независимой (номер месяца). Подтверждаем действия нажатием «Ok». На новом листе (если так было указано) получаем данные для регрессии.

Строим по ним линейное уравнение вида y=ax+b, где в качестве параметров a и b выступают коэффициенты строки с наименованием номера месяца и коэффициенты и строки «Y-пересечение» из листа с результатами регрессионного анализа. Таким образом, линейное уравнение регрессии (УР) для задачи 3 записывается в виде:

Цена на товар N = 11,714* номер месяца + 1727,54.

или в алгебраических обозначениях

y = 11,714 x + 1727,54

Анализ результатов

Чтобы решить, адекватно ли полученное уравнения линейной регрессии, используются коэффициенты множественной корреляции (КМК) и детерминации, а также критерий Фишера и критерий Стьюдента. В таблице «Эксель» с результатами регрессии они выступают под названиями множественный R, R-квадрат, F-статистика и t-статистика соответственно.

КМК R дает возможность оценить тесноту вероятностной связи между независимой и зависимой переменными. Ее высокое значение свидетельствует о достаточно сильной связи между переменными «Номер месяца» и «Цена товара N в рублях за 1 тонну». Однако, характер этой связи остается неизвестным.

Квадрат коэффициента детерминации R 2 (RI) представляет собой числовую характеристику доли общего разброса и показывает, разброс какой части экспериментальных данных, т.е. значений зависимой переменной соответствует уравнению линейной регрессии. В рассматриваемой задаче эта величина равна 84,8%, т. е. статистические данные с высокой степенью точности описываются полученным УР.

F-статистика, называемая также критерием Фишера, используется для оценки значимости линейной зависимости, опровергая или подтверждая гипотезу о ее существовании.

(критерий Стьюдента) помогает оценивать значимость коэффициента при неизвестной либо свободного члена линейной зависимости. Если значение t-критерия > t кр, то гипотеза о незначимости свободного члена линейного уравнения отвергается.

В рассматриваемой задаче для свободного члена посредством инструментов «Эксель» было получено, что t=169,20903, а p=2,89Е-12, т. е. имеем нулевую вероятность того, что будет отвергнута верная гипотеза о незначимости свободного члена. Для коэффициента при неизвестной t=5,79405, а p=0,001158. Иными словами вероятность того, что будет отвергнута верная гипотеза о незначимости коэффициента при неизвестной, равна 0,12%.

Таким образом, можно утверждать, что полученное уравнение линейной регрессии адекватно.

Задача о целесообразности покупки пакета акций

Множественная регрессия в Excel выполняется с использованием все того же инструмента «Анализ данных». Рассмотрим конкретную прикладную задачу.

Руководство компания «NNN» должно принять решение о целесообразности покупки 20 % пакета акций АО «MMM». Стоимость пакета (СП) составляет 70 млн американских долларов. Специалистами «NNN» собраны данные об аналогичных сделках. Было принято решение оценивать стоимость пакета акций по таким параметрам, выраженным в миллионах американских долларов, как:

  • кредиторская задолженность (VK);
  • объем годового оборота (VO);
  • дебиторская задолженность (VD);
  • стоимость основных фондов (СОФ).

Кроме того, используется параметр задолженность предприятия по зарплате (V3 П) в тысячах американских долларов.

Решение средствами табличного процессора Excel

Прежде всего, необходимо составить таблицу исходных данных. Она имеет следующий вид:

  • вызывают окно «Анализ данных»;
  • выбирают раздел «Регрессия»;
  • в окошко «Входной интервал Y» вводят диапазон значений зависимых переменных из столбца G;
  • щелкают по иконке с красной стрелкой справа от окна «Входной интервал X» и выделяют на листе диапазон всех значений из столбцов B,C, D, F.

Отмечают пункт «Новый рабочий лист» и нажимают «Ok».

Получают анализ регрессии для данной задачи.

Изучение результатов и выводы

«Собираем» из округленных данных, представленных выше на листе табличного процессора Excel, уравнение регрессии:

СП = 0,103*СОФ + 0,541*VO - 0,031*VK +0,405*VD +0,691*VZP - 265,844.

В более привычном математическом виде его можно записать, как:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Данные для АО «MMM» представлены в таблице:

Подставив их в уравнение регрессии, получают цифру в 64,72 млн американских долларов. Это значит, что акции АО «MMM» не стоит приобретать, так как их стоимость в 70 млн американских долларов достаточно завышена.

Как видим, использование табличного процессора «Эксель» и уравнения регрессии позволило принять обоснованное решение относительно целесообразности вполне конкретной сделки.

Теперь вы знаете, что такое регрессия. Примеры в Excel, рассмотренные выше, помогут вам в решение практических задач из области эконометрики.

Коэффициент обладает следующими свойствами:

1) не имеет размерности, следовательно, сопоставим для величин различных порядков;

2) изменяется в диапазоне от –1 до +1. Положительное значение свидетельствует о прямой линейной связи, отрицательное – об обратной. Чем ближе абсолютное значение коэффициента к единице, тем теснее связь. Считается, что связь достаточно сильная, если коэффициент по абсолютной величине превышает 0,7, и слабая, если он менее 0,3.

Значение коэффициента легко вычисляется при помощи MS Excel (функция КОРРЕЛ).

Величина r 2 называется коэффициентом детерминации . Он определяет долю вариации одной из переменных, которая объясняется вариацией другой переменной.

6. Коэффициент множественной корреляции

Экономические явления чаще всего адекватно описываются именно многофакторными моделями. Поэтому возникает необходимость обобщить рассмотренное выше корреляционное отношение (6.4) на случай нескольких переменных.

Теснота линейной взаимосвязи между переменной y и рядом переменных x j , рассматриваемых в целом, может быть определена с помощью коэффициента множественной корреляции .

Предположим, что переменная y испытывает влияние двух переменных - x и z . В этом случае коэффициент множественной корреляции может быть определен по формуле:

. (6.9)

где r yx , r yz , r xz - простые коэффициенты линейной парной корреляции, определенные из соотношения (6.4).

Коэффициент множественной корреляции заключен в пределах 0 ≤ R ≤ 1. Он не меньше, чем абсолютная величина любого парного или частного коэффициента корреляции с таким же первичным индексом.

С помощью множественного коэффициента (по мере приближения R к 1) делается вывод о тесноте взаимосвязи, но не о ее направлении. Величина R 2 , называемая множественным коэффициентом детерминации , показывает, какую долю вариации исследуемой переменной (y ) объясняет вариация остальных учтенных переменных (x , z ).

7. Коэффициент частной корреляции

Иногда представляет интерес измерение частных зависимостей (между y и x j ) при условии, что воздействие других факторов, принимаемых во внимание, устранено. В качестве соответствующих измерителей приняты коэффициенты частной корреляции .

Рассмотрим порядок расчета коэффициента частной корреляции для случая, когда во взаимосвязи находятся три случайные переменные – x , y , z . Для них могут быть получены простые коэффициенты линейной парной корреляции – r yx , r yz , r xz . Однако большая величина этого коэффициента может быть обусловлена не только тем, что y и x действительно связаны между собой, но и в силу того, что обе переменные испытывают сильное действие третьего фактора – z .

Коэффициент частной корреляции отличается от простого коэффициента линейной парной корреляции тем, что он измеряет парную корреляцию соответствующих признаков (y и x ) при условии, что влияние на них третьего фактора (z ) устранено.

Соответствующая расчетная формула:

. (6.10)

Частный коэффициент корреляции, так же как и парный коэффициент корреляции r (рассчитанный по формуле (6.4)), может принимать значения от -1 до 1.

ВЫВОД ИТОГОВ

Таблица 8.3а. Регрессионная статистика
Регрессионная статистика
Множественный R 0,998364
R-квадрат 0,99673
Нормированный R-квадрат 0,996321
Стандартная ошибка 0,42405
Наблюдения 10

Сначала рассмотрим верхнюю часть расчетов, представленную в таблице 8.3а , - регрессионную статистику.

Величина R-квадрат , называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). Мера определенности всегда находится в пределах интервала .

В большинстве случаев значение R-квадрат находится между этими значениями, называемыми экстремальными, т.е. между нулем и единицей.

Если значение R-квадрата близко к единице, это означает, что построенная модель объясняет почти всю изменчивость соответствующих переменных. И наоборот, значение R-квадрата , близкое к нулю, означает плохое качество построенной модели.

В нашем примере мера определенности равна 0,99673, что говорит об очень хорошей подгонке регрессионной прямой к исходным данным.

Множественный R - коэффициент множественной корреляции R - выражает степень зависимости независимых переменных (X) и зависимой переменной (Y).

Множественный R равен квадратному корню из коэффициента детерминации, эта величина принимает значения в интервале от нуля до единицы.

В простом линейном регрессионном анализе множественный R равен коэффициенту корреляции Пирсона. Действительно, множественный R в нашем случае равен коэффициенту корреляции Пирсона из предыдущего примера (0,998364).

Таблица 8.3б. Коэффициенты регрессии
Коэффициенты Стандартная ошибка t-статистика
Y-пересечение 2,694545455 0,33176878 8,121757129
Переменная X 1 2,305454545 0,04668634 49,38177965
* Приведен усеченный вариант расчетов

Теперь рассмотрим среднюю часть расчетов, представленную в таблице 8.3б . Здесь даны коэффициент регрессии b (2,305454545) и смещение по оси ординат, т.е. константа a (2,694545455).

Исходя из расчетов, можем записать уравнение регрессии таким образом:

Y= x*2,305454545+2,694545455

Направление связи между переменными определяется на основании знаков (отрицательный или положительный) коэффициентов регрессии (коэффициента b).

Если знак при коэффициенте регрессии - положительный, связь зависимой переменной с независимой будет положительной. В нашем случае знак коэффициента регрессии положительный, следовательно, связь также является положительной.

Если знак при коэффициенте регрессии - отрицательный, связь зависимой переменной с независимой является отрицательной (обратной).

В таблице 8.3в . представлены результаты вывода остатков . Для того чтобы эти результаты появились в отчете, необходимо при запуске инструмента "Регрессия" активировать чекбокс "Остатки".

ВЫВОД ОСТАТКА

Таблица 8.3в. Остатки
Наблюдение Предсказанное Y Остатки Стандартные остатки
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

При помощи этой части отчета мы можем видеть отклонения каждой точки от построенной линии регрессии. Наибольшее абсолютное значение

Министерство образования и науки российской федерации

Федеральное государственное автономное образовательное учреждение высшего профессионального образования

Дальневосточный федеральный университет

Школа экономики и менеджмента

Кафедра бизнес-информатики и экономико-математических методов

ЛАБОРАТОРНАЯ РАБОТА

по дисциплине «Имитационное моделирование»

Специальность 080801.65 «Прикладная информатика (в экономике)»

РЕГРЕССИОННЫЙ АНАЛИЗ

Рудакова

Ульяна Анатольевна

г. Владивосток

ОТЧЕТ

Задание: рассмотреть процедуру регрессионного анализа на основе данных (цена продажи и жилая площадь) о 23 объектах недвижимости.

Режим работы "Регрессия" служит для расчета параметров уравнения линейной регрессии и проверки его адекватности исследуемому процессу.

Для решения задачи регрессионного анализа в MS Excel выбираем в меню Сервис команду Анализ данных и инструмент анализа "Регрессия ".

В появившемся диалоговом окне задаем следующие параметры:

1. Входной интервал Y - это диапазон данных по результативному признаку. Он должен состоять из одного столбца.

2. Входной интервал X - это диапазон ячеек, содержащих значения факторов (независимых переменных). Число входных диапазонов (столбцов) должно быть не больше 16.

.Флажок Метки , устанавливается втом случае, если в первой строке диапазона стоит заголовок.

5. Константа ноль. Данный флажок необходимо установить, если линия регрессии должна пройти через начало координат (а0=0).

6. Выходной интервал/ Новый рабочий лист/ Новая рабочая книга - указать адрес верхней левой ячейки выходного диапазона.

.Флажки в группе Остатки устанавливаются, если необходимо включить в выходной диапазон соответствующие столбцы или графики.

.Флажок График нормальной вероятности необходимо сделать активным, если требуется вывести на лист точечный график зависимости наблюдаемых значений Y от автоматически формируемых интервалов персентилей.

После нажатия кнопки ОК в выходном диапазоне получаем отчет.

С помощью набора средств анализа данных выполним регрессионный анализ исходных данных.

Инструмент анализа "Регрессия" применяется для подбора параметров уравнения регрессии с помощью метода наименьших квадратов. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или нескольких независимых переменных.

ТАБЛИЦА РЕГРЕССИОННАЯ СТАТИСТИКА

Величина множественный R - это корень из коэффициента детерминации (R-квадрат). Также его называют индексом корреляции или множественным коэффициентом корреляции. Выражает степень зависимости независимых переменных (X1, X2) и зависимой переменной (Y) и равен квадратному корню из коэффициента детерминации, эта величина принимает значения в интервале от нуля до единицы. В нашем случае он равен 0,7, что говорит о существенной связи между переменными.

Величина R-квадрат (коэффициент детерминации) , называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). Мера определенности всегда находится в пределах интервала .

В нашем случае величина R-квадрат равна 0,48 , т.е. почти 50%, что говорит о слабой подгонке регрессионной прямой к исходным данным.Т.к. найденная величина R-квадрат = 48%<75%, то, следовательно, также можно сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. Таким образом, модель объясняет всего 48% вариации цены, что говорит о недостаточности выбранных факторов, либо о недостаточном объеме выборки.

Нормированный R-квадрат - это тот же коэффициент детерминации, но скорректированный на величину выборки.

Норм.R-квадрат=1-(1-R-квадрат)*((n-1)/(n-k)),

регрессионный анализ линейный уравнение

где n - число наблюдений; k - число параметров. Нормированный R-квадрат предпочтительнее использовать в случае добавления новых регрессоров (факторов), т.к. при их увеличении будет также увеличиваться значение R-квадрат, однако это не будет свидетельствовать об улучшении модели. Так как в нашем случае полученная величина равна 0,43 (что отличается от R-квадрат всего на 0,05), то можно говорить о высоком доверии коэффициенту R-квадрат.

Стандартная ошибка показывает качество аппроксимации (приближения) результатов наблюдений. В нашем случае ошибка равна 5,1. Рассчитаем в процентах: 5,1/(57,4-40,1)=0,294 ≈ 29% (Модель считается лучше, когда стандартная ошибка составляет <30%)

Наблюдения - указывается число наблюдаемых значений (23).

ТАБЛИЦА ДИСПЕРСИОННЫЙ АНАЛИЗ

Для получения уравнения регрессии определяется -статистика - характеристика точности уравнения регрессии, представляющая собой отношение той части дисперсии зависимой переменной которая объяснена уравнением регрессии к необъясненной (остаточной) части дисперсии.

В столбце df - приводится число степеней свободы k.

Для остатка это величина, равная n-(m+1), т.е. число исходных точек (23) минус число коэффициентов (2) и минус свободный член (1).

В столбце SS - суммы квадратов отклонений от среднего значения результирующего признака. В нем представлены:

Регрессионная сумма квадратов отклонений от среднего значения результирующего признака теоретических значений, рассчитанных по регрессионному уравнению.

Остаточная сумма отклонений исходных значений от теоретических значений.

Общая сумма квадратов отклонений исходных значений от результирующего признака.

Чем больше регрессионная сумма квадратов отклонений (или чем меньше остаточная сумма), тем лучше регрессионное уравнение аппроксимирует облако исходных точек. В нашем случае остаточная сумма составляет около 50%. Следовательно, уравнение регрессии очень слабо аппроксимирует облако исходных точек.

В столбце MS - несмещенные выборочные дисперсии, регрессионная и остаточная.

В столбце F вычислено значение критериальной статистики для проверки значимости уравнения регрессии.

Для осуществления статистической проверки значимости уравнения регрессии формулируется нулевая гипотеза об отсутствии связи между переменными (все коэффициенты при переменных равны нулю) и выбирается уровень значимости.

Уровень значимости - это допустимая вероятность совершить ошибку первого рода - отвергнуть в результате проверки верную нулевую гипотезу. В рассматриваемом случае совершить ошибку первого рода означает признать по выборке наличие связи между переменными в генеральной совокупности, когда на самом деле ее там нет. Обычно уровень значимости принимается равным 5%. Сравнивая полученное значение = 9,4 с табличным значением = 3,5 (число степеней свободы 2 и 20 соответственно) можно говорить о том, что уравнение регрессии значимо (F>Fкр).

В столбце значимость F вычисляется вероятность полученного значения критериальной статистике. Так как в нашем случае это значение = 0,00123, что меньше 0,05 то можно говорить о том, что уравнение регрессии (зависимость) значимо с вероятностью 95%.

Два выше описанных столба показывают надежность модели в целом.

Следующая таблица содержит коэффициенты для регрессоров и их оценки.

Строка Y-пересечение не связана ни с каким регрессором, это свободный коэффициент.

В столбце коэффициенты записаны значения коэффициентов уравнения регрессии. Таким образом, получилось уравнение:

Y=25,6+0,009X1+0,346X2

Регрессионное уравнение должно проходить через центр облака исходных точек: 13,02≤M(b)≤38,26

Далее сравниваем попарно значения столбцов Коэффициенты и Стандартная ошибка. Видно, что в нашем случае, все абсолютные значения коэффициентов превосходят значения стандартных ошибок. Это может свидетельствовать о значимости регрессоров, однако, это грубый анализ. Столбец t-статистика содержит более точную оценку значимости коэффициентов.

В столбце t-статистика содержатся значения t-критерия, рассчитанные по формуле:

t=(Коэффициент)/(Стандартная ошибка)


n-(k+1)=23-(2+1)=20

По таблице Стьюдента находим значение tтабл=2,086. Сравнивая

t с tтабл получаем, что коэффициент регрессора X2 незначим.

Столбец p-значение представляет вероятность того, что критическое значение статистики используемого критерия (статистики Стьюдента) превысит значение, вычисленное по выборке. В данном случае сравниваем p-значения с выбранным уровнем значимости (0.05). Видно, что незначимым можно считать только коэффициент регрессора X2=0.08>0,05

В столбцах нижние 95% и верхние 95% приводятся границы доверительных интервалов с надежностью 95%. Для каждого коэффициента свои границы: Коэффициент tтабл*Стандартная ошибка

Доверительные интервалы строятся только для статистически значимых величин.

ТАБЛИЦА ВЫВОД ОСТАТКА

Остаток - это отклонение отдельной точки (наблюдения) от линии регрессии (предсказанного значения).

Предположение о нормальности остатков допускает, что распределение разницы предсказанных и наблюдаемых значений является нормальным. Для визуального определения характера распределения включаем функцию график остатков .

На графиках остатков отображаются разности между исходными значениями Y и вычисленными по функции регрессии для каждого значения компонента переменной X1 и X2. Он применяется для определения, является ли приемлемой используемая аппроксимирующая прямая.

График подбора может быть использован для получения наглядного представления о линии регрессии.

Стандартные остатки - нормированные остатки на оценку их стандартного отклонения.

При изучении сложных явлений необходимо учитывать более двух случайных факторов. Правильное представление о природе связи между этими факторами можно получить только в том случае, если подвергнуть исследованию сразу все рассматриваемые случайные факторы. Совместное изучение трех и более случайных факторов позволит исследователю установить более или менее обоснованные предположения о причинных зависимостях между изучаемыми явлениями. Простой формой множественной связи является ли­нейная зависимость между тремя признаками. Случайные факторы обозначаются как X 1 , X 2 и X 3 . Парный коэффициенты корреляции между X 1 и X 2 обозначается как r 12 , соответственно между X 1 и X 3 - r 12 , между X 2 и X 3 - r 23 . В качестве меры тесноты линей­ной связи трех признаков используют множественные ко­эф-фициенты корреляции, обозначаемые R 1 ּ 23 , R 2 ּ 13 , R 3 ּ 12 и частные коэффициенты корреляции, обозначаемые r 12.3 , r 13.2 , r 23.1 .

Множественный коэффициент корреляции R 1.23 трех факторов - это показатель тесноты линейной свя­зи между одним из факторов (индекс перед точкой) и совокупностью двух других факторов (индексы после точ­ки).

Значения коэффициента R всегда находятся в преде­лах от 0 до 1. При приближении R к единице степень линейной связи трех признаков увеличивается.

Между коэффициентом множественной корреляции, например R 2 ּ 13 , и двумя коэффициентами парной корреляции r 12 и r 23 существует соот­ношение: каждый из парных коэффициентов не может превы­шать по абсолютной величине R 2 ּ 13 .

Формулы для вычисления множественных коэффициентов корреляции при известных значениях коэффициен­тов парной корреляции r 12 , r 13 и r 23 имеют вид:

Квадрат коэффициента множественной корреляции R 2 назы­вается коэффициентом множественной детерминации. Он пока­зывает долю вариации зависимой переменной под воздействием изучаемых факторов.

Значимость множественной корреляции оценивается по F -критерию:

n – объем выборки; k – число факторов. В нашем случае k = 3.

нулевая гипотеза о равенстве множественного коэффициента корреляции в совокупности нулю (h o :r =0)принимается, если f ф <f t , и отвергается, если
f ф ³ f т.

теоретическое значение f -критерия определяется для v 1 = k - 1 и v 2 = n - k степеней свободы и принятого уровня значимости a (при­ложение 1).

Пример вычисления коэффициента множественной корреляции . При изучении взаимосвязи между факторами были получены коэффициенты парной корреляции (n =15): r 12 ==0,6; г 13 = 0,3; r 23 = - 0,2.

Необходимо выяснить зависимость признака X 2 от признака X 1 и X 3 , т. е. рассчитать коэффициент множественной кор­реляции:

Табличное значение F -критерия при n 1 = 2 и n 2 = 15 – 3 = 12 степенях свободы при a = 0,05 F 0,05 = 3,89 и при a = 0,01 F 0,01 = 6,93.

Таким образом, взаимосвязь между признаками R 2.13 = 0,74 значима на
1%-ном уровне значимости F ф > F 0,01 .

Судя по коэффициенту множественной детерминации R 2 = (0,74) 2 = 0,55, вариация признака X 2 на 55% связана с действием изучаемых факторов, а 45% вариации (1-R 2) не может быть объяснено влиянием этих переменных.

Частная линейная корреляция

Частный коэффициент корреляции - это показа­тель, измеряющий степень сопряженности двух признаков.

Математическая статистика позволяет установить корреля­цию между двумя признаками при постоянном значении третье­го, не ставя специального эксперимента, а используя парные ко­эффициенты корреляции r 12 , r 13 , r 23 .

Частные коэффициенты корреляции рассчитывают по формулам:

Цифры перед точкой указывают, между ка­кими признаками изучается зависимость, а цифра после точки - влияние какого признака исключается (элиминируется). Ошиб­ку и критерий значимости частной корреляции определяют по тем же формулам, что и парной корреляции:

.

Теоретическое значение t- критерия определяется для v = n – 2 степеней свободы и принятого уровня значимости a (при­ложение 1).

Нулевая гипотеза о равенстве частного коэффициента корреляции в совокупности нулю (H o : r = 0)принимается, если t ф < t т, и отвергается, если
t ф ³ t т.

Частные коэф­фициенты могут принимать значения, заключенные между -1 и+1. Частные коэффициенты детерминации находят путем возве­дения в квадрат частных коэффициентов корреляции:

D 12.3 = r 2 12ּ3 ; d 13.2 = r 2 13ּ2 ; d 23ּ1 = r 2 23ּ1 .

Определение степени частного воздействия отдельных факторов на результативный признак при исключении (элимини­ровании) связи его с другими признаками, искажающими эту корреляцию, часто представляет большой интерес. Иногда бывает, что при постоянном значении элиминируемого признака нельзя подметить его статистического влияния на изменчивость других признаков. Чтобы уяснить технику расчета частного коэффици­ента корреляции, рассмотрим пример. Имеются три параметра X , Y и Z . Для объема выборки n = 180 определены парные коэффициенты корреляции

r xy = 0,799; r xz = 0,57; r yz = 0,507.

Определим частные ко­эффициенты корреляции:

Частный коэффициент корреляции между параметром X и Y Z (r хуּz = 0,720) показывает, что лишь незначительная часть взаимосвязи этих признаков в общей корреляции (r xy = 0,799) обусловлена влиянием третьего признака (Z ). Аналогичное заключение необходимо сделать и в отношении частного коэффициента корреляции между параметром X и параметром Z с постоянным значением параметраY (r х z ּу = 0,318 и r xz = 0,57). Напротив, частный коэффициент корреляции между параметрами Y и Z с постоянным значением параметра X r yz ּx = 0,105 значительно от­личается от общего коэффициента корреляции r у z = 0,507. Из это­го видно, что если подобрать объекты с одинаковым значением параметра X , то связь между признаками Y и Z у них будет очень слабой, так как значительная часть в этой взаимосвязи обуслов­лена варьированием параметра X .

При некоторых обстоятельствах частный коэффициент корре­ляции может оказаться противоположным по знаку парному.

Например, при изучении взаимосвязи между признаками X, У и Z - были получены парные коэффициенты корреляции (при n = 100): r ху = 0,6; r х z = 0,9;
r у z = 0,4.

Частные коэффициенты корреляции при исключении влияния третьего признака:

Из примера видно, что значения парного коэффициента и частного коэффициента корреляции разнятся в знаке.

Метод частной корреляции дает возможность вычислить частный коэффициент корреляции второго порядка. Этот коэф­фициент указывает на взаимосвязь между первым и вторым признаком при постоянном значении третьего и четвертого. Оп­ределение частного коэффициента второго порядка ведут на ос­нове частных коэффициентов первого порядка по формуле:

где r 12 . 4 , r 13 ּ4 , r 23 ּ4 - частные коэффициенты, значение кото­рых определяют по формуле частного коэффициента, используя коэффициенты парной корреляции r 12 , r 13 , r 14 , r 23 , r 24 , r 34 .