Проверка гипотезы о равенстве среднего генеральной совокупности некоторому заданному значению. Проверка статистических гипотез в MS EXCEL о равенстве среднего значения распределения (дисперсия неизвестна)

5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный интервал для разности средних. Парные выборки 6-3. Гипотеза о равенстве дисперсий 6-4. Гипотеза о равенстве долей 6-5. Доверительный интервал для разности долей


2 Иванов О.В., 2005 В этой лекции… В предыдущей лекции мы проверяли гипотезу о равенстве средних двух генеральных совокупностей и построили доверительный интервал для разности средних для случая независимых выборок. Теперь мы рассмотрим критерий проверки гипотезы о равенстве средних и построим доверительный интервал для разности средних в случае парных (зависимых) выборок. Затем в секции 6-3 будет проверяться гипотеза о равенстве дисперсий, в секции 6-4 – гипотеза о равенстве долей. В заключение мы построим доверительный интервал для разности долей.


5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г Гипотеза о равенстве средних. Парные выборки Постановка проблемы Гипотезы и статистика Последовательность действий Пример


4 Иванов О.В., 2005 Парные выборки. Описание проблемы Что мы имеем 1. Две простые случайные выборки, полученные из двух генеральных совокупностей. Выборки являются парными (зависимыми). 2. Обе выборки имеют объем n 30. Если нет, то обе выборки взяты из нормально распределенных генеральных совокупностей. Что мы хотим Проверить гипотезу о разности средних двух генеральных совокупностей:


5 Иванов О.В., 2005 Статистика для парных выборок Для проверки гипотезы используется статистика: где - разность между двумя значениями в одной паре - генеральное среднее для парных разностей - выборочное среднее для парных разностей - стандартное отклонение разностей для выборки - число пар


6 Иванов О.В., 2005 Пример. Тренинг студентов Группа из 15 студентов прошла тест до тренинга и после. Результаты теста в таблице. Проверим гипотезу для парных выборок на отсутствие влияния тренинга на подготовку студентов на уровне значимости 0,05. Решение. Подсчитаем разности и их квадраты. СтудентДоПосле Σ= 21 Σ= 145


7 Иванов О.В., 2005 Решение Шаг 1. Основная и альтернативная гипотезы: Шаг 2. Задан уровень значимости =0,05. Шаг 3. По таблице для df = 15 – 1=14 находим критическое значение t = 2,145 и записываем критическую область: t > 2,145. 2,145."> 2,145."> 2,145." title="7 Иванов О.В., 2005 Решение Шаг 1. Основная и альтернативная гипотезы: Шаг 2. Задан уровень значимости =0,05. Шаг 3. По таблице для df = 15 – 1=14 находим критическое значение t = 2,145 и записываем критическую область: t > 2,145."> title="7 Иванов О.В., 2005 Решение Шаг 1. Основная и альтернативная гипотезы: Шаг 2. Задан уровень значимости =0,05. Шаг 3. По таблице для df = 15 – 1=14 находим критическое значение t = 2,145 и записываем критическую область: t > 2,145.">




9 Иванов О.В., 2005 Решение Статистика принимает значение: Шаг 5. Сравним полученное значение с критической областью. 1,889


5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г Доверительный интервал для разности средних. Парные выборки Постановка задачи Метод построения доверительного интервала Пример


11 Иванов О.В., 2005 Описание проблемы Что мы имеем Имеем две случайные парные (зависимые) выборки объема n из двух генеральных совокупностей. Генеральные совокупности имеют нормальный закон распределения с параметрами 1, 1 и 2, 2 либо объемы обеих выборок 30. Что мы хотим Оценить среднее значение парных разностей для двух генеральных совокупностей. Для этого построить доверительный интервал для среднего в виде:






5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г Гипотеза о равенстве дисперсий Постановка проблемы Гипотезы и статистика Последовательность действий Пример


15 Иванов О.В., 2005 В ходе исследования… Исследователю может понадобиться проверить предположение, о равенстве дисперсий двух изучаемых генеральных совокупностей. В случае, когда эти генеральные совокупности имеют нормальное распределение, для этого существует F-критерий, называемый также критерием Фишера. В отличие от Стьюдента, Фишер не работал на пивном заводе.


16 Иванов О.В., 2005 Описание проблемы Что мы имеем 1. Две простые случайные выборки, полученные из двух нормально распределенных генеральных совокупностей. 2. Выборки являются независимыми. Это значит, что между субъектами выборок нет связи. Что мы хотим Проверить гипотезу о равенстве дисперсий генеральных совокупностей:














23 Иванов О.В., 2005 Пример Исследователь-медик хочет проверить, есть ли различие между частотой биения сердца курящих и некурящих пациентов (кол-во ударов в минуту). Результаты двух случайно отобранных групп приведены ниже. Используя α = 0,05, выясните, прав ли медик. КурящиеНе курящие


24 Иванов О.В., 2005 Решение Шаг 1. Основная и альтернативная гипотезы: Шаг 2. Задан уровень значимости =0,05. Шаг 3. По таблице для количества степеней свободы числителя 25 и знаменателя 17 находим критическое значение f = 2,19 и критическую область: f > 2,19. Шаг 4. По выборке вычисляем значение статистики: 2,19. Шаг 4. По выборке вычисляем значение статистики:">




5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г Гипотеза о равенстве долей Постановка проблемы Гипотезы и статистика Последовательность действий Пример


27 Иванов О.В., 2005 Вопрос Из 100 случайно отобранных студентов социологического факультета 43 посещают спецкурсы. Из 200 случайно отобранных студентов-экономистов 90 посещают спецкурсы. Отличается ли доля студентов, посещающих спецкурсы, на социологическом и экономическом факультетах? Похоже, что существенно не отличается. Как это проверить? Доля посещающих спецкурсы – доля признака. 43 – количество «успехов». 43/100 – доля успехов. Терминология такая же, как в схеме Бернулли.


28 Иванов О.В., 2005 Описание проблемы Что мы имеем 1. Две простые случайные выборки, полученные из двух нормально распределенных генеральных совокупностей. Выборки являются независимыми. 2. Для выборок выполнено np 5 и nq 5. Это означает, что, по крайней мере, 5 элементов выборки имеют изучаемое значение признака, и, по крайней мере, 5 не имеют. Что мы хотим Проверить гипотезу о равенстве долей признака в двух генеральных совокупностях:






31 Иванов О.В., 2005 Пример. Спецкурсы двух факультетов Из 100 случайно отобранных студентов социологического факультета 43 посещают спецкурсы. Из 200 студентов-экономистов 90 человек посещают спецкурсы. На уровне значимости = 0,05, проверьте гипотезу о том, что нет различия между долей посещающих спецкурсы на двух этих факультетах. 33 Иванов О.В., 2005 Решение Шаг 1. Основная и альтернативная гипотезы: Шаг 2. Задан уровень значимости =0,05. Шаг 3. По таблице нормального распределения находим критические значения z = – 1,96 и z = 1,96 строим критическую область: z 1,96. Шаг 4. По выборке вычисляем значение статистики.


34 Иванов О.В., 2005 Решение Шаг 5. Сравним полученное значение с критической областью. Полученное значение статистики не попало в критическую область. Шаг 6. Формулируем вывод. Нет оснований отвергнуть основную гипотезу. Доля посещающих спецкурсы не отличается статистически значимо.


5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г Доверительный интервал для разности долей Постановка задачи Метод построения доверительного интервала Пример





Сравнение средних двух совокупностей имеет важное практическое значение. На практике часто встречаются случай, когда средний результат одной серии экспериментов отличается от среднего результата другой серии. При этом возникает вопрос, можно ли объяснять обнаруженное расхождение средних неизбежными случайными ошибками эксперимента или оно вызвано некоторыми закономерностями. В промышленности задача сравнения средних часто возникает при выборочном контроле качества изделий, изготовленных на разных установках или при различных технологических режимах, в финансовом анализе - при сопоставлении уровня доходности различных активов и т.д.

Сформулируем задачу. Пусть имеются две совокупности, характеризуемые генеральными средними и и известными дисперсиями и. Необходимо проверить гипотезу о равенстве генеральных средних, т.е. : =. Для проверки гипотезы из этих совокупностей взяты две независимые выборки объемов и, по которым найдены средние арифметические и и выборочные дисперсии и.При достаточном больших объемов выборки, выборочные средние и имеют приближенно нормальный закон распределения, соответственно и.В случае справедливости гипотезы разность - имеет нормальный закон распределения с математическим ожиданием и дисперсией.

Поэтому при выполнении гипотезы статистика

имеет стандартное нормальное распределение N (0; 1).

Проверка гипотез о числовых значениях параметров

Гипотезы о числовых значениях встречаются в различных задачах. Пусть - значения некоторого параметра изделий, производящихся станком автоматической линии, и пусть - заданное номинальное значение этого параметра. Каждое отдельное значение может, естественно, как-то отклоняться от заданного номинала. Очевидно, для того, чтобы проверить правильность настройки этого станка, надо убедиться в том, что среднее значение параметра у производимых на нем изделий будет соответствовать номиналу, т.е. проверить гипотезу против альтернативной, или, или

При произвольной настройке станка может возникнуть необходимость проверки гипотезы о том, что точность изготовления изделий по данному параметру, задаваемая дисперсий, равна заданной величине, т.е. или, например, того, что доля бракованных изделий, производимых станком, равна заданной величине р 0 , т.е. и т.д.

Аналогичные задачи могу возникнуть, например, в финансовом анализе, когда по данным выборки надо установить, можно ли считать доходность актива определенного вида или портфеля ценных бумаг, либо ее риск равным заданному числу; или по результатам выборочной аудиторской проверки однотипных документов нужно убедиться, можно ли считать процент допущенных ошибок равным номиналу, и т.п.

В общем случае гипотезы подобного типа имеют вид, где - некоторый параметр исследуемого распределения, а - область его конкретных значений, состоящая в частном случае из одного значения.

Один из самых простых случаев проверки статистической гипотезы заключается в проверке равенства между средним генеральной совокупности и некоторым заданным значением. Заданное значение представляет собой некоторое фиксированное число µ 0 , полученное не из выборочных данных. Гипотезы имеют следующий вид.

Н 0: µ = µ 0 – нулевая гипотеза утверждает, что неизвестное среднее значение генеральной совокупности µ в точности равно заданному значению µ 0 .

Н 1: µ µ 0 - альтернативная гипотеза утверждает, что неизвестное среднее значение генеральной совокупности µ не равно заданному значению µ 0 .

Обратите внимание, что фактически здесь фигурируют три различных числа, имеющих отношение к среднему:

§ µ - неизвестное среднее генеральной совокупности, которое вас интересует;

§ µ 0 - заданное значение, в отношении которого проверяют гипотезу;

§ - известное выборочное среднее, которое используют для вынесения решения о принятии гипотезы. Из указанных трех чисел только это значение является случайной величиной, так как оно рассчитано из данных выборки. Заметим, что является оценкой и, следовательно, представляет µ.

Проверка гипотезы заключается в сравнении двух известных величин и µ 0 . Если эти значения отличаются сильнее, чем можно было бы ожидать исходя из случайности, то нулевую гипотезу µ = µ 0 отклоняют, так как предоставляет информацию о неизвестном среднем µ. Если значения и µ 0 достаточно близки, то нулевую гипотезу µ = µ 0 принимают. Но что означает “значения близки”? Где находится необходимая граница? Близость должна определяться на основе значения , поскольку эта стандартная ошибка определяет степень случайности . Таким образом, если и µ 0 отстоят друг от друга на расстоянии достаточного количества стандартных ошибок, то это является убедительным доказательством того, что µ не равно µ 0 .

Существуют два различных метода проверки гипотезы и получения результата. Первый метод использует доверительные интервалы, о которых шла речь в предыдущей главе. Это более простой метод, потому что (а) вы уже знаете, как строить и интерпретировать доверительный интервал, и (б) доверительный интервал интерпретируется непосредственно, поскольку он выражен в тех же единицах измерения, что и данные (например, в долларах, количестве людей, количестве поломок). Второй метод (основанный на t-статистике ) является более традиционным, но интуитивно менее понятным, поскольку заключается в том, чтобы вычислить показатель, измеренный не в тех же единицах, что и данные, сравнить полученное значение с соответствующим критическим значением из t- таблицы и затем сделать вывод.

Рассмотрим ту же задачу, что и в предыдущем пункте 3.4, но только при условии, что объемы выборок и Невелики (меньше 30). В этом случае замена генеральных дисперсий и , входящих в (3.15), на исправленные выборочные дисперсии и может привести к большой ошибке в величине , а следовательно, к большой ошибке в установлении области принятия гипотезы Н0 . Однако если есть уверенность в том, что неизвестные генеральные и Одинаковы (например, если сравниваются средние размеры двух партий деталей, изготовленных на одном и том же станке), то можно, используя распределение Стьюдента, и в этом случае построить критерий проверки гипотезы Н0 X и Y . Для этого вводят случайную величину

, (3.16)

(3.17)

Среднее из исправленных выборочных дисперсий и , служащее точечной оценкой обеих одинаковых неизвестных генеральных дисперсий и . Как оказывается (см. , стр.180), при справедливости нулевой гипотезы Н0 случайная величина Т имеет распределение Стьюдента с степенями свободы независимо от величин и объемов выборок. Если гипотеза Н0 верна, то разница должна быть невелика. То есть экспериментальное значение T Эксп. величины Т должно быть невелико. А именно, должно заключаться в некоторых границах . Выход же его за эти границы мы будем считать опровержением гипотезы Н0 , и допускать это будем с вероятностью, равной задаваемому уровню значимости α .

Таким образом, областью принятия гипотезы Н0 будет являться некоторый интервал , в который значения случайной величины Т должны попадать с вероятностью 1- α :

Величину , определяемую равенством (3.18), для различных уровней значимости α и различных числах K степеней свободы величины Т можно найти в таблице критических точек распределения Стьюдента (таблице 4 Приложения). Тем самым будет найден интервал принятия гипотезы Н0 . И если экспериментальное значение T Эксп величины Т попадет в этот интервал – гипотезу Н0 принимают. Не попадает - не принимают.

Примечание 1. Если нет оснований считать равными генеральные дисперсии и величин Х и Y , то и в этом случае для проверки гипотезы Н0 о равенстве математических ожиданий величин Х и Y допускается использование изложенного выше критерия Стьюдента. Только теперь у величины Т число K степеней свободы следует считать равным не , а равным (см. )

(3.19)

Если исправленные выборочные дисперсии и различаются существенно, то второе слагаемое в последней скобке (3.19) невелико по сравнению с 0,5, так что выражение (3.19) по сравнению с выражением уменьшает число степеней свободы случайной величины Т почти вдвое. А это ведет к существенному расширению интервала принятия гипотезы Н0 и, соответственно, к существенному сужению критической области непринятия этой гипотезы. И это вполне справедливо, так как степень разброса возможных значений разности Будет, в основном, определяться разбросом значений той из величин Х и Y , которая имеет большую дисперсию. То есть информация от выборки с меньшей дисперсией как бы пропадает, что и ведет к большей неопределенности в выводах о гипотезе Н0 .

Пример 4. По приведенным в таблице данным сравнить средние удои коров, получавших различные рационы. При проверке нулевой гипотезы Н0 о равенстве средних удоев принять уровень значимости α =0,05.

Поголовье коров, получавших рацион

(Голов )

Среднесуточный удой в пересчете на базисную жирность

(Кг/на голову )

Среднеквадратическое отклонение суточной молочной продуктивности коров

(Кг/на голову )

. Так как приведенные табличные данные получены на основании малых выборок объемами =10 и =8, то для сравнения математических ожиданий среднесуточных удоев коров, получавших тот и другой кормовые рационы, мы должны использовать теорию, изложенную в этом пункте. Для этого в первую очередь выясним, позволяют ли найденные исправленные выборочные дисперсии =(3,8)2=14,44 и =(4,2)2=17,64 считать равными генеральные дисперсии и . Для этого используем критерий Фишера-Снедекора (см. пункт 3.3). Имеем:

По таблице критических точек распределения Фишера-Снедекора для α =0,05; K 1 =8-1=7 и K 2 =10-1=9 находим

И так как , то у нас нет оснований при данном уровне значимости α =0,05 отвергать гипотезу H 0 о равенстве генеральных дисперсий и .

Теперь, в соответствии с (3.17) и (3.16), подсчитаем экспериментальное значение величины Т :

Далее, по формуле находим число K степеней свободы величины Т : K =10+8-2=16. После этого для п0+8-2=16. ооды (3.16) подсчитаем экспериментальное значение величины Т: Ы кормовые рационы, мы должны испол α =0,05 и K =16 по таблице критических точек распределения Стьюдента (таблица 4 Приложения) находим : =2,12. Таким образом, интервалом принятия гипотезы H 0 о равенстве средних удоев коров, получавших рационы № 1 и № 2, является интервал =(-2,12; 2,12). И так как = - 0,79 попадает в этот интервал, то у нас нет оснований отвергать гипотезу H 0 . То есть мы вправе считать, что различие кормовых рационов не сказывается на среднесуточном удое коров.

Примечание 2. В рассмотренных выше пунктах 3.4 и 3.5 рассматривалась нулевая гипотеза H 0 о равенстве М(Х)=М(Y ) при альтернативной гипотезе Н1 об их неравенстве: М(Х)≠М(Y ). Но альтернативная гипотеза Н1 может быть и другой, например, М(Y )>М(X ). На практике этот случай будет иметь место, когда вводится некоторое усовершенствование (положительный фактор), который позволяет рассчитывать на увеличение в среднем значений нормально распределенной случайной величины Y по сравнению со значениями нормально распределенной величины Х . Например, в рацион коров введена новая кормовая добавка, позволяющая рассчитывать на увеличение среднего удоя коров; под культуру внесена дополнительная подкормка, позволяющая рассчитывать на увеличение средней урожайности культуры, и т. д. И хотелось бы выяснить, существенен (значим) или незначим этот введенный фактор. Тогда в случае больших объемов и Выборок (см. пункт 3.4) в качестве критерия справедливости гипотезы H 0 рассматривают нормально распределенную случайную величину

При заданном уровне значимости α Гипотеза H 0 о равенстве М(Х) и М(Y ) будет отвергнута, если экспериментальное значение величины Будет положительным и бόльшим , где

Так как при справедливости гипотезы H 0 М(Z )= 0, то

Рассмотрим две независимые выборки x 1, x 2 , ….. , x n и y 1 , y 2 , … , y n , извлеченные из нормальных генеральных совокупностей с одинаковыми дисперсиями , причем объемы выборок соответственно n и m, а средние μ x , μ y и дисперсия σ 2 неизвестны. Требуется проверить основную гипотезу Н 0: μ x =μ y при конкурирующей Н 1: μ x μ y .

Как известно, выборочные средние и будут обладать свойствами: ~N(μ x , σ 2 /n), ~N(μ y , σ 2 /m).

Их разность - нормальная величина со средним и дисперсией , так что

~ (23).

Допустим на время, что основная гипотеза Н 0 верна: μ x –μ y =0. Тогда и, деля величину на ее стандартное отклонение, получим стандартную нормальную сл. Величину ~N(0,1).

Раньше отмечалось, что сл. величина распределена по закону с (n-1)-ой степенью свободы, a - по закону с (m-1) степенью свободы. С учетом независимости этих двух сумм, получаем, что их общая сумма распределена по закону с n+m-2 степенями свободы.

Вспоминая п.7, видим, что дробь подчиняется t-распределенню (Стьюдента) с ν=m+n-2 степенями свободы: Z=t. Этот факт имеет место только тогда, когда истинна гипотеза Н 0 .

Заменяя ξ и Q их выражениями, получим развернутую форнулу для Z:

(24)

Сл.величина Z, называемая статистикой критерия, позволяет принять решение при такой последовательности действий:

1. Устанавливается область D=[-t β,ν , +t β,ν ], содержащая β=1–α площади под кривой t ν –распределения (табл.10).

2. Вычисляется по формуле (24) опытное значение Z on статистики Z, для чего вместо X 1 и Y 1 подставляются значения x 1 и y 1 конкретных выборок, а также их выборочные средние и .

3. Если Z on D, то гипотеза Н 0 считается не противоречащей опытным данным и принимается.

Если Z on D, то принимается гипотеза Н 1 .

Если гипотеза Н 0 верна, то Z подчиняется известному t ν –распределению с нулевым средним и с высокой вероятностью β=1–α попадает в D-область принятия гипотезы Н 0 . Когда наблюдаемое, опытное значение Z on попадает в D. Мы рассматриваем это как свидетельство в пользу гипотезы Н 0 .

Когда жe Z 0 n лежит за пределами D (как говорят, лежит в критической области К), что естественно, если верна гипотеза Н 1 , но маловероятно, если верна Н 0 , то нам остается отклонить гипотезу Н 0 , приняв H 1 .

Пример 31.

Сравниваются две марки бензина: А и В. На 11 автомашинах одинаковой мощности по кольцевому шассе испытан по разу Бензин марки А и В. Одна машина в пути вышла из строя н для нее данные по бензину В отсутствуют.

Расход бензина в пересчете на 100 км пути

Таблица 12

i
X i 10,51 11,86 10,5 9,1 9,21 10,74 10,75 10,3 11,3 11,8 10,9 n=11
У i 13,22 13,0 11,5 10,4 11,8 11,6 10,64 12,3 11,1 11,6 - m=10

Дисперсия расхода бензина марок А и В неизвестна и предполагается одинаковой. Можно ли при уровне значимости α=0,05 принять гипотезу о том, что истинные средние расходы μ А и μ В этих видов бензина одинаковы?

Решение. Проверку гипотезы Н 0: μ А -μ В =0 при конкурирующей. Н 1:μ 1 μ 2 делаем по пунктам:

1. Находим выборочные средние и сумму квадратов откло­нений Q.

;

;

2. Вычисляем опытное значение статистики Z

3. Находим из таблицы 10 t-распределения предел t β,ν , для числа степеней свободы ν=m+n–2=19 и β=1–α=0.95. В таблице 10 есть t 0.95.20 =2,09 и t 0.95.15 =2,13, но нет t 0.95.19 . Находим интерполяцией t 0.95.19 =2,09+ =2,10.

4. Проверяем, в какой из двух областей D или К лежит число Z on . Zon=-2,7 D=[-2,10; -2,10].

Поскольку наблюденное значение Z on лежит в критической области, К=R\D, то отбрасываем. Н 0 и приникаем гипотезу Н 1 . В этом случае про и говорят, что их разность значима. Если бы при всех условиях этого примера изменилось бы лишь Q, скажем, Q вдвое возросло, то изменился бы и наш вывод. Увеличение Q вдвое привело бы к уменьшению в раза величины Z on и тогда число Zon попало бы в допустимую область D, так что гипотеза H 0 выдержала бы проверку и была принята. В этом случае расхождение между и объяснялось бы естественным разбросом данных, а не тем, что μ А μ В.

Теория проверки гипотез весьма обширна, гипотезы могут быть о виде закона распределения, об однородности выборок, о независимости сл.величины и т.д.

КРИТЕРИЙ c 2 (ПИРСОНА)

Самый распространенный на практике критерий проверки простой гипотезы. Применяется, когда закон распределения неизвестен. Рассмотрим случайную величину X, над которой проведено n независимых испытаний. Получена реализация x 1 , x 2 ,...,x n . Необходимо проверить гипотезу о законе распределения этой случайной величины.

Рассмотрим случай простой гипотезы. Простая гипотеза проверяет согласование выборки с генеральной совокупностью, имеющей нормальное распределение (известное). По выборкам строим вариационный ряд x (1) , x (2) , ..., x (n) . Интервал разбиваем на подинтервалы. Пусть этих интервалов r. Тогда найдем вероятность попадания X в результате испытания в интервал Di, i=1 ,..., r в случае истинности проверяемой гипотезы.

Критерий проверяет не истинность плотности вероятности, а истинность чисел

С каждым интервалом Di свяжем случайное событие A i - попадание в этот интервал (попадание в результате испытания над X ее результата реализации в Di). Введем случайные величины. m i - количество испытаний из n проведенных, в которых произошло событие A i . m i распределены по биномиальному закону и в случае истинности гипотезы

Dm i =np i (1-p i)

Критерий c 2 имеет вид

p 1 +p 2 +...+p r =1

m 1 +m 2 +...+m r =n

Если проверяемая гипотеза верна, то m i представляет частоту появления события, имеющего в каждом из n проведенных испытаний вероятность p i , следовательно, мы можем рассматривать m i как случайную величину, подчиняющуюся биномиальному закону с центром в точке np i . Когда n велико, то можно считать, что частота распределена асимптотически нормально с теми же параметрами. При правильности гипотезы следует ожидать, что будут асимптотически нормально распределены

связанные между собой соотношением

В качестве меры расхождения данных выборки m 1 +m 2 +...+m r с теоретическими np 1 +np 2 +...+np r рассмотрим величину

c 2 - сумма квадратов асимптотически нормальных величин, связанных линейной зависимостью. Мы ранее встречались уже с аналогичным случаем и знаем, что наличие линейной связи привело к уменьшению на единицу числа степеней свободы.

Если проверяемая гипотеза верна, то критерий c 2 имеет распределение, стремящееся при n®¥ к распределению c 2 с r-1 степенями свободы.

Допустим, что гипотеза неверна. Тогда существует тенденция к увеличению слагаемых в сумме, т.е. если гипотеза неверна, то эта сумма будет попадать в некую область больших значений c 2 . В качестве критической области возьмем область положительных значений критерия


В случае неизвестных параметров распределения каждый параметр уменьшает на единицу количество степеней свободы для критерия Пирсона