Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Образовательный студенческий форум _ Теория вероятностей _ Проверка гипотезы о нормальном распределении

Автор: KEA 25.11.2008, 18:50

Дана выборка из 200 чисел. Для вычисления всех необходимиых теоретических и эмпирических значений ее надо было разбить на интервалы. Для нахождения количества интервалов нашла формулу:m=1+3,32lnn (у меня n=200)У меня получилось приблизительно 19, но для удобства я взяла 20. Не слишком ли много интервалов? В другом источнике говорится , что для такой выборки рекомендуется брать от 10 до 12 интервалов.
Вопрос1:Сколько интервалов лучше взять?

Вопрос2: В решениях некоторых задач на проверку гипотезы говорится, что интервалы, в которые попало мало значений, надо объединять. Обязательно ли это надо делать? И как это делать? Снова разбивать на равные интервалы, но большей длины? Влияет ли это на исход задачи. У меня получилось,при количестве интервалов 20, что в некоторые значения совсем не попали.

Вопрос3:А значение Х-квадрат получилось, на мой взгляд, очень большим, почти в 10 раз большее критического. Может ли такое быть?

Автор: malkolm 25.11.2008, 19:59

Вопрос 1. m=1+3,32lg n, а не ln n, т.е. логарифм там десятичный. Но лучше прислушаться к совету о 10-12 интервалах.
Вопрос 2. Разбивать лучше не на равные интервалы, а на интервалы с равной вероятностью. Если интервалов берем 10, то вероятности каждого по 0,1, и границы интервалов можно найти по предполагаемой функции распределения как 10-процентные точки распределения:
=НОРМОБР(0,1;a;σ) - правая граница первого интервала,
=НОРМОБР(0,2;a;σ) - правая граница второго интервала,
и т.д.,
=НОРМОБР(0,9;a;σ) - правая граница предпоследнего интервала, она же левая граница последнего. Последний интервал - от этого числа до +оо.

Здесь а - матожидание, σ - корень из дисперсии проверяемого нормального распределения.

Ничего объединять при этом не требуется. На равные интервалы разбивать имеет смысл только при проверке гипотезы о равномерности распределения.
Вопрос 3. Если выборка действительно из нормального распределения, то такого быть не должно. А если нет - всё возможно.

Автор: KEA 25.11.2008, 20:45

Я вроде считала, что получается нормальное распределение. Судила по графикам теоретических и эмпирических значений. Уже пересчитала для 12 интервалов. Разницу получила поменьше, но все равно достаточно большую. Может я неправильно вычисляю значения теоретических частот. Я их вычисляла так: Вероятность попасть в промежуток от c до b равна НОРМРАСП(b;a;σ;истина)-НОРМРАСП(с;a;σ;истина), где а-матожидание ,σ-станд отклонение.

И все-таки о длинах промежутков. Я просмотрела достаточно много решений похожих задач. Во всех них длины берутся одинаковые.

И еще один вопрос хотелось бы для себя уточнить. Для вычисления оценки дисперсии существуют две формулы, которые отличаюьтся друг от друга тем, что в одной сумма делится на n, а в другой - на
n-1.В справке говорится что одна работает для генеральной совокупности, а другая для выброки из ненеральной совокупоности. Все-таки какую формулу надо использовать?

Автор: malkolm 26.11.2008, 7:38

Цитата(KEA @ 26.11.2008, 2:45)

Правильно считаете. Приведите значения: 12 теоретических частот, 12 выборочных частот, значение статистики критерия, ну и критическое значение статистики хи-квадрат (сколько берёте степеней свободы, какой размер критерия).

Цитата(KEA @ 26.11.2008, 2:45)

И все-таки о длинах промежутков. Я просмотрела достаточно много решений похожих задач. Во всех них длины берутся одинаковые.

Моё дело дать совет

В решении учебных задач можно делать что угодно. Но на практике результаты такой проверки гипотез могут оказаться далёкими от истины. Вы строите критерий, размер которого (вероятность ошибки 1 рода) должна быть α. На самом деле критерий хи-квадрат асимптотический, его размер лишь приближается к α с ростом объёма выборки. То, насколько реальная вероятность ошибки (реальный размер критерия) близок к предполагаемому, зависит в числе многих причин и от самого маленького из значений n*p(j), где p(j) - теоретическая вероятность j-го интервала группировки. Чем меньше это n*p(j), тем дальше реальное распределение статистики критерия от того распределения хи-квадрат, с которым мы его сравниваем. Поэтому если у нас попадутся интервалы маленьких вероятностей, может случиться страшное: мы думаем, отвергая основную гипотезу, что шансов ошибиться у нас, например, 5% (α=0,05), а их реально 1% или 15%.

Поэтому при использовании критерия хи-квадрат есть обязательная рекомендация: интервалы должны быть такими, чтобы все n*p(j) были не менее 5 или 6. Для простоты эту рекомендацию о теоретичеких частотах превращают в рекомендацию о частотах выборки - число попавших в интервалы должно быть не менее 5 или 6. Но лучше посмотреть на свои интервалы: если хоть один из этих 12 имеет слишком малую вероятность, интервалы нужно менять (объединять, а лучше переразбить так, чтобы в центре были короткими, с краёв длинными).

Цитата(KEA @ 26.11.2008, 2:45)

И еще один вопрос хотелось бы для себя уточнить. Для вычисления оценки дисперсии существуют две формулы, которые отличаюьтся друг от друга тем, что в одной сумма делится на n, а в другой - на
n-1.В справке говорится что одна работает для генеральной совокупности, а другая для выброки из ненеральной совокупоности. Все-таки какую формулу надо использовать?

Безразлично. Поскольку и при той, и при другой выборочной дисперсиях статистика критерия лишь приближённо имеет распределение хи-квадрат. Тем более, что при n=200 величины 1/200 и 1/199 отличаются непринципиально. Обычно берут смещённую дисперсию 1/n ∑ (X_i - X_ср)^2.

Автор: KEA 26.11.2008, 18:30

1 -0,9 -0,48 19 17,11776 0,206968
2 -0,48 -0,06 47 32,91793 6,024214
3 -0,06 0,36 53 45,07779 1,392292
4 0,36 0,78 39 43,96274 0,56022
5 0,78 1,2 21 30,53481 2,977341
6 1,2 1,62 10 15,10215 1,723723
7 1,62 2,04 2 5,317559 2,069784
8 2,04 2,46 6 1,332508 16,34923
9 2,46 2,88 2 0,237536 13,07706
10 2,88 3,3 1 0,030108 31,24362

Вот моя таблица, сделала уже на 10 интервалов. Второй и третий столбцы задают интервалы, 4-ый - эмпирическая частота, 5-ый- теоретическая частота, по шестому вычисляла значение статистики критерия=75,62444
критическое значение статистики хи-квадрат=20.27774(уровень значимости 0,05 и 7 степеней свободы)
По этим данным гипотеза отвергается

Автор: malkolm 26.11.2008, 20:56

Вы правильно считаете статистику критерия и критическое значение, но совершенно неверно подходите к выбору интервалов. Прочтите, пожалуйста, ещё раз моё предыдущее сообщение. Нельзя категорически использовать критерий, если некоторые из теоретических частот (или выборочных, на худой конец) меньше, чем 5 или 6. Переразбейте область на интервалы так, чтобы вероятность попадания в каждый была не менее 0,025. Средние интервалы сделайте поуже, крайние - пошире. Не стоит упрямиться: Вы повторяете многократно описанную, типичную ошибку применения критерия хи-квадрат.

Кроме того: сумма теоретических вероятностей у Вас оказалась меньше единицы, поэтому сумма теоретических частот меньше 200 (около 191). Крайние интервалы берут от -oo до чего-нибудь, и от чего-нибудь до +оо. Для крайних интервалов (-oo, x) и (y,+oo) вероятности вычисляют как НОРМРАСП(x;a;σ;истина) и 1-НОРМРАСП(y;a;σ;истина).

Но вообще-то, судя по соотношению теоретических и эмпирических частот, выборка лишь отдалённо похожа на нормальную. Так что если критерий (при правильной проверке) отвергнет основную гипотезу, в этом не будет ничего странного. Нет тут нормальности.

Автор: KEA 26.11.2008, 21:48

Крайние интервалы объединила, но не поняла, как вычислять вероятность в крайних интервалах.
Если мне надо вычислить вероятность попадания в (-0,9;-0,48), я должна вычислить НОРМРАСП(-0,48;a;σ;истина)?
а в последний (2,04;3,3) как 1-НОРМРАСП(2,04;a;σ;истина). Так?

Автор: KEA 27.11.2008, 0:43

С вероятностями в крайних интервалах разобралась. Сумму теоретических вероятностей получила 1, а теоретических частот 200.
Правда все равно получилось, что гипотеза отвергается.
Большое спасибо за оказанную помощь!

Русская версия Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)