Вероятность интервала для нормального распределения и доверительные интервалы

В данном материале рассматриваются основы работы со случайными величинами, имеющими нормальное распределение N(a, σ²). Описаны методы вычисления вероятности попадания величины в заданный интервал с использованием функции Лапласа. Также подробно изложены принципы построения доверительных интервалов для математического ожидания, алгоритмы проверки статистических гипотез и особенности расчетов при неизвестном стандартном отклонении с применением распределения Стьюдента.

Содержание

Вероятность интервала для нормального распределения
Расчет для бесконечных промежутков
Пример задачи
Вычисление значений
Доверительный интервал для математического ожидания нормального распределения
Оценка погрешности
Пример расчета доверительного интервала
Проверка гипотез
Алгоритм проверки
Неизвестное стандартное отклонение

Вероятность интервала для нормального распределения

Рассмотрим случайную величину, имеющую нормальное распределение N(a, σ²), числа в скобках — это параметры. Тогда вероятность того, что она попадет в интервал, определяется по формуле:

P(X ∈(x1, x2)) = Φ((x2 − a) / σ) − Φ((x1 − a) / σ)

Здесь Φ(x) — это функция Лапласа, для положительных x ее значения можно найти в таблицах, а для отрицательных применяется формула Φ(−x) = −Φ(x).

Расчет для бесконечных промежутков

Для бесконечных промежутков используется то, что Φ(+∞) = 0.5, Φ(−∞) = −0.5:

P(X > x1) = P(X ∈(x1, +∞)) = Φ(+∞) − Φ((x1 − a) / σ) = 0.5 − Φ((x1 − a) / σ)
P(X < x2) = P(X ∈(−∞, x2)) = Φ((x2 − a) / σ) − Φ(−∞) = 0.5 + Φ((x2 − a) / σ)

Пример задачи

Дано: нормальное распределение N(3, 4). Найти вероятности промежутков (−∞, −1), (−1, 5) и (5, +∞).

Решение:

В условии даны параметры распределения a = 3, σ² = 4, так что σ = 2.

Тогда:

P(−∞, −1) = 0.5 + Φ((−1 − 3) / 2) = 0.5 + Φ(−2)
P(−1, 5) = Φ((5 − 3) / 2) − Φ((−1 − 3) / 2) = Φ(1) − Φ(−2)
P(5, ∞) = 0.5 − Φ((5 − 3) / 2) = 0.5 − Φ(1)

Вычисление значений

Далее, Φ(−2) = −Φ(2), и находим в таблицах Φ(1) = 0.3413, Φ(2) = 0.4772, откуда Φ(−2) = −0.4772, и подставляем:

P(−∞, −1) = 0.5 + Φ(−2) = 0.5 − 0.4772 = 0.0228
P(−1, 5) = Φ(1) − Φ(−2) = 0.3413 − (−0.4772) = 0.3413 + 0.4772 = 0.8185
P(5, ∞) = 0.5 − Φ(1) = 0.5 − 0.3413 = 0.1587

Заметим, что сумма этих трех вероятностей равна единице, как и должно быть.

Доверительный интервал для математического ожидания нормального распределения

Основные задачи в математической статистике сводятся к оценке неизвестных параметров распределений; доверительный интервал — это интервал, содержащий искомый параметр с заданной доверительной вероятностью α.

Чаще всего требуется оценить параметры нормального распределения — математическое ожидание и дисперсию. Для оценки математического ожидания используют выборочное среднее x̄ — среднее арифметическое значений выборки.

Тогда доверительный интервал для математического ожидания имеет вид:

(x̄ − z * σ / √n; x̄ + z * σ / √n)

Оценка погрешности

Как видно из формул, точечная оценка x̄ является центром интервала, к которому прибавляется оценка погрешности, включающая стандартное отклонение искомой величины σ, количество наблюдений n и квантиль z, это решение уравнения Φ(z) = α/2.

Далее при решении задач будем использовать α = 0.95, для этого значения z = 1.96.

Пример расчета доверительного интервала

Например, пусть есть выборка из n = 100 наблюдений. Среднее арифметическое наблюдений оказалось x̄ = 10, стандартное отклонение σ = 3. Тогда доверительный интервал для вероятности α = 0.95 примет вид:

(10 − 1.96 * 3 / √100; 10 + 1.96 * 3 / √100) = (9.41, 10.59)

Это значит, что наиболее вероятная оценка математического ожидания 10, и с вероятностью 0.95 истинное значение лежит где-то в этом интервале.

Проверка гипотез

Поставим теперь такой вопрос: а может ли быть так, что истинное значение математического ожидания равно 9? Ответ таков: истинное значение лежит в доверительном интервале с вероятностью 0.95, а 9 в нем не лежит. Следовательно, вероятность того, что истинное значение 9, меньше 0.05, и мы отвергаем гипотезу. Если же значение попало в интервал, то мы ее принимаем.

Алгоритм проверки

Эту проверку удобнее делать без выписывания доверительного интервала следующим образом:

Гипотеза о значении a принимается ⇔ a ∈ (x̄ − z * σ / √n; x̄ + z * σ / √n) ⇔ |a − x̄| < z * σ / √n ⇔ |a − x̄| * √n / σ < z

Например, для предыдущего примера проверим значение a = 9:

|9 − 10| * √100 / 3 = 3.33 > z = 1.96

Поскольку получилось значение больше z, мы отвергаем гипотезу. Если бы значение получилось меньше z, мы бы ее приняли.

Неизвестное стандартное отклонение

Для формул выше требуется знать стандартное отклонение случайной величины σ, которое часто неизвестно. В этом случае его можно заменить оценкой sx на основе выборки. Но в этом случае вместо квантиля нормального распределения z следует использовать квантиль распределения Стьюдента t. К сожалению, этот последний квантиль зависит также и от n.