Статистика - Стандартное нормальное распределение
Стандартное нормальное распределение - это нормальное распределение, где среднее значение равно 0, а стандартное отклонение - 1.
Стандартное нормальное распределение
Обычно распределенные данные можно преобразовать в стандартное нормальное распределение.
Стандартизация нормально распределенных данных упрощает сравнение различных наборов данных.
Стандартное нормальное распределение используется для:
- Расчет доверительных интервалов
- Проверка гипотез
Вот график стандартного нормального распределения со значениями вероятности (p-значения) между стандартными отклонениями:
Стандартизация упрощает расчет вероятностей.
Функции для вычисления вероятностей сложны и их трудно вычислить вручную.
Обычно вероятности находят, просматривая таблицы предварительно рассчитанных значений или используя программное обеспечение и программирование.
Стандартное нормальное распределение также называется "Z-распределением", а значения - "Z-значениями" (или Z-оценками).
Z-значения
Z-значения выражают количество стандартных отклонений от среднего значения.
Формула для расчета Z-значения:
\(\displaystyle Z = \frac{x-\mu}{\sigma}\)
\(x\) - это значение, которое мы стандартизируем, \(\mu\) - это среднее значение, а \(\sigma\) - это стандартное отклонение.
Например, если мы знаем, что:
Средний рост людей в Германии - 170 см (\(\mu\))
Стандартное отклонение роста людей в Германии составляет 10 см (\(\sigma\))
Боб ростом 200 см (\(x\))
Боб на 30 см выше среднего жителя Германии.
30 см - это 3 раза по 10 см. Таким образом, рост Боба на 3 стандартных отклонения больше, чем средний рост в Германии.
Используя формулу:
\(\displaystyle Z = \frac{x-\mu}{\sigma} = \frac{200-170}{10} = \frac{30}{10} = \underline{3} \)
Z-значение роста Боба (200 см) равно 3.
Нахождение P-значения из Z-значения
Используя Z-таблицу или программирование, мы можем подсчитать, сколько людей в Германии ниже Боба, а сколько выше.
Пример
В Python используйте функцию Scipy Stats library norm.cdf()
, чтобы найти вероятность получения значения Z меньше 3:
import scipy.stats as stats
print(stats.norm.cdf(3))
Попробуйте сами »
Пример
С помощью R используйте встроенную функцию pnorm()
и найдите вероятность получения значения Z меньше 3:
pnorm(3)
Попробуйте сами »
Используя любой метод, мы можем найти, что вероятность равна \(\approx 0.9987\), или \( 99.87\% \)
Это означает, что Боб выше 99.87% людей в Германии.
Вот график стандартного нормального распределения и Z-значение 3 для визуализации вероятности:
Эти методы находят p-значение с точностью до конкретного z-значения, которое у нас есть.
Чтобы найти p-значение выше z-значения, мы можем вычислить 1 минус вероятность.
Таком образом, в примере Боба мы можем вычислить 1 - 0.9987 = 0.0013, или 0.13%.
Это означает, что всего 0.13% немцев выше Боба.
Нахождение P-значения между Z-значениями
Если вместо этого мы хотим узнать, сколько людей в Германии ростом от 155 до 165 см, используя тот же пример:
Средний рост людей в Германии - 170 см (\(\mu\))
Стандартное отклонение роста людей в Германии составляет 10 см (\(\sigma\))
Теперь нам нужно рассчитать Z-значения для 155 см и 165 см:
\(\displaystyle Z = \frac{x-\mu}{\sigma} = \frac{155-170}{10} = \frac{-15}{10} = \underline{-1.5} \)
Z-значение 155 см составляет -1.5
\(\displaystyle Z = \frac{x-\mu}{\sigma} = \frac{165-170}{10} = \frac{-5}{10} = \underline{-0.5} \)
Z-значение 165 см составляет -0,5.
Используя Z-table или программирование, мы можем обнаружить, что p-значение для двух z-значений:
- Вероятность того, что значение z будет меньше -0,5 (меньше 165 см), равна 30.85%
- Вероятность того, что значение z будет меньше -1,5 (меньше 155 см), равна 6.68%
Вычтем 6.68% из 30.85% чтобы найти вероятность получения z-значения между ними.
30.85% - 6.68% = 24.17%
Вот набор графиков, иллюстрирующих процесс:
Нахождение Z-значения P-значения
Вы также можете использовать p-значения (вероятность), чтобы найти z-значения.
Например:
"Какой у вас рост, если вы выше 90% немцев?"
Значение p составляет 0,9 или 90%.
Используя Z-таблицу или программирование, мы можем вычислить z-значение:
Пример
В Python используйте функцию Scipy Stats library norm.ppf()
найдите z-значение, отделяющее верхние 10% от нижних 90%:
import scipy.stats as stats
print(stats.norm.ppf(0.9))
Попробуйте сами »
Пример
С помощью R используйте встроенную функцию qnorm()
найдите z-значение, отделяющее верхние 10% от нижних 90%:
qnorm(0.9)
Попробуйте сами »
Используя любой метод, мы можем найти, что Z-значение равно \(\приблизительно 1.281\)
Это означает, что человек, рост которого на 1,281 стандартного отклонения выше среднего роста немцев, выше 90% немцев.
Затем мы используем формулу для вычисления высоты (\(x\)) на основе среднего (\(\mu\)) 170 см и стандартного отклонения (\(\sigma\)) 10 см:
\(\displaystyle Z = \frac{x-\mu}{\sigma} \)
\(\displaystyle 1.281 = \frac{x-180}{10} \)
\(1.281 \cdot 10 = x-180 \)
\(12.81 = x - 180 \)
\(12.81 + 180 = x \)
\(\underline{192.81} = x \)
Таким образом, мы можем сделать вывод, что:
"Вы должны быть не ниже 192,81 см, чтобы быть выше 90% немцев".