Статистика - Проверка гипотезы
Проверка гипотез - это формальный способ проверить, верна ли гипотеза о совокупности.
Проверка гипотез
Гипотеза - это утверждение о параметре совокупности.
Проверка гипотез - это формальная процедура, позволяющая проверить, верна ли гипотеза.
Примеры претензий, которые можно проверить:
Средний рост жителей Дании больше 170 см.
Доля левшей в Австралии не 10%.
Средний доход стоматолога меньше среднего дохода стоматолога.
Нулевая и альтернативная гипотеза
Проверка гипотез основывается на двух разных утверждениях о параметре генеральной совокупности.
Нулевая гипотеза (\(H_{0} \)) и альтернативная гипотеза (\(H_{1}\)) являются утверждениями.
Эти два утверждения должны быть взаимоисключающими, то есть только одно из них может быть истинным.
Обычно мы пытаемся доказать альтернативную гипотезу.
Например, мы хотим проверить следующее утверждение:
"Средний рост людей в Дании более 170 см".
В данном случае параметр - это средний рост людей в Дании (\(\mu\)).
Нулевая и альтернативная гипотеза будет:
Нулевая гипотеза: средний рост жителей Дании составляет 170 см.
Альтернативная гипотеза: средний рост жителей Дании больше 170 см.
Заявления часто выражаются такими символами:
\(H_{0}\): \(\mu = 170 \: cm \)
\(H_{1}\): \(\mu > 170 \: cm \)
Если данные подтверждают альтернативную гипотезу, мы отклоняем нулевую гипотезу и принимаем альтернативную гипотезу.
Если данные не подтверждают альтернативную гипотезу, мы сохраняем нулевую гипотезу.
Примечание: Альтернативная гипотеза также упоминается как \(H_{A}\)
Уровень значимости
Уровень значимости (\(\alpha\)) - это неопределённость, которую мы принимаем при отклонении нулевой гипотезы в проверке гипотез.
Уровень значимости - это процентная вероятность случайного ошибочного вывода.
Типичные уровни значимости:
- \(\alpha = 0.1\) (10%)
- \(\alpha = 0.05\) (5%)
- \(\alpha = 0.01\) (1%)
Более низкий уровень значимости означает, что доказательства в данных должны быть более убедительными, чтобы отвергнуть нулевую гипотезу.
Не существует "правильного" уровня значимости - он лишь констатирует неопределенность вывода.
Примечание: А 5% уровень значимости означает, что когда мы отклоняем нулевую гипотезу:
Мы ожидаем отклонить истинную нулевую гипотезу в 5 случаях из 100.
Статистика теста
Статистика теста используется для определения результата проверки гипотезы.
Статистика теста - это стандартизированное значение, рассчитанное на основе выборки.
Стандартизация означает преобразование статистики в хорошо известное распределение вероятностей.
Тип распределения вероятностей зависит от типа теста.
Распространенными примерами являются:
- Стандартное нормальное распределение (Z): используется для Проверки пропорций совокупности
- Стьюдент T-распределение (T): используется для Проверки среднего совокупности
Примечание: Вы узнаете, как рассчитать статистику теста для каждого типа теста, в следующих главах.
Подходы критического значения и P-значения
Для проверки гипотез используются два основных подхода:
- Подход критического значения сравнивает статистику теста с критическим значением уровня значимости.
- Подход p-значения сравнивает p-значение тестовой статистики и уровень значимости.
Подход критического значения
Подход критического значения проверяет, находится ли тестовая статистика в области отклонения.
Область отклонения - это область вероятности в хвостах распределения.
Размер области отклонения определяется уровнем значимости (\(\alpha\)).
Значение, отделяющее область отклонения от остальных, называется критическим значением.
Вот графическая иллюстрация:
Если статистика теста находится внутри этой области отклонения, нулевая гипотеза отклоняется.
Например, если тестовая статистика составляет 2,3, а критическое значение равно 2 для уровня значимости (\(\alpha = 0.05\)):
Мы отклоняем нулевую гипотезу (\(H_{0} \)) на уровне значимости 0.05 (\(\alpha\))
Подход P-значения
Подход с p-значением проверяет, является ли p-значение тестовой статистики меньше, чем уровень значимости (\(\alpha\)).
P-значение тестовой статистики - это область вероятности в хвостах распределения от значения тестовой статистики.
Вот графическая иллюстрация:
Если p-значение меньше уровня значимости, нулевая гипотеза отклоняется.
P-значение напрямую указывает нам самый низкий уровень значимости, на котором мы можем отклонить нулевую гипотезу.
Например, если p-значение равно 0,03:
Мы отклоняем нулевую гипотезу (\(H_{0} \)) на уровне значимости 0,05 (\(\alpha\))
Мы сохраняем нулевую гипотезу (\(H_{0}\)) на уровне значимости 0,01 (\(\alpha\))
Примечание: Эти два подхода отличаются только тем, как они представляют заключение.
Этапы проверки гипотез
Для проверки гипотез используются следующие шаги:
- Проверить условия
- Определить претензииь
- Определить уровень значимости
- Рассчитать статистику теста
- Заключение
Одно условие заключается в том, что выборка производится случайным образом из генеральной совокупности.
Остальные условия зависят от того, для какого типа параметра вы проверяете гипотезу.
Общие параметры для проверки гипотез:
- Пропорции (для качественных данных)
- Средние значения (для числовых данных)
На следующих страницах вы узнаете, как работать с обоими типами.