Статистика - Оценка доли совокупности
Доля совокупности - это часть совокупности, которая принадлежит к определенной категории.
Доверительные интервалы используются для estimate доли совокупности.
Оценка доли совокупности
Статистика выборки используется для оценки параметра генеральной совокупности.
Наиболее вероятное значение параметра - это точечная оценка.
Кроме того, мы можем вычислить нижнюю границу и верхнюю границу для оценочного параметра.
Предел погрешности - это разница между нижней и верхней границами от точечной оценки.
Вместе нижняя и верхняя границы определяют доверительный интервал.
Расчет доверительного интервала
Для расчета доверительного интервала используются следующие шаги:
- Проверьте условия
- Найдите точечную оценку
- Определите уровень достоверности
- Рассчитайте погрешность
- Рассчитайте доверительный интервал
Например:
- Совокупность: Лауреаты Нобелевской премии
- Категория: Родился в Соединенных Штатах Америки
Мы можем взять выборку и посмотреть, сколько из них родились в США.
Выборки данных используются для оценки доли всех лауреатов Нобелевской премии, родившихся в США.
Случайным образом выбрав 30 лауреатов Нобелевской премии, мы смогли найти, что:
6 из 30 нобелевских лауреатов в выборке родились в США.
По этим данным мы можем рассчитать доверительный интервал, выполнив следующие действия.
1. Проверка условий
Условия для расчета доверительного интервала для доли следующие:
- Выборка произведена случайным образом
- Есть только два варианта:
- Находиться в категории
- Не в категории
- Для выборки требуется как минимум:
- 5 участников в категории
- 5 участников не в категории
В нашем примере мы случайным образом выбрали 6 человек, родившихся в США.
Остальные не родились в США, поэтому 24 из них принадлежат к другой категории.
В этом случае условия выполнены.
Примечание: Можно рассчитать доверительный интервал, не имея 5 из каждой категории. Но необходимо внести особые корректировки.
2. Нахождение точечной оценки
Точечная оценка - это доля выборки (
Формула для расчета доли выборки - это количество вхождений (
В нашем примере 6 из 30 родились в США:
Таким образом, точечная оценка доли равна:
Таким образом, 20% из выборки родились в США.
3. Определение уровня достоверности
Уровень достоверности выражается в процентах или десятичном числе.
Например, если уровень достоверности 95% или 0,95:
Оставшаяся вероятность (
Обычно используемые уровни достоверности:
- 90% с
= 0.1 - 95% с
= 0.05 - 99% с
= 0.01
Примечание: 95% уровень достоверности означает, что если мы возьмем 100 различных выборок и сделаем доверительные интервалы для каждого:
Истинный параметр будет в 95 доверительном интервале из этих 100 раз.
Мы используем стандартное нормальное распределение, чтобы найти предел погрешности для доверительного интервала.
Остальные вероятности (
Значения на оси z-значений, которые отделяют область хвоста от середины, называются критическими z-значениями.
Ниже приведены графики стандартного нормального распределения, показывающие области хвоста (
4. Расчет погрешности
Предел погрешности - это разница между точечной оценкой и нижней и верхней границами.
Предел погрешности (
Критическое z-значение
Стандартная ошибка
В нашем примере с 6 лауреатами Нобелевской премии, родившимися в США из 30 выборки, стандартная ошибка равна:
Если мы выберем 95% в качестве уровня достоверности
Т.о. нам нужно найти критическое z-значение
Критическое z-значение можно найти с помощью Z-table или с помощью функции языка программирования:
Пример
В Python используйте функцию библиотеки Scipy Stats norm.ppf()
чтобы найти Z-значение для
import scipy.stats as stats
print(stats.norm.ppf(1-0.025))
Попробуйте сами »
Пример
В R используйте встроенную функцию qnorm()
чтобы найти Z-значение для
qnorm(1-0.025)
Попробуйте сами »
Используя любой метод, мы можем найти, что критическое Z-значение
Стандартная ошибка
Таким образом, предел погрешности (
5. Рассчитайте доверительный интервал
Нижняя и верхняя границы доверительного интервала находятся путем вычитания и прибавления погрешности (
В нашем примере точечная оценка составила 0,2, а предел погрешности - 0,143, тогда:
Нижняя граница:
Верхняя граница:
Доверительный интервал:
И мы можем резюмировать доверительный интервал, указав:
Доверительный интервал 95% для доли лауреатов Нобелевской премии, родившихся в США, находится между 5.7% и 34.4%
Расчет доверительного интервала с помощью программирования
Доверительный интервал можно рассчитать с помощью многих языков программирования.
Использование программного обеспечения и программирования для расчета статистики более распространено для больших наборов данных, поскольку расчет вручную становится затруднительным.
Пример
В Python используйте библиотеки scipy и math для вычисления доверительного интервала для предполагаемой доли.
Здесь размер выборки составляет 30, а количество вхождений - 6.
import scipy.stats as stats
import math
# Укажите количество выборок (x), размер выборки (n) и уровень достоверности
x = 6
n = 30
confidence_level = 0.95
# Рассчитайте точечную оценку, alpha, критическое z-значение, стандартную ошибку и предел погрешности
point_estimate = x/n
alpha = (1-confidence_level)
critical_z = stats.norm.ppf(1-alpha/2)
standard_error = math.sqrt((point_estimate*(1-point_estimate)/n))
margin_of_error = critical_z * standard_error
# Рассчитайте нижнюю и верхнюю границы доверительного интервала
lower_bound = point_estimate - margin_of_error
upper_bound = point_estimate + margin_of_error
# Распечатайте результаты
print("Point Estimate: {:.3f}".format(point_estimate))
print("Critical Z-value: {:.3f}".format(critical_z))
print("Margin of Error: {:.3f}".format(margin_of_error))
print("Confidence Interval: [{:.3f},{:.3f}]".format(lower_bound,upper_bound))
print("The {:.1%} confidence interval for the population proportion is:".format(confidence_level))
print("between {:.3f} and {:.3f}".format(lower_bound,upper_bound))
Попробуйте сами »
Пример
R может использовать встроенные математические и статистические функции для вычисления доверительного интервала для предполагаемой доли.
Здесь размер выборки составляет 30, а количество вхождений - 6.
# Укажите количество выборок (x), размер выборки (n) и уровень достоверности
x = 6
n = 30
confidence_level = 0.95
# Рассчитайте точечную оценку, alpha, критическое z-значение, стандартную ошибку и предел погрешности.
point_estimate = x/n
alpha = (1-confidence_level)
critical_z = qnorm(1-alpha/2)
standard_error = sqrt(point_estimate*(1-point_estimate)/n)
margin_of_error = critical_z * standard_error
# Рассчитайте нижнюю и верхнюю границы доверительного интервала
lower_bound = point_estimate - margin_of_error
upper_bound = point_estimate + margin_of_error
# Распечатайте результаты
sprintf("Point Estimate: %0.3f", point_estimate)
sprintf("Critical Z-value: %0.3f", critical_z)
sprintf("Margin of Error: %0.3f", margin_of_error)
sprintf("Confidence Interval: [%0.3f,%0.3f]", lower_bound, upper_bound)
sprintf("The %0.1f%% confidence interval for the population proportion is:", confidence_level*100)
sprintf("between %0.4f and %0.4f", lower_bound, upper_bound)
Попробуйте сами »