Статистика - Оценка доли совокупности
Доля совокупности - это часть совокупности, которая принадлежит к определенной категории.
Доверительные интервалы используются для estimate доли совокупности.
Оценка доли совокупности
Статистика выборки используется для оценки параметра генеральной совокупности.
Наиболее вероятное значение параметра - это точечная оценка.
Кроме того, мы можем вычислить нижнюю границу и верхнюю границу для оценочного параметра.
Предел погрешности - это разница между нижней и верхней границами от точечной оценки.
Вместе нижняя и верхняя границы определяют доверительный интервал.
Расчет доверительного интервала
Для расчета доверительного интервала используются следующие шаги:
- Проверьте условия
- Найдите точечную оценку
- Определите уровень достоверности
- Рассчитайте погрешность
- Рассчитайте доверительный интервал
Например:
- Совокупность: Лауреаты Нобелевской премии
- Категория: Родился в Соединенных Штатах Америки
Мы можем взять выборку и посмотреть, сколько из них родились в США.
Выборки данных используются для оценки доли всех лауреатов Нобелевской премии, родившихся в США.
Случайным образом выбрав 30 лауреатов Нобелевской премии, мы смогли найти, что:
6 из 30 нобелевских лауреатов в выборке родились в США.
По этим данным мы можем рассчитать доверительный интервал, выполнив следующие действия.
1. Проверка условий
Условия для расчета доверительного интервала для доли следующие:
- Выборка произведена случайным образом
- Есть только два варианта:
- Находиться в категории
- Не в категории
- Для выборки требуется как минимум:
- 5 участников в категории
- 5 участников не в категории
В нашем примере мы случайным образом выбрали 6 человек, родившихся в США.
Остальные не родились в США, поэтому 24 из них принадлежат к другой категории.
В этом случае условия выполнены.
Примечание: Можно рассчитать доверительный интервал, не имея 5 из каждой категории. Но необходимо внести особые корректировки.
2. Нахождение точечной оценки
Точечная оценка - это доля выборки (\(\hat{p}\)).
Формула для расчета доли выборки - это количество вхождений (\(x\)), делённое на размер выборки (\(n\)):
\(\displaystyle \hat{p} =\frac{x}{n}\)
В нашем примере 6 из 30 родились в США: \(x\) is 6, and \(n\) is 30.
Таким образом, точечная оценка доли равна:
\(\displaystyle \hat{p} = \frac{x}{n} = \frac{6}{30} = \underline{0.2} = 20\%\)
Таким образом, 20% из выборки родились в США.
3. Определение уровня достоверности
Уровень достоверности выражается в процентах или десятичном числе.
Например, если уровень достоверности 95% или 0,95:
Оставшаяся вероятность (\(\alpha\)) тогда равна: 5%, или 1 - 0.95 = 0.05.
Обычно используемые уровни достоверности:
- 90% с \(\alpha\) = 0.1
- 95% с \(\alpha\) = 0.05
- 99% с \(\alpha\) = 0.01
Примечание: 95% уровень достоверности означает, что если мы возьмем 100 различных выборок и сделаем доверительные интервалы для каждого:
Истинный параметр будет в 95 доверительном интервале из этих 100 раз.
Мы используем стандартное нормальное распределение, чтобы найти предел погрешности для доверительного интервала.
Остальные вероятности (\(\alpha\)) делятся на две, так что половина находится в каждой хвостовой области распределения.
Значения на оси z-значений, которые отделяют область хвоста от середины, называются критическими z-значениями.
Ниже приведены графики стандартного нормального распределения, показывающие области хвоста (\(\alpha\)) для различных уровней достоверности.
4. Расчет погрешности
Предел погрешности - это разница между точечной оценкой и нижней и верхней границами.
Предел погрешности (\(E\)) для пропорции рассчитывается с помощью критического z-значения и стандартной ошибки:
\(\displaystyle E = Z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \)
Критическое z-значение \(Z_{\alpha/2} \) рассчитывается на основе стандартного нормального распределения и уровня достоверности.
Стандартная ошибка \(\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \) рассчитывается из точечной оценки (\(\hat{p}\)) и размера выборки (\(n\)).
В нашем примере с 6 лауреатами Нобелевской премии, родившимися в США из 30 выборки, стандартная ошибка равна:
\(\displaystyle \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} = \sqrt{\frac{0.2(1-0.2)}{30}} = \sqrt{\frac{0.2 \cdot 0.8}{30}} = \sqrt{\frac{0.16}{30}} = \sqrt{0.00533..} \approx \underline{0.073}\)
Если мы выберем 95% в качестве уровня достоверности \(\alpha\) составляет 0.05.
Т.о. нам нужно найти критическое z-значение \(Z_{0.05/2} = Z_{0.025}\)
Критическое z-значение можно найти с помощью Z-table или с помощью функции языка программирования:
Пример
В Python используйте функцию библиотеки Scipy Stats norm.ppf()
чтобы найти Z-значение для \(\alpha\)/2 = 0.025
import scipy.stats as stats
print(stats.norm.ppf(1-0.025))
Попробуйте сами »
Пример
В R используйте встроенную функцию qnorm()
чтобы найти Z-значение для \(\alpha\)/2 = 0.025
qnorm(1-0.025)
Попробуйте сами »
Используя любой метод, мы можем найти, что критическое Z-значение \( Z_{\alpha/2} \) is \(\approx \underline{1.96} \)
Стандартная ошибка \(\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\) была \( \approx \underline{0.073}\)
Таким образом, предел погрешности (\(E\)) является:
\(\displaystyle E = Z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \approx 1.96 \cdot 0.073 = \underline{0.143}\)
5. Рассчитайте доверительный интервал
Нижняя и верхняя границы доверительного интервала находятся путем вычитания и прибавления погрешности (\(E\)) из точечной оценки (\(\hat{p}\)).
В нашем примере точечная оценка составила 0,2, а предел погрешности - 0,143, тогда:
Нижняя граница:
\(\hat{p} - E = 0.2 - 0.143 = \underline{0.057} \)
Верхняя граница:
\(\hat{p} + E = 0.2 + 0.143 = \underline{0.343} \)
Доверительный интервал:
\([0.057, 0.343]\) or \([5.7 \%, 34,4 \%]\)
И мы можем резюмировать доверительный интервал, указав:
Доверительный интервал 95% для доли лауреатов Нобелевской премии, родившихся в США, находится между 5.7% и 34.4%
Расчет доверительного интервала с помощью программирования
Доверительный интервал можно рассчитать с помощью многих языков программирования.
Использование программного обеспечения и программирования для расчета статистики более распространено для больших наборов данных, поскольку расчет вручную становится затруднительным.
Пример
В Python используйте библиотеки scipy и math для вычисления доверительного интервала для предполагаемой доли.
Здесь размер выборки составляет 30, а количество вхождений - 6.
import scipy.stats as stats
import math
# Укажите количество выборок (x), размер выборки (n) и уровень достоверности
x = 6
n = 30
confidence_level = 0.95
# Рассчитайте точечную оценку, alpha, критическое z-значение, стандартную ошибку и предел погрешности
point_estimate = x/n
alpha = (1-confidence_level)
critical_z = stats.norm.ppf(1-alpha/2)
standard_error = math.sqrt((point_estimate*(1-point_estimate)/n))
margin_of_error = critical_z * standard_error
# Рассчитайте нижнюю и верхнюю границы доверительного интервала
lower_bound = point_estimate - margin_of_error
upper_bound = point_estimate + margin_of_error
# Распечатайте результаты
print("Point Estimate: {:.3f}".format(point_estimate))
print("Critical Z-value: {:.3f}".format(critical_z))
print("Margin of Error: {:.3f}".format(margin_of_error))
print("Confidence Interval: [{:.3f},{:.3f}]".format(lower_bound,upper_bound))
print("The {:.1%} confidence interval for the population proportion is:".format(confidence_level))
print("between {:.3f} and {:.3f}".format(lower_bound,upper_bound))
Попробуйте сами »
Пример
R может использовать встроенные математические и статистические функции для вычисления доверительного интервала для предполагаемой доли.
Здесь размер выборки составляет 30, а количество вхождений - 6.
# Укажите количество выборок (x), размер выборки (n) и уровень достоверности
x = 6
n = 30
confidence_level = 0.95
# Рассчитайте точечную оценку, alpha, критическое z-значение, стандартную ошибку и предел погрешности.
point_estimate = x/n
alpha = (1-confidence_level)
critical_z = qnorm(1-alpha/2)
standard_error = sqrt(point_estimate*(1-point_estimate)/n)
margin_of_error = critical_z * standard_error
# Рассчитайте нижнюю и верхнюю границы доверительного интервала
lower_bound = point_estimate - margin_of_error
upper_bound = point_estimate + margin_of_error
# Распечатайте результаты
sprintf("Point Estimate: %0.3f", point_estimate)
sprintf("Critical Z-value: %0.3f", critical_z)
sprintf("Margin of Error: %0.3f", margin_of_error)
sprintf("Confidence Interval: [%0.3f,%0.3f]", lower_bound, upper_bound)
sprintf("The %0.1f%% confidence interval for the population proportion is:", confidence_level*100)
sprintf("between %0.4f and %0.4f", lower_bound, upper_bound)
Попробуйте сами »