Статистика - Оценка доли совокупности

❮ Prev Next ❯

Доля совокупности - это часть совокупности, которая принадлежит к определенной категории.

Доверительные интервалы используются для estimate доли совокупности.

Оценка доли совокупности

Статистика выборки используется для оценки параметра генеральной совокупности.

Наиболее вероятное значение параметра - это точечная оценка.

Кроме того, мы можем вычислить нижнюю границу и верхнюю границу для оценочного параметра.

Предел погрешности - это разница между нижней и верхней границами от точечной оценки.

Вместе нижняя и верхняя границы определяют доверительный интервал.

Расчет доверительного интервала

Для расчета доверительного интервала используются следующие шаги:

Проверьте условия
Найдите точечную оценку
Определите уровень достоверности
Рассчитайте погрешность
Рассчитайте доверительный интервал

Например:

Совокупность: Лауреаты Нобелевской премии
Категория: Родился в Соединенных Штатах Америки

Мы можем взять выборку и посмотреть, сколько из них родились в США.

Выборки данных используются для оценки доли всех лауреатов Нобелевской премии, родившихся в США.

Случайным образом выбрав 30 лауреатов Нобелевской премии, мы смогли найти, что:

6 из 30 нобелевских лауреатов в выборке родились в США.

По этим данным мы можем рассчитать доверительный интервал, выполнив следующие действия.

1. Проверка условий

Условия для расчета доверительного интервала для доли следующие:

Выборка произведена случайным образом
Есть только два варианта:

Находиться в категории
Не в категории

Для выборки требуется как минимум:

5 участников в категории
5 участников не в категории

В нашем примере мы случайным образом выбрали 6 человек, родившихся в США.

Остальные не родились в США, поэтому 24 из них принадлежат к другой категории.

В этом случае условия выполнены.

Примечание: Можно рассчитать доверительный интервал, не имея 5 из каждой категории. Но необходимо внести особые корректировки.

2. Нахождение точечной оценки

Точечная оценка - это доля выборки (\(\hat{p}\)).

Формула для расчета доли выборки - это количество вхождений (\(x\)), делённое на размер выборки (\(n\)):

\(\displaystyle \hat{p} =\frac{x}{n}\)

В нашем примере 6 из 30 родились в США: \(x\) is 6, and \(n\) is 30.

Таким образом, точечная оценка доли равна:

\(\displaystyle \hat{p} = \frac{x}{n} = \frac{6}{30} = \underline{0.2} = 20\%\)

Таким образом, 20% из выборки родились в США.

3. Определение уровня достоверности

Уровень достоверности выражается в процентах или десятичном числе.

Например, если уровень достоверности 95% или 0,95:

Оставшаяся вероятность (\(\alpha\)) тогда равна: 5%, или 1 - 0.95 = 0.05.

Обычно используемые уровни достоверности:

90% с \(\alpha\) = 0.1
95% с \(\alpha\) = 0.05
99% с \(\alpha\) = 0.01

Примечание: 95% уровень достоверности означает, что если мы возьмем 100 различных выборок и сделаем доверительные интервалы для каждого:

Истинный параметр будет в 95 доверительном интервале из этих 100 раз.

Мы используем стандартное нормальное распределение, чтобы найти предел погрешности для доверительного интервала.

Остальные вероятности (\(\alpha\)) делятся на две, так что половина находится в каждой хвостовой области распределения.

Значения на оси z-значений, которые отделяют область хвоста от середины, называются критическими z-значениями.

Ниже приведены графики стандартного нормального распределения, показывающие области хвоста (\(\alpha\)) для различных уровней достоверности.

Стандартные нормальные распределения с двумя областями хвоста, с разными размерами

4. Расчет погрешности

Предел погрешности - это разница между точечной оценкой и нижней и верхней границами.

Предел погрешности (\(E\)) для пропорции рассчитывается с помощью критического z-значения и стандартной ошибки:

\(\displaystyle E = Z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \)

Критическое z-значение \(Z_{\alpha/2} \) рассчитывается на основе стандартного нормального распределения и уровня достоверности.

Стандартная ошибка \(\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \) рассчитывается из точечной оценки (\(\hat{p}\)) и размера выборки (\(n\)).

В нашем примере с 6 лауреатами Нобелевской премии, родившимися в США из 30 выборки, стандартная ошибка равна:

\(\displaystyle \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} = \sqrt{\frac{0.2(1-0.2)}{30}} = \sqrt{\frac{0.2 \cdot 0.8}{30}} = \sqrt{\frac{0.16}{30}} = \sqrt{0.00533..} \approx \underline{0.073}\)

Если мы выберем 95% в качестве уровня достоверности \(\alpha\) составляет 0.05.

Т.о. нам нужно найти критическое z-значение \(Z_{0.05/2} = Z_{0.025}\)

Критическое z-значение можно найти с помощью Z-table или с помощью функции языка программирования:

Пример

В Python используйте функцию библиотеки Scipy Stats norm.ppf() чтобы найти Z-значение для \(\alpha\)/2 = 0.025

import scipy.stats as stats
print(stats.norm.ppf(1-0.025))

Попробуйте сами »

Пример

В R используйте встроенную функцию qnorm() чтобы найти Z-значение для \(\alpha\)/2 = 0.025

qnorm(1-0.025)

Попробуйте сами »

Используя любой метод, мы можем найти, что критическое Z-значение \( Z_{\alpha/2} \) is \(\approx \underline{1.96} \)

Стандартная ошибка \(\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\) была \( \approx \underline{0.073}\)

Таким образом, предел погрешности (\(E\)) является:

\(\displaystyle E = Z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \approx 1.96 \cdot 0.073 = \underline{0.143}\)

5. Рассчитайте доверительный интервал

Нижняя и верхняя границы доверительного интервала находятся путем вычитания и прибавления погрешности (\(E\)) из точечной оценки (\(\hat{p}\)).

В нашем примере точечная оценка составила 0,2, а предел погрешности - 0,143, тогда:

Нижняя граница:

\(\hat{p} - E = 0.2 - 0.143 = \underline{0.057} \)

Верхняя граница:

\(\hat{p} + E = 0.2 + 0.143 = \underline{0.343} \)

Доверительный интервал:

\([0.057, 0.343]\) or \([5.7 \%, 34,4 \%]\)

И мы можем резюмировать доверительный интервал, указав:

Доверительный интервал 95% для доли лауреатов Нобелевской премии, родившихся в США, находится между 5.7% и 34.4%

Расчет доверительного интервала с помощью программирования

Доверительный интервал можно рассчитать с помощью многих языков программирования.

Использование программного обеспечения и программирования для расчета статистики более распространено для больших наборов данных, поскольку расчет вручную становится затруднительным.

Пример

В Python используйте библиотеки scipy и math для вычисления доверительного интервала для предполагаемой доли.

Здесь размер выборки составляет 30, а количество вхождений - 6.

import scipy.stats as stats
import math

# Укажите количество выборок (x), размер выборки (n) и уровень достоверности
x = 6
n = 30
confidence_level = 0.95

# Рассчитайте точечную оценку, alpha, критическое z-значение, стандартную ошибку и предел погрешности
point_estimate = x/n
alpha = (1-confidence_level)
critical_z = stats.norm.ppf(1-alpha/2)
standard_error = math.sqrt((point_estimate*(1-point_estimate)/n))
margin_of_error = critical_z * standard_error

# Рассчитайте нижнюю и верхнюю границы доверительного интервала
lower_bound = point_estimate - margin_of_error
upper_bound = point_estimate + margin_of_error

# Распечатайте результаты
print("Point Estimate: {:.3f}".format(point_estimate))
print("Critical Z-value: {:.3f}".format(critical_z))
print("Margin of Error: {:.3f}".format(margin_of_error))
print("Confidence Interval: [{:.3f},{:.3f}]".format(lower_bound,upper_bound))
print("The {:.1%} confidence interval for the population proportion is:".format(confidence_level))
print("between {:.3f} and {:.3f}".format(lower_bound,upper_bound))

Попробуйте сами »

Пример

R может использовать встроенные математические и статистические функции для вычисления доверительного интервала для предполагаемой доли.

Здесь размер выборки составляет 30, а количество вхождений - 6.

# Укажите количество выборок (x), размер выборки (n) и уровень достоверности
x = 6
n = 30
confidence_level = 0.95

# Рассчитайте точечную оценку, alpha, критическое z-значение, стандартную ошибку и предел погрешности.
point_estimate = x/n
alpha = (1-confidence_level)
critical_z = qnorm(1-alpha/2)
standard_error = sqrt(point_estimate*(1-point_estimate)/n)
margin_of_error = critical_z * standard_error

# Рассчитайте нижнюю и верхнюю границы доверительного интервала
lower_bound = point_estimate - margin_of_error
upper_bound = point_estimate + margin_of_error

# Распечатайте результаты
sprintf("Point Estimate: %0.3f", point_estimate)
sprintf("Critical Z-value: %0.3f", critical_z)
sprintf("Margin of Error: %0.3f", margin_of_error)
sprintf("Confidence Interval: [%0.3f,%0.3f]", lower_bound, upper_bound)
sprintf("The %0.1f%% confidence interval for the population proportion is:", confidence_level*100)
sprintf("between %0.4f and %0.4f", lower_bound, upper_bound)

Попробуйте сами »

❮ Prev Next ❯

HTML и CSS

Искусственный интеллект

XML

JavaScript

Программирование

Серверная сторона

Веб-строительство

Искусственный интеллект

XML

HTML

CSS

JavaScript

Программирование

Серверная сторона

XML

Наборы символов

Упражнения

Викторины

Сертификаты

Статистика Учебник

Описательная статистика

Выведенная статистика

Stat Справочник

Статистика - Оценка доли совокупности

Оценка доли совокупности

Расчет доверительного интервала

1. Проверка условий

2. Нахождение точечной оценки

3. Определение уровня достоверности

4. Расчет погрешности

Пример

Пример

5. Рассчитайте доверительный интервал

Расчет доверительного интервала с помощью программирования

Пример

Пример

ПАЛИТРА ЦВЕТОВ

ПРИСОЕДИНЯЙТЕСЬ!

Связь с админом

Топ Учебники

Топ Справочники

Топ Примеры

Веб Сертификаты