ЛУЧШИЙ САЙТ ДЛЯ ВЕБ-РАЗРАБОТЧИКОВ

Статистика Учебник

Stat Главная Stat Интро Stat Сбор данных Stat Описание данных Stat Делаем выводы Stat Прогнозирование & Объяснение Stat Совокупность & Выборка Stat Параметры & Статистика Stat Типы исследований Stat Типы выборок Stat Типы данных Stat Уровни измерения

Описательная статистика

Stat Описательная статистика Stat Таблицы частот Stat Гистограммы Stat Бар-графики Stat Круговые диаграммы Stat Коробчатые графики Stat Среднее значение Stat Среднее Stat Медиана Stat Режим Stat Вариация Stat Диапазон Stat Квартили и процентили Stat Межквартильный диапазон Stat Среднеквадратичное отклонение

Выведенная статистика

Stat Статистические выводы Stat Нормальное распределение Stat Стандартное нормальное Stat Т-распределение Stat Предварительный расчет Stat Оценка доли совокупности Stat Оценка средней совокупности Stat Проверка гипотезы Stat Проверка пропорции Stat Проверка среднего

Stat Справочник

Stat Z-таблица Stat T-таблица Stat Пропорция проверки гипотез (левосторонняя) Stat Пропорция проверки гипотез (двусторонняя) Stat Среднее значение проверки гипотез (левосторонняя) Stat Среднее значение проверки гипотез (двусторонняя)

Статистика. W3Schools на русском. Уроки для начинающих

Статистика - Оценка доли совокупности


Доля совокупности - это часть совокупности, которая принадлежит к определенной категории.

Доверительные интервалы используются для estimate доли совокупности.


Оценка доли совокупности

Статистика выборки используется для оценки параметра генеральной совокупности.

Наиболее вероятное значение параметра - это точечная оценка.

Кроме того, мы можем вычислить нижнюю границу и верхнюю границу для оценочного параметра.

Предел погрешности - это разница между нижней и верхней границами от точечной оценки.

Вместе нижняя и верхняя границы определяют доверительный интервал.


Расчет доверительного интервала

Для расчета доверительного интервала используются следующие шаги:

  1. Проверьте условия
  2. Найдите точечную оценку
  3. Определите уровень достоверности
  4. Рассчитайте погрешность
  5. Рассчитайте доверительный интервал

Например:

  • Совокупность: Лауреаты Нобелевской премии
  • Категория: Родился в Соединенных Штатах Америки

Мы можем взять выборку и посмотреть, сколько из них родились в США.

Выборки данных используются для оценки доли всех лауреатов Нобелевской премии, родившихся в США.

Случайным образом выбрав 30 лауреатов Нобелевской премии, мы смогли найти, что:

6 из 30 нобелевских лауреатов в выборке родились в США.

По этим данным мы можем рассчитать доверительный интервал, выполнив следующие действия.


1. Проверка условий

Условия для расчета доверительного интервала для доли следующие:

  • Выборка произведена случайным образом
  • Есть только два варианта:
    • Находиться в категории
    • Не в категории
  • Для выборки требуется как минимум:
    • 5 участников в категории
    • 5 участников не в категории

В нашем примере мы случайным образом выбрали 6 человек, родившихся в США.

Остальные не родились в США, поэтому 24 из них принадлежат к другой категории.

В этом случае условия выполнены.

Примечание: Можно рассчитать доверительный интервал, не имея 5 из каждой категории. Но необходимо внести особые корректировки.


2. Нахождение точечной оценки

Точечная оценка - это доля выборки (\(\hat{p}\)).

Формула для расчета доли выборки - это количество вхождений (\(x\)), делённое на размер выборки (\(n\)):

\(\displaystyle \hat{p} =\frac{x}{n}\)

В нашем примере 6 из 30 родились в США: \(x\) is 6, and \(n\) is 30.

Таким образом, точечная оценка доли равна:

\(\displaystyle \hat{p} = \frac{x}{n} = \frac{6}{30} = \underline{0.2} = 20\%\)

Таким образом, 20% из выборки родились в США.


3. Определение уровня достоверности

Уровень достоверности выражается в процентах или десятичном числе.

Например, если уровень достоверности 95% или 0,95:

Оставшаяся вероятность (\(\alpha\)) тогда равна: 5%, или 1 - 0.95 = 0.05.

Обычно используемые уровни достоверности:

  • 90% с \(\alpha\) = 0.1
  • 95% с \(\alpha\) = 0.05
  • 99% с \(\alpha\) = 0.01

Примечание: 95% уровень достоверности означает, что если мы возьмем 100 различных выборок и сделаем доверительные интервалы для каждого:

Истинный параметр будет в 95 доверительном интервале из этих 100 раз.

Мы используем стандартное нормальное распределение, чтобы найти предел погрешности для доверительного интервала.

Остальные вероятности (\(\alpha\)) делятся на две, так что половина находится в каждой хвостовой области распределения.

Значения на оси z-значений, которые отделяют область хвоста от середины, называются критическими z-значениями.

Ниже приведены графики стандартного нормального распределения, показывающие области хвоста (\(\alpha\)) для различных уровней достоверности.

Стандартные нормальные распределения с двумя областями хвоста, с разными размерами


4. Расчет погрешности

Предел погрешности - это разница между точечной оценкой и нижней и верхней границами.

Предел погрешности (\(E\)) для пропорции рассчитывается с помощью критического z-значения и стандартной ошибки:

\(\displaystyle E = Z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \)

Критическое z-значение \(Z_{\alpha/2} \) рассчитывается на основе стандартного нормального распределения и уровня достоверности.

Стандартная ошибка \(\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \) рассчитывается из точечной оценки (\(\hat{p}\)) и размера выборки (\(n\)).

В нашем примере с 6 лауреатами Нобелевской премии, родившимися в США из 30 выборки, стандартная ошибка равна:

\(\displaystyle \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} = \sqrt{\frac{0.2(1-0.2)}{30}} = \sqrt{\frac{0.2 \cdot 0.8}{30}} = \sqrt{\frac{0.16}{30}} = \sqrt{0.00533..} \approx \underline{0.073}\)

Если мы выберем 95% в качестве уровня достоверности \(\alpha\) составляет 0.05.

Т.о. нам нужно найти критическое z-значение \(Z_{0.05/2} = Z_{0.025}\)

Критическое z-значение можно найти с помощью Z-table или с помощью функции языка программирования:

Пример

В Python используйте функцию библиотеки Scipy Stats norm.ppf() чтобы найти Z-значение для \(\alpha\)/2 = 0.025

import scipy.stats as stats
print(stats.norm.ppf(1-0.025))
Попробуйте сами »

Пример

В R используйте встроенную функцию qnorm() чтобы найти Z-значение для \(\alpha\)/2 = 0.025

qnorm(1-0.025)
Попробуйте сами »

Используя любой метод, мы можем найти, что критическое Z-значение \( Z_{\alpha/2} \) is \(\approx \underline{1.96} \)

Стандартная ошибка \(\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\) была \( \approx \underline{0.073}\)

Таким образом, предел погрешности (\(E\)) является:

\(\displaystyle E = Z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \approx 1.96 \cdot 0.073 = \underline{0.143}\)


5. Рассчитайте доверительный интервал

Нижняя и верхняя границы доверительного интервала находятся путем вычитания и прибавления погрешности (\(E\)) из точечной оценки (\(\hat{p}\)).

В нашем примере точечная оценка составила 0,2, а предел погрешности - 0,143, тогда:

Нижняя граница:

\(\hat{p} - E = 0.2 - 0.143 = \underline{0.057} \)

Верхняя граница:

\(\hat{p} + E = 0.2 + 0.143 = \underline{0.343} \)

Доверительный интервал:

\([0.057, 0.343]\) or \([5.7 \%, 34,4 \%]\)

И мы можем резюмировать доверительный интервал, указав:

Доверительный интервал 95% для доли лауреатов Нобелевской премии, родившихся в США, находится между 5.7% и 34.4%


Расчет доверительного интервала с помощью программирования

Доверительный интервал можно рассчитать с помощью многих языков программирования.

Использование программного обеспечения и программирования для расчета статистики более распространено для больших наборов данных, поскольку расчет вручную становится затруднительным.

Пример

В Python используйте библиотеки scipy и math для вычисления доверительного интервала для предполагаемой доли.

Здесь размер выборки составляет 30, а количество вхождений - 6.

import scipy.stats as stats
import math

# Укажите количество выборок (x), размер выборки (n) и уровень достоверности
x = 6
n = 30
confidence_level = 0.95

# Рассчитайте точечную оценку, alpha, критическое z-значение, стандартную ошибку и предел погрешности
point_estimate = x/n
alpha = (1-confidence_level)
critical_z = stats.norm.ppf(1-alpha/2)
standard_error = math.sqrt((point_estimate*(1-point_estimate)/n))
margin_of_error = critical_z * standard_error

# Рассчитайте нижнюю и верхнюю границы доверительного интервала
lower_bound = point_estimate - margin_of_error
upper_bound = point_estimate + margin_of_error

# Распечатайте результаты
print("Point Estimate: {:.3f}".format(point_estimate))
print("Critical Z-value: {:.3f}".format(critical_z))
print("Margin of Error: {:.3f}".format(margin_of_error))
print("Confidence Interval: [{:.3f},{:.3f}]".format(lower_bound,upper_bound))
print("The {:.1%} confidence interval for the population proportion is:".format(confidence_level))
print("between {:.3f} and {:.3f}".format(lower_bound,upper_bound))
Попробуйте сами »

Пример

R может использовать встроенные математические и статистические функции для вычисления доверительного интервала для предполагаемой доли.

Здесь размер выборки составляет 30, а количество вхождений - 6.

# Укажите количество выборок (x), размер выборки (n) и уровень достоверности
x = 6
n = 30
confidence_level = 0.95

# Рассчитайте точечную оценку, alpha, критическое z-значение, стандартную ошибку и предел погрешности.
point_estimate = x/n
alpha = (1-confidence_level)
critical_z = qnorm(1-alpha/2)
standard_error = sqrt(point_estimate*(1-point_estimate)/n)
margin_of_error = critical_z * standard_error

# Рассчитайте нижнюю и верхнюю границы доверительного интервала
lower_bound = point_estimate - margin_of_error
upper_bound = point_estimate + margin_of_error

# Распечатайте результаты
sprintf("Point Estimate: %0.3f", point_estimate)
sprintf("Critical Z-value: %0.3f", critical_z)
sprintf("Margin of Error: %0.3f", margin_of_error)
sprintf("Confidence Interval: [%0.3f,%0.3f]", lower_bound, upper_bound)
sprintf("The %0.1f%% confidence interval for the population proportion is:", confidence_level*100)
sprintf("between %0.4f and %0.4f", lower_bound, upper_bound)
Попробуйте сами »