Статистика - Оценка средней совокупности
Среднее совокупности - это среднее значение числовой переменной совокупности.
Доверительные интервалы используются для оценки средних значений совокупности.
Оценка среднего совокупности
Статистика из выборки используется для оценки параметра генеральной совокупности.
Наиболее вероятным значением параметра является точечная оценка.
Кроме того, мы можем вычислить нижнюю границу и верхнюю границу для оценочного параметра.
Погрешность - это разница между нижней и верхней границами от точечной оценки.
Вместе нижняя и верхняя границы определяют доверительный интервал.
Расчет доверительного интервала
Для расчета доверительного интервала используются следующие шаги:
- Проверить условия
- Найдите точечную оценку
- Определите уровень достоверности
- Рассчитайте погрешность
- Рассчитать доверительный интервал
Например:
- Совокупность: Лауреаты Нобелевской премии
- Переменная: Возраст, когда они получили Нобелевскую премию
Мы можем взять выборку и вычислить среднее значение и стандартное отклонение этой выборки.
Выборки данных используются для оценки среднего возраста всех лауреатов Нобелевской премии.
Случайным образом выбрав 30 лауреатов Нобелевской премии, мы смогли найти, что:
Средний возраст в выборке - 62,1 года
Стандартное отклонение возраста в выборке составляет 13.46
На основе этих данных мы можем рассчитать доверительный интервал, выполнив следующие действия.
1. Проверка условий
Условия для расчета доверительного интервала для среднего:
- Выборка произведена случайным образом
- И при этом:
- Данные о совокупности распределены нормально
- Размер выборки достаточно велик
Обычно достаточно большого размера выборки, например 30.
В этом примере размер выборки был 30, и она была выбрана случайным образом, поэтому условия выполняются.
Примечание: Проверить, нормально ли распределяются данные, можно с помощью специализированных статистических тестов.
2. Нахождение точечной оценки
Точечная оценка - это среднее выборки (\(\bar{x}\)).
Формула для вычисления среднего значения выборки представляет собой сумму всех значений \(\sum x_{i}\) деленную на размер выборки (\(n\)):
\(\displaystyle \bar{x} = \frac{\sum x_{i}}{n}\)
В нашем примере средний возраст в выборке составил 62,1 года.
3. Определение уровня достоверности
Уровень достоверности выражается в процентах или десятичном числе.
Например, если уровень достоверности 95% или 0,95:
Оставшаяся вероятность (\(\alpha\)) тогда равна: 5%, или 1 - 0.95 = 0.05.
Обычно используемые уровни достоверности:
- 90% с \(\alpha\) = 0.1
- 95% с \(\alpha\) = 0.05
- 99% с \(\alpha\) = 0.01
Примечание: А 95% уровень достоверности означает, что если мы возьмем 100 различных выборок и сделаем доверительные интервалы для каждой:
Истинный параметр будет в 95 доверительном интервале из этих 100 раз.
Мы используем стьюдент t-распределение, чтобы найти предел погрешности для доверительного интервала.
T-распределение корректируется для размера выборки с помощью "degrees of freedom" (df) - "степеней свободы".
Степени свободы - это размер выборки (n) - 1, поэтому в этом примере это 30 - 1 = 29
Оставшиеся вероятности (\(\alpha\)) делятся на две, так что половина приходится на каждую хвостовую область распределения.
Значения на оси t-значений, которые отделяют область хвоста от середины, называются критическими t-значениями.
Ниже приведены графики стандартного нормального распределения, показывающие области хвоста (\(\alpha\)) для различных уровней достоверности при 29 степенях свободы (df).
4. Расчет погрешности
Предел погрешности - это разница между точечной оценкой и нижней и верхней границами.
Предел погрешности (\(E\)) для пропорции рассчитывается с помощью критического t-значения и стандартной ошибки:
\(\displaystyle E = t_{\alpha/2}(df) \cdot \frac{s}{\sqrt{n}} \)
Критическое t-значение \(t_{\alpha/2}(df) \) рассчитывается на основе стандартного нормального распределения и уровня достоверности.
Стандартная ошибка \(\frac{s}{\sqrt{n}} \) рассчитывается на основе стандартного отклонения выборки (\(s\)) и размера выборки (\(n\)).
В нашем примере со стандартным отклонением выборки (\(s\)) 13,46 и размером выборки 30 стандартная ошибка составляет:
\(\displaystyle \frac{s}{\sqrt{n}} = \frac{13.46}{\sqrt{30}} \approx \frac{13.46}{5.477} = \underline{2.458}\)
Если мы выберем 95% в качестве уровня достоверности \(\alpha\) является 0.05.
Т.о. нам нужно найти критическое t-значение \(t_{0.05/2}(29) = t_{0.025}(29)\)
Критическое t-значение можно найти с помощью t-таблицы или с помощью функции языка программирования:
Пример
В Python используйте функцию библиотеки Scipy Stats t.ppf()
чтобы найти t-значение для \(\alpha\)/2 = 0.025 и 29 степеней свободы.
import scipy.stats as stats
print(stats.t.ppf(1-0.025, 29))
Попробуйте сами »
Пример
В R используйте встроенную функцию qt()
чтобы найти t-значение для \(\alpha\)/2 = 0.025 и 29 степеней свободы.
qt(1-0.025, 29)
Попробуйте сами »
Используя любой метод, мы можем найти, что критическое t-значение \(t_{\alpha/2}(df)\) является \(\approx \underline{2.05} \)
Стандартная ошибка \(\frac{s}{\sqrt{n}}\) была \( \approx \underline{2.458}\)
Таким образом, погрешность равна (\(E\)):
\(\displaystyle E = t_{\alpha/2}(df) \cdot \frac{s}{\sqrt{n}} \approx 2.05 \cdot 2.458 = \underline{5.0389}\)
5. Рассчет доверительного интервала
Нижняя и верхняя границы доверительного интервала находятся путем вычитания и прибавления погрешности (\(E\)) из точечной оценки (\(\bar{x}\)).
В нашем примере точечная оценка составила 0,2, а предел погрешности - 0,143, тогда:
Нижняя граница:
\(\bar{x} - E = 62.1 - 5.0389 \approx \underline{57.06} \)
Верхняя граница:
\(\bar{x} + E = 62.1 + 5.0389 \approx \underline{67.14} \)
Доверительный интервал:
\([57.06, 67.14]\)
И мы можем резюмировать доверительный интервал, указав:
95% доверительный интервал для среднего возраста лауреатов Нобелевской премии составляет от 57.06 до 67.14 лет
Расчет доверительного интервала с помощью программирования
Доверительный интервал можно рассчитать с помощью многих языков программирования.
Использование программного обеспечения и программирования для расчета статистики более распространено для больших наборов данных, поскольку расчет вручную становится затруднительным.
Примечание: Результаты использования программного кода будут более точными из-за округления значений при вычислении вручную.
Пример
В Python используйте scipy и math библиотеки для вычисления доверительного интервала для предполагаемой доли.
Здесь размер выборки - 30, среднее значение выборки - 62,1, а стандартное отклонение - 13,46.
import scipy.stats as stats
import math
# Укажите среднее значение выборки (x_bar), стандартное отклонение выборки (s), размер выборки (n) и уровень достоверности
x_bar = 62.1
s = 13.46
n = 30
confidence_level = 0.95
# Рассчитайте alpha, степени свободы (df), критическое t-значение и предел погрешности
alpha = (1-confidence_level)
df = n - 1
standard_error = s/math.sqrt(n)
critical_t = stats.t.ppf(1-alpha/2, df)
margin_of_error = critical_t * standard_error
# Вычислить нижнюю и верхнюю границы доверительного интервала
lower_bound = x_bar - margin_of_error
upper_bound = x_bar + margin_of_error
# Распечатайте результаты
print("Critical t-value: {:.3f}".format(critical_t))
print("Margin of Error: {:.3f}".format(margin_of_error))
print("Confidence Interval: [{:.3f},{:.3f}]".format(lower_bound,upper_bound))
print("The {:.1%} confidence interval for the population mean is:".format(confidence_level))
print("between {:.3f} and {:.3f}".format(lower_bound,upper_bound))
Попробуйте сами »
Пример
R может использовать встроенные математические и статистические функции для вычисления доверительного интервала для предполагаемой доли.
Здесь размер выборки - 30, среднее значение выборки - 62,1, а стандартное отклонение - 13,46.
# Укажите среднее значение выборки (x_bar), стандартное отклонение выборки (s), размер выборки (n) и уровень достоверности
x_bar = 62.1
s = 13.46
n = 30
confidence_level = 0.95
# Рассчитайте alpha, степени свободы (df), критическое t-значение и предел погрешности.
alpha = (1-confidence_level)
df = n - 1
standard_error = s/sqrt(n)
critical_t = qt(1-alpha/2, 29)
margin_of_error = critical_t * standard_error
# Вычислить нижнюю и верхнюю границы доверительного интервала
lower_bound = x_bar - margin_of_error
upper_bound = x_bar + margin_of_error
# Распечатайте результаты
sprintf("Critical t-value: %0.3f", critical_t)
sprintf("Margin of Error: %0.3f", margin_of_error)
sprintf("Confidence Interval: [%0.3f,%0.3f]", lower_bound, upper_bound)
sprintf("The %0.1f%% confidence interval for the population mean is:", confidence_level*100)
sprintf("between %0.4f and %0.4f", lower_bound, upper_bound)
Попробуйте сами »
Примечание: R также имеет встроенную функцию для вычисления доверительного интервала для среднего значения генеральной совокупности.
Пример
R может использовать встроенную функцию t.test()
для вычисления доверительного интервала для оценочного среднего.
Здесь выборка представляет собой 30 случайно сгенерированных значений со средним значением 60 и стандартным отклонением 12,5 с использованием функции rnorm()
для создания выборки.
# Укажите размер выборки (n) и уровень достоверности
n = 30
confidence_level = 0.95
# Установите случайное начальное число и сгенерируйте данные выборки со средним значением 60 и стандартным отклонением 12,5
set.seed(3)
sample <- rnorm(n, 60, 12.5)
# t.test function for sample data, confidence level, and selecting the $conf.int option
t.test(sample, conf.level = confidence_level)$conf.int
Попробуйте сами »