Статистика - Оценка средней совокупности

❮ Prev Next ❯

Среднее совокупности - это среднее значение числовой переменной совокупности.

Доверительные интервалы используются для оценки средних значений совокупности.

Оценка среднего совокупности

Статистика из выборки используется для оценки параметра генеральной совокупности.

Наиболее вероятным значением параметра является точечная оценка.

Кроме того, мы можем вычислить нижнюю границу и верхнюю границу для оценочного параметра.

Погрешность - это разница между нижней и верхней границами от точечной оценки.

Вместе нижняя и верхняя границы определяют доверительный интервал.

Расчет доверительного интервала

Для расчета доверительного интервала используются следующие шаги:

Проверить условия
Найдите точечную оценку
Определите уровень достоверности
Рассчитайте погрешность
Рассчитать доверительный интервал

Например:

Совокупность: Лауреаты Нобелевской премии
Переменная: Возраст, когда они получили Нобелевскую премию

Мы можем взять выборку и вычислить среднее значение и стандартное отклонение этой выборки.

Выборки данных используются для оценки среднего возраста всех лауреатов Нобелевской премии.

Случайным образом выбрав 30 лауреатов Нобелевской премии, мы смогли найти, что:

Средний возраст в выборке - 62,1 года

Стандартное отклонение возраста в выборке составляет 13.46

На основе этих данных мы можем рассчитать доверительный интервал, выполнив следующие действия.

1. Проверка условий

Условия для расчета доверительного интервала для среднего:

Выборка произведена случайным образом
И при этом:

Данные о совокупности распределены нормально
Размер выборки достаточно велик

Обычно достаточно большого размера выборки, например 30.

В этом примере размер выборки был 30, и она была выбрана случайным образом, поэтому условия выполняются.

Примечание: Проверить, нормально ли распределяются данные, можно с помощью специализированных статистических тестов.

2. Нахождение точечной оценки

Точечная оценка - это среднее выборки ($\bar{x}$).

Формула для вычисления среднего значения выборки представляет собой сумму всех значений $\sum x_{i}$ деленную на размер выборки ($n$):

$\displaystyle \bar{x} = \frac{\sum x_{i}}{n}$

В нашем примере средний возраст в выборке составил 62,1 года.

3. Определение уровня достоверности

Уровень достоверности выражается в процентах или десятичном числе.

Например, если уровень достоверности 95% или 0,95:

Оставшаяся вероятность ($\alpha$) тогда равна: 5%, или 1 - 0.95 = 0.05.

Обычно используемые уровни достоверности:

90% с $\alpha$ = 0.1
95% с $\alpha$ = 0.05
99% с $\alpha$ = 0.01

Примечание: А 95% уровень достоверности означает, что если мы возьмем 100 различных выборок и сделаем доверительные интервалы для каждой:

Истинный параметр будет в 95 доверительном интервале из этих 100 раз.

Мы используем стьюдент t-распределение, чтобы найти предел погрешности для доверительного интервала.

T-распределение корректируется для размера выборки с помощью "degrees of freedom" (df) - "степеней свободы".

Степени свободы - это размер выборки (n) - 1, поэтому в этом примере это 30 - 1 = 29

Оставшиеся вероятности ($\alpha$) делятся на две, так что половина приходится на каждую хвостовую область распределения.

Значения на оси t-значений, которые отделяют область хвоста от середины, называются критическими t-значениями.

Ниже приведены графики стандартного нормального распределения, показывающие области хвоста ($\alpha$) для различных уровней достоверности при 29 степенях свободы (df).

Стьюдент t-распределение с двумя областями хвоста, с разными размерами

4. Расчет погрешности

Предел погрешности - это разница между точечной оценкой и нижней и верхней границами.

Предел погрешности ($E$) для пропорции рассчитывается с помощью критического t-значения и стандартной ошибки:

$\displaystyle E = t_{\alpha/2}(df) \cdot \frac{s}{\sqrt{n}} $

Критическое t-значение $t_{\alpha/2}(df) $ рассчитывается на основе стандартного нормального распределения и уровня достоверности.

Стандартная ошибка $\frac{s}{\sqrt{n}} $ рассчитывается на основе стандартного отклонения выборки ($s$) и размера выборки ($n$).

В нашем примере со стандартным отклонением выборки ($s$) 13,46 и размером выборки 30 стандартная ошибка составляет:

$\displaystyle \frac{s}{\sqrt{n}} = \frac{13.46}{\sqrt{30}} \approx \frac{13.46}{5.477} = \underline{2.458}$

Если мы выберем 95% в качестве уровня достоверности $\alpha$ является 0.05.

Т.о. нам нужно найти критическое t-значение $t_{0.05/2}(29) = t_{0.025}(29)$

Критическое t-значение можно найти с помощью t-таблицы или с помощью функции языка программирования:

Пример

В Python используйте функцию библиотеки Scipy Stats t.ppf() чтобы найти t-значение для $\alpha$/2 = 0.025 и 29 степеней свободы.

import scipy.stats as stats
print(stats.t.ppf(1-0.025, 29))

Попробуйте сами »

Пример

В R используйте встроенную функцию qt() чтобы найти t-значение для $\alpha$/2 = 0.025 и 29 степеней свободы.

qt(1-0.025, 29)

Попробуйте сами »

Используя любой метод, мы можем найти, что критическое t-значение $t_{\alpha/2}(df)$ является $\approx \underline{2.05} $

Стандартная ошибка $\frac{s}{\sqrt{n}}$ была $ \approx \underline{2.458}$

Таким образом, погрешность равна ($E$):

$\displaystyle E = t_{\alpha/2}(df) \cdot \frac{s}{\sqrt{n}} \approx 2.05 \cdot 2.458 = \underline{5.0389}$

5. Рассчет доверительного интервала

Нижняя и верхняя границы доверительного интервала находятся путем вычитания и прибавления погрешности ($E$) из точечной оценки ($\bar{x}$).

В нашем примере точечная оценка составила 0,2, а предел погрешности - 0,143, тогда:

Нижняя граница:

$\bar{x} - E = 62.1 - 5.0389 \approx \underline{57.06} $

Верхняя граница:

$\bar{x} + E = 62.1 + 5.0389 \approx \underline{67.14} $

Доверительный интервал:

$[57.06, 67.14]$

И мы можем резюмировать доверительный интервал, указав:

95% доверительный интервал для среднего возраста лауреатов Нобелевской премии составляет от 57.06 до 67.14 лет

Расчет доверительного интервала с помощью программирования

Доверительный интервал можно рассчитать с помощью многих языков программирования.

Использование программного обеспечения и программирования для расчета статистики более распространено для больших наборов данных, поскольку расчет вручную становится затруднительным.

Примечание: Результаты использования программного кода будут более точными из-за округления значений при вычислении вручную.

Пример

В Python используйте scipy и math библиотеки для вычисления доверительного интервала для предполагаемой доли.

Здесь размер выборки - 30, среднее значение выборки - 62,1, а стандартное отклонение - 13,46.

import scipy.stats as stats
import math

# Укажите среднее значение выборки (x_bar), стандартное отклонение выборки (s), размер выборки (n) и уровень достоверности
x_bar = 62.1
s = 13.46
n = 30
confidence_level = 0.95

# Рассчитайте alpha, степени свободы (df), критическое t-значение и предел погрешности
alpha = (1-confidence_level)
df = n - 1
standard_error = s/math.sqrt(n)
critical_t = stats.t.ppf(1-alpha/2, df)
margin_of_error = critical_t * standard_error

# Вычислить нижнюю и верхнюю границы доверительного интервала
lower_bound = x_bar - margin_of_error
upper_bound = x_bar + margin_of_error

# Распечатайте результаты
print("Critical t-value: {:.3f}".format(critical_t))
print("Margin of Error: {:.3f}".format(margin_of_error))
print("Confidence Interval: [{:.3f},{:.3f}]".format(lower_bound,upper_bound))
print("The {:.1%} confidence interval for the population mean is:".format(confidence_level))
print("between {:.3f} and {:.3f}".format(lower_bound,upper_bound))

Попробуйте сами »

Пример

R может использовать встроенные математические и статистические функции для вычисления доверительного интервала для предполагаемой доли.

Здесь размер выборки - 30, среднее значение выборки - 62,1, а стандартное отклонение - 13,46.

# Укажите среднее значение выборки (x_bar), стандартное отклонение выборки (s), размер выборки (n) и уровень достоверности
x_bar = 62.1
s = 13.46
n = 30
confidence_level = 0.95

# Рассчитайте alpha, степени свободы (df), критическое t-значение и предел погрешности.
alpha = (1-confidence_level)
df = n - 1
standard_error = s/sqrt(n)
critical_t = qt(1-alpha/2, 29)
margin_of_error = critical_t * standard_error

# Вычислить нижнюю и верхнюю границы доверительного интервала
lower_bound = x_bar - margin_of_error
upper_bound = x_bar + margin_of_error

# Распечатайте результаты
sprintf("Critical t-value: %0.3f", critical_t)
sprintf("Margin of Error: %0.3f", margin_of_error)
sprintf("Confidence Interval: [%0.3f,%0.3f]", lower_bound, upper_bound)
sprintf("The %0.1f%% confidence interval for the population mean is:", confidence_level*100)
sprintf("between %0.4f and %0.4f", lower_bound, upper_bound)

Попробуйте сами »

Примечание: R также имеет встроенную функцию для вычисления доверительного интервала для среднего значения генеральной совокупности.

Пример

R может использовать встроенную функцию t.test() для вычисления доверительного интервала для оценочного среднего.

Здесь выборка представляет собой 30 случайно сгенерированных значений со средним значением 60 и стандартным отклонением 12,5 с использованием функции rnorm() для создания выборки.

# Укажите размер выборки (n) и уровень достоверности
n = 30
confidence_level = 0.95

# Установите случайное начальное число и сгенерируйте данные выборки со средним значением 60 и стандартным отклонением 12,5
set.seed(3)
sample <- rnorm(n, 60, 12.5)

# t.test function for sample data, confidence level, and selecting the $conf.int option
t.test(sample, conf.level = confidence_level)$conf.int

Попробуйте сами »

❮ Prev Next ❯

HTML и CSS

Искусственный интеллект

XML

JavaScript

Программирование

Серверная сторона

Веб-строительство

Искусственный интеллект

XML

HTML

CSS

JavaScript

Программирование

Серверная сторона

XML

Наборы символов

Упражнения

Викторины

Сертификаты

Статистика Учебник

Описательная статистика

Выведенная статистика

Stat Справочник

Статистика - Оценка средней совокупности

Оценка среднего совокупности

Расчет доверительного интервала

1. Проверка условий

2. Нахождение точечной оценки

3. Определение уровня достоверности

4. Расчет погрешности

Пример

Пример

5. Рассчет доверительного интервала

Расчет доверительного интервала с помощью программирования

Пример

Пример

Пример

ПАЛИТРА ЦВЕТОВ

ПРИСОЕДИНЯЙТЕСЬ!

Связь с админом

Топ Учебники

Топ Справочники

Топ Примеры

Веб Сертификаты