Статистика - Вариация
Вариация - это мера того, насколько данные распределены вокруг центра данных.
Вариация данных
Меры вариации - это статистические данные о том, насколько далеко друг от друга значения в наблюдениях (точки данных).
Существуют разные меры вариации. Чаще всего используются:
Меры вариации в сочетании со средним значением (мера центра) дают хорошее представление о распределении данных.
Примечание: Эти меры вариации могут быть использованы только для числовых данных.
Диапазон
Диапазон - это разница между наименьшим и наибольшим значением данных.
Диапазон - это простейшая мера вариации.
Вот гистограмма возраста всех 934 лауреатов Нобелевской премии до 2020 года, показывающая диапазон:
Самому молодому победителю было 17 лет, а самому старшему - 97 лет. Тогда диапазон возраста для лауреатов Нобелевской премии составляет 80 лет.
Квартили и процентили
Квартили и процентили - это способы разделения равного количества значений в данных на части.
Квартили - это значения, которые разделяют данные на четыре равные части.
Процентили - это значения, которые разделяют данные на 100 равных частей.
Вот гистограмма возраста всех 934 лауреатов Нобелевской премии до 2020 года, показывающая квартили:
Квартили (Q0,Q1,Q2,Q3,Q4) - это значения, которые разделяют каждую четверть.
Между Q0 и Q1 находятся 25% самые низкие значения в данных. Между Q1 и Q2 находятся следующие 25%. И так далее.
- Q0 это наименьшее значение в данных
- Q2 это среднее значение (медиана)
- Q4 это наибольшее значение в данных
Межквартильный диапазон
Межквартильный диапазон - это разница между первым и третьим квартилями (Q1 и Q3).
"Средняя половина" данных находится между первым и третьим квартилем.
Вот гистограмма возраста всех 934 лауреатов Нобелевской премии до 2020 года, показывающая межквартильный диапазон (IQR):
Здесь средняя половина - от 51 до 69 лет. Тогда межквартильный диапазон для лауреатов Нобелевской премии составляет 18 лет.
Стандартное отклонение
Стандартное отклонение - наиболее часто используемый показатель вариации.
Стандартное отклонение (σ) измеряет, насколько "типичное" наблюдение отличается от среднего значения данных (μ).
Стандартное отклонение важно для многих статистических методов.
Вот гистограмма возраста всех 934 лауреатов Нобелевской премии до 2020 года, показывающая стандартные отклонения:
Примечание: Значения в пределах одного стандартного отклонения (σ) считаются типичными.
Значения за пределами трех стандартных отклонений считаются выбросами.