ящик с усами в статистике что такое
Диаграмма «ящик с усами» в статистике
Содержание:
Диаграмма «ящик с усами»
Построение диаграммы «Ящик с усами» рассмотрим на следующем примере
Задача пример №154
15 работников фирмы при сдаче экзамена по технике безопасности, получили следующие баллы:
13 9 18 15 14 21 7 10 11 20 5 18 37 16 17.
Представьте данную информацию в виде диаграммы «ящик с усами».
Решение:
1. Расположите данные в порядке возрастания, определите медиану и отметьте ее через .
3. Медианы половинок, называемые квартилями (здесь = 10,
= 18), разбивают данные на 4 части.
Разница длин левого и правого «уса» зависит от разницы значений данных в соответствующих частях.
Для построении диаграммы «ящик с усами» из заданной совокупности выделяют 5 значений:
Медиану , квартиль
, значение которого меньше медианы и является медианой нижней половины, квартиль
, значение которого больше медианы и является медианой верхней половины множества данных, наибольшее и наименьшее значения.
Шаги построения диаграммы «ящик с усами»
1. Проводится горизонтальная прямая.
2. В зависимости от диапазона изменения данных проводится деление.
4. От до
рисуется ящик.
5. Рисуем «усы» от : до минимального значения и от
до максимального значения.
Задача пример №155
Ниже представлены данные возраста участниц женской паралимпийской команды по волейболу
24, 30, 30, 22, 25, 22, 18, 25, 28, 30, 25, 27. Представьте данные в виде диаграммы «ящик с усами».
Решение:
1. Расположим данные и найдем медиану и квартили.
2. Изобразим числовую ось и отметим эти следующие данные.
Эта лекция взята из раздела решения задач по математике, там вы найдёте другие лекци по всем темам математики:
Другие темы которые вам помогут понять математику:
Присылайте задания в любое время дня и ночи в ➔
Официальный сайт Брильёновой Натальи Валерьевны преподавателя кафедры информатики и электроники Екатеринбургского государственного института.
Все авторские права на размещённые материалы сохранены за правообладателями этих материалов. Любое коммерческое и/или иное использование кроме предварительного ознакомления материалов сайта natalibrilenova.ru запрещено. Публикация и распространение размещённых материалов не преследует за собой коммерческой и/или любой другой выгоды.
Источник
Создание блочной диаграммы с ограничителями выбросов
Диаграмма «ящик с усами» показывает распределение данных по квартилям, выделяя их выбросы. В полях могут быть линии, протянутые вертикально под названием «усы». Эти линии указывают на отклонение за пределами верхнего и нижнего квартилей, и любая точка за пределами этих линий (усов) считается выбросом.
Диаграмма «ящик с усами» чаще всего используется в статистическом анализе. Например, с помощью нее можно сравнить результаты медицинских испытаний или экзаменационные баллы учащихся.
Создание диаграммы «ящик с усами»
Выделите данные (один или несколько рядов).
Значения на изображении ниже являются частью набора данных, на основе которого был создан показанный выше образец диаграммы.
В Excel выберите команды Вставка > Вставить диаграмму статистики > Ящик с усами, как показано на рисунке ниже.
Важно: В Word, Outlook и PowerPoint порядок действий немного другой.
На вкладке Вставка в группе Иллюстрации нажмите кнопку Диаграмма.
В диалоговом окне Вставка диаграммы на вкладке Все диаграммы выберите элемент Ящик с усами.
На вкладках Конструктор и Формат можно настроить внешний вид диаграммы.
Если они не отображаются, щелкните в любом месте диаграммы «ящик с усами», чтобы добавить на ленту область Работа с диаграммами.
Параметры диаграммы «ящик с усами»
Щелкните правой кнопкой мыши одно из полей на диаграмме, чтобы выбрать его, а затем в контекстном меню выберите пункт Формат ряда данных.
В области Формат ряда данных, выбрав Параметры ряда, внесите необходимые изменения.
(Руководствуйтесь информацией в таблице под приведенным ниже рисунком.)
Управление зазором между категориями.
Показывать внутренние точки
Показывать точки выбросов
Показывать маркеры медиан
Отображение маркеров медианы выбранного ряда.
Показывать линию медиан
Отображение линии, соединяющей медианы блоков в выбранном ряде.
Выберите метод вычисления медиан.
Инклюзивная медиана Медиана включается в вычисления, если N (число значений в данных) — нечетное число.
Исключающая медиана Медиана исключается из вычислений, если N (число значений в данных) — нечетное число.
Совет: Дополнительные сведения о диаграммах «ящик с усами», а также их пользе для визуализации статистических данных см. в этой записи о гисторамме, диаграммах Парето и «ящик с усами» блога группы разработчиков Excel. Дополнительные сведения о других новых типах диаграмм приведены в этой записи блога.
Создание диаграммы «ящик с усами»
Выделите данные (один или несколько рядов).
Значения на изображении ниже являются частью набора данных, на основе которого был создан показанный выше образец диаграммы.
На ленте на вкладке «Вставка» щелкните (значок статистической диаграммы) и выберите «Ящик с усами».
На вкладке «Конструктор диаграмм» и «Формат» можно настроить внешний вид диаграммы.
Если вкладки «Конструктор диаграмм» и «Формат» не вы видите, щелкните в любом месте диаграммы «ящик с усами», чтобы добавить их на ленту.
Параметры диаграммы «ящик с усами»
Щелкните одно из полей на диаграмме, чтобы выбрать его, а затем на ленте нажмите кнопку «Формат».
Внести нужные изменения можно с помощью инструментов на вкладке «Формат».
Источник
Диаграмма размаха («ящик с усами»)
Описание
Диаграммы размаха («ящик с усами») (Box and Whisker Plot или Box Plot) – это удобный способ визуального представления групп числовых данных через квартили.
Прямые линии, исходящие из ящика, называются «усами» и используются для обозначения степени разброса (дисперсии) за пределами верхнего и нижнего квартилей. Выбросы иногда отображаются в виде отдельных точек, находящихся на одной линии с усами. Диаграммы размаха могут располагаться как горизонтально, так и вертикально.
Диаграммы размаха, как правило, используются в описательной статистике и позволяют быстро исследовать один или более наборов данных в графическом виде. Несмотря на то, что в сравнении с гистограммой или графиком плотности, этот график может показаться примитивным, его преимущество – в экономии пространства, что особенно удобно при сравнении распределений между большим количеством групп или наборов данных.
Виды наблюдений, которые можно сделать на основе ящика с усами:
Каковы ключевые значения, например: средний показатель, медиана 25го перцентиля и так далее.
Существуют ли выбросы и каковы их значения.
Симметричны ли данные.
Насколько плотно сгруппированы данные.
Смещены ли данные и, если да, то в каком направлении.
Два из наиболее распространенных варианта ящика с усами – диаграмма размаха с переменной шириной и диаграмма размаха с метками.
Источник
Как сравнивать данные с помощью усов, ящиков и скрипок?
Для простоты восприятия возьмем данные более простые, универсальные и нейтральные — высоту в холке и вес нескольких пород собак по сведениям Американского клуба собаководства (American Kennel Club). Данные по размерам пород в среднем можно найти здесь. Прибавим к ним функцию random.uniform из Python-библиотеки numpy, переведем дюймы в сантиметры, а фунты в килограммы, и вот мы получаем реалистично выглядящий набор данных по размерам собак нескольких пород, с которым можно работать. В нашем примере это чихуахуа, бигли, ротвейлеры и английские сеттеры.
Одну из аналитик, которую можно применить для сравнения этих 4 числовых рядов – посмотреть на их медиану. Она разбивает ряд данных на две части: половина значений меньше медианы и остальная половина – больше. Медианные значения находим, группируя с помощью библиотеки pandas по столбцу «Порода» и применяя к сгруппированным данным функцию median. Аналогично можно было бы посмотреть и другие статистические показатели: среднее значение (mean) и моду (mode).
Видим, что половина встреченных нами чихуахуа имеет высоту в холке не больше 18 см, бигль значительно выше – в районе 41 см, и следующие по размерам – ротвейлер и английский сеттер, которые отличаются по росту незначительно: 58 и 63 см.
Но только одной медианы недостаточно для сравнительного анализа данных. Можно получить больше информации, если рассмотреть такой инструмент как диаграмма размаха (также известная как «ящик с усами», box-and-whiskers plot), построенную с помощью Python-библиотеки для построения графиков seaborn. Линия внутри ящика – это уже знакомая нам медиана. Ее уровень на графике справа (см. Рисунок 3) совпадает с высотой соответствующего столбца слева.
Но при этом диаграмма размаха содержит дополнительную информацию о том, как данные распределены внутри ряда: нижняя граница прямоугольника (ящика) – это первый квартиль (величина, превосходящая 25% значений ряда), а верхняя граница – третий квартиль (величина, превосходящая 75% значений).
А те самые «усы» — отрезки, отходящие вверх и вниз от середины прямоугольника – строятся на основе интерквартильного размаха и обозначают верхнюю и нижнюю границу значимой части наших данных, исключая выбросы. Здесь выбросы отсутствуют (дистрофиков и собак-гигантов нам в рассмотрение не попадалось), при наличии они отобразились бы метками за пределами «усов».
Скрипичный график (violinplot) из той же библиотеки seaborn дает нам еще больше информации о структуре рассматриваемых данных. Ниже на Рисунке 4 представлены все три графика, где породы идут каждый раз в одинаковом порядке, а цвет для соответствующего ряда сохраняется.
Например, зеленым показаны данные о ротвейлерах.
Сходства и различия диаграммы размаха (ящика с усами) и скрипичного графика показаны на следующем Рисунке 5. Сначала сходства: (1) оба графика в том или ином виде отражают 0.25-квантиль, 0.5-квантиль (медиану) и 0.75-квантиль; (2) и там, и там отражаются крайние значения, которые близки к величине полутора межквартильных интервалов (IQR), отложенных от нижнего и верхнего края коробки – те самые «усы» для диаграммы размаха, за пределами которых находятся «выбросы».
Отличие же состоит в том, что скрипичный график содержит также информацию о том, как данные распределены внутри, т.к. границы построенной «скрипки» — это повернутая на 90 градусов плотность распределения. И в этом случае при анализе графика у нас гораздо больше информации: в дополнение к квантилям и значениям, описывающим 4 интерквартильных расстояния (1.5 + 1 + 1.5) на скрипичном графике можно увидеть, распределены ли данные равномерно или есть несколько центров, где значения встречаются более часто.
Более ярко эту мысль можно увидеть на следующем графике (Рисунок 6), где данные по двум группам ротвейлеров отличаются, но подобраны таким образом, что медианы совпадают (крайний слева график) и даже больше – диаграммы размаха (в центре) тоже совпадают! И только скрипичный график (крайний справа) показывает нам, что на самом деле структура данных значительно отличается.
Используя кластеризацию К-средних (cluster.KMeans) из модуля sklearn, мы можем визуально представить сгруппированные данные, построив диаграмму разброса с помощью функции scatterplot модуля seaborn. Здесь цвет отделяет один кластер, созданный ML-алгоритмом, от другого, а форма маркера показывает исходную принадлежность к той или иной группе. Понижать размерность с помощью PCA или какого-либо другого метода здесь было не нужно, т.к. данные изначально 2D.
Код для кластеризации и построения диаграммы разброса:
Таким образом, на примере данных о высоте в холке нескольких пород собак мы познакомились с некоторыми статистическими характеристиками числовых рядов и инструментах их визуализации. Простой инструмент дает понятную метрику, но не дает полной картины. Более сложные инструменты дают более глубокую картину данных, но и воспринимаются также сложнее в силу увеличения количества информации на графике. И здесь важно выбирать инструмент под конкретную задачу, чтобы находить баланс между требующейся полнотой информации и простотой ее восприятия на графике.
Источник
Ящики, усы и скрипки
Очень часто данные необходимо сравнивать. Например, у нас есть несколько рядов данных из какой-то области деятельности человека (промышленности, медицины, государственного управления, …), и мы хотим сравнить, насколько они похожи или, наоборот, чем одни показатели выделяются по сравнению с другими. Для простоты восприятия возьмем данные более простые, универсальные и нейтральные — высоту в холке и вес нескольких пород собак по сведениям Американского клуба собаководства (American Kennel Club). Данные по размерам пород в среднем можно найти здесь. Прибавим к ним функцию random.uniform из Python-библиотеки numpy, переведем дюймы в сантиметры, а фунты в килограммы, и вот мы получаем реалистично выглядящий набор данных по размерам собак нескольких пород, с которым можно работать. В нашем примере это чихуахуа, бигли, ротвейлеры и английские сеттеры.
Одну из аналитик, которую можно применить для сравнения этих 4 числовых рядов – посмотреть на их медиану. Она разбивает ряд данных на две части: половина значений меньше медианы и остальная половина – больше. Медианные значения находим, группируя с помощью библиотеки pandas по столбцу «Порода» и применяя к сгруппированным данным функцию median. Аналогично можно было бы посмотреть и другие статистические показатели: среднее значение (mean) и моду (mode).
Видим, что половина встреченных нами чихуахуа имеет высоту в холке не больше 18 см, бигль значительно выше – в районе 41 см, и следующие по размерам – ротвейлер и английский сеттер, которые отличаются по росту незначительно: 58 и 63 см.
Рисунок 2. Медианные значения высоты в холке четырех пород собак.
Но только одной медианы недостаточно для сравнительного анализа данных. Можно получить больше информации, если рассмотреть такой инструмент как диаграмма размаха (также известная как «ящик с усами», box-and-whiskers plot), построенную с помощью Python-библиотеки для построения графиков seaborn. Линия внутри ящика – это уже знакомая нам медиана. Ее уровень на графике справа (см. Рисунок 3) совпадает с высотой соответствующего столбца слева. Но при этом диаграмма размаха содержит дополнительную информацию о том, как данные распределены внутри ряда: нижняя граница прямоугольника (ящика) – это первый квартиль (величина, превосходящая 25% значений ряда), а верхняя граница – третий квартиль (величина, превосходящая 75% значений). А те самые «усы» — отрезки, отходящие вверх и вниз от середины прямоугольника – строятся на основе интерквартильного размаха и обозначают верхнюю и нижнюю границу значимой части наших данных, исключая выбросы. Здесь выбросы отсутствуют (дистрофиков и собак-гигантов нам в рассмотрение не попадалось), при наличии они отобразились бы метками за пределами «усов».
Рисунок 3. Сравнение столбчатой и диаграммы размаха, построенных для одного и того же набора данных.
Скрипичный график (violinplot) из той же библиотеки seaborn дает нам еще больше информации о структуре рассматриваемых данных. Ниже на Рисунке 4 представлены все три графика, где породы идут каждый раз в одинаковом порядке, а цвет для соответствующего ряда сохраняется.
Рисунок 4. Сравнение столбчатой диаграммы, диаграммы размаха и скрипичного графика, построенных для одного и того же набора данных.
Например, зеленым показаны данные о ротвейлерах.
Сходства и различия диаграммы размаха (ящика с усами) и скрипичного графика показаны на следующем Рисунке 5. Сначала сходства: (1) оба графика в том или ином виде отражают 0.25-квантиль, 0.5-квантиль (медиану) и 0.75-квантиль; (2) и там, и там отражаются крайние значения, которые близки к величине полутора межквартильных интервалов (IQR), отложенных от нижнего и верхнего края коробки – те самые «усы» для диаграммы размаха, за пределами которых находятся «выбросы».
Отличие же состоит в том, что скрипичный график содержит также информацию о том, как данные распределены внутри, т.к. границы построенной «скрипки» — это повернутая на 90 градусов плотность распределения. И в этом случае при анализе графика у нас гораздо больше информации: в дополнение к квантилям и значениям, описывающим 4 интерквартильных расстояния (1.5 + 1 + 1.5) на скрипичном графике можно увидеть, распределены ли данные равномерно или есть несколько центров, где значения встречаются более часто.
Рисунок5. Пояснения по соответствию элементов двух графиков: размаха и скрипичного.
Более ярко эту мысль можно увидеть на следующем графике (Рисунок 6), где данные по двум группам ротвейлеров отличаются, но подобраны таким образом, что медианы совпадают (крайний слева график) и даже больше – диаграммы размаха (в центре) тоже совпадают! И только скрипичный график (крайний справа) показывает нам, что на самом деле структура данных значительно отличается.
Рисунок 6. Пример, когда только скрипичные график позволяет нам увидеть отличия во внутренней структуре рассматриваемых данных.
Используя кластеризацию К-средних (cluster.KMeans) из модуля sklearn, мы можем визуально представить сгруппированные данные, построив диаграмму разброса с помощью функции scatterplot модуля seaborn. Здесь цвет отделяет один кластер, созданный ML-алгоритмом, от другого, а форма маркера показывает исходную принадлежность к той или иной группе. Понижать размерность с помощью PCA или какого-либо другого метода здесь было не нужно, т.к. данные изначально 2D.
Код для кластеризации и построения диаграммы разброса:
Таким образом, на примере данных о высоте в холке нескольких пород собак мы познакомились с некоторыми статистическими характеристиками числовых рядов и инструментах их визуализации. Простой инструмент дает понятную метрику, но не дает полной картины. Более сложные инструменты дают более глубокую картину данных, но и воспринимаются также сложнее в силу увеличения количества информации на графике. И здесь важно выбирать инструмент под конкретную задачу, чтобы находить баланс между требующейся полнотой информации и простотой ее восприятия на графике.
Источник