Центральная тенденция, распространение и асимметрия могут быть определены относительно хорошо, по крайней мере, на интуитивной основе; стандартные математические меры этих вещей также относительно хорошо соответствуют нашим интуитивным представлениям. Но куртоз кажется другим. Это очень сбивает с толку и не очень хорошо вписывается в интуицию о форме распределения.
Типичным объяснением эксцесса в прикладной обстановке будет следующий фрагмент Прикладной статистики для бизнеса и управления с использованием Microsoft Excel [ 1 ] :
Куртоз относится к тому, насколько пиковым является распределение или, наоборот, насколько оно плоское. Если в хвостах больше значений данных, чем вы ожидаете от нормального распределения, эксцесс будет положительным. И наоборот, если в хвостах меньше значений данных, чем вы ожидаете при нормальном распределении, эксцесс является отрицательным. Excel не может рассчитать эту статистику, если у вас есть как минимум четыре значения данных.
Помимо путаницы между "куртозом" и "избыточным куртозом" (как в этой книге, часто используется первое слово для обозначения того, что другие авторы называют последним), интерпретация в терминах "остроконечности" или "плоскостности" затем переключается на переключение внимания на количество элементов данных в хвостах. Считать нужно и «пик», и «хвост» - Капланский [ 2 ]в 1945 г. жаловался на то, что во многих учебниках того времени ошибочно указывалось, что куртоз связан с тем, насколько высок пик распределения по сравнению с пиком нормального распределения без учета хвостов. Но очевидно, что необходимость учитывать форму как на вершине, так и на хвостах затрудняет постижение интуиции, точка, упомянутая выше, пропускается, переходя от пика к тяжести хвоста, как если бы эти концепции были одинаковыми.
Более того, это классическое объяснение эксцесса «пика и хвоста» хорошо работает только для симметричных и унимодальных распределений (действительно, все иллюстрированные примеры в этом тексте симметричны). Тем не менее, «правильный» общий способ интерпретации куртоза, будь то «пики», «хвосты» или «плечи», обсуждался десятилетиями . [ 2 ] [ 3 ] [ 4 ] [ 5 ] [ 6 ]
Существует ли интуитивно понятный способ обучения куртозу в прикладной обстановке, который не приведет к противоречиям или контрпримерам при более строгом подходе? Является ли эксцесс вообще полезной концепцией в контексте таких курсов прикладного анализа данных, в отличие от классов математической статистики? Если «пик» распределения является интуитивно полезным понятием, следует ли нам учить его посредством L-моментов [ 7 ] ?
Херкенхофф Л. и Фогли Дж. (2013). Прикладная статистика для бизнеса и управления с использованием Microsoft Excel. Нью-Йорк, штат Нью-Йорк: Springer.
Капланский И. (1945). «Распространенная ошибка, связанная с куртозом». Журнал Американской статистической ассоциации,40(230): 259.
Дарлингтон, Ричард Б. (1970). "Куртоз - это действительно" пик "?" Американский статистик24(2): 19–22
мавры, JJA. (1986) «Значение куртоза: Дарлингтон пересмотрел». Американский статистик40(4): 283–284
Баланда, Кевин П. и МакГилливрей, Х.Л. (1988). "Куртоз: критическое обозрение". Американский статистик 42(2): 111–119
DeCarlo, LT (1997). «О значении и использовании куртоза». Психологические методы,2(3), 292. Чикаго
Хоскинг, JRM (1992). «Моменты или L моменты? Пример, сравнивающий две меры формы распределения». Американский статистик46(3): 186–189
источник
Ответы:
Куртоз действительно довольно прост ... и полезен. Это просто мера выбросов или хвостов. Это не имеет ничего общего с пиком - от этого определения следует отказаться.
Вот набор данных:
0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999
Обратите внимание, что «999» является выбросом.
Вот значения из набора данных:z4
0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00,0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 360,98
Обратите внимание, что только выброс дает который заметно отличается от 0.z4
Среднее из этих значений представляет собой эксцесс эмпирического распределения (если хотите, вычтите 3, это не имеет значения для того, что я делаю): 18.05z4
Из этого расчета должно быть очевидно, что данные около «пика» (данные, не относящиеся к выбросам) почти ничего не вносят в статистику эксцесса.
Куртоз полезен как мера выбросов. Выбросы важны для учащихся начальной школы, и поэтому следует учить куртозу. Но эксцесс практически не имеет ничего общего с пиком, будь то заостренный, плоский, бимодальный или бесконечный. Вы можете иметь все вышеперечисленное с небольшим эксцессом и все вышеперечисленное с большим эксцессом. Так что это НИКОГДА не должно быть представлено как имеющее какое-либо отношение к пику, потому что это будет преподавать неверную информацию. Это также делает материал ненужным путаницей и, по-видимому, менее полезным.
Резюме:
Эта статья ясно объясняет, почему определение «Пик» сейчас официально умерло.
Westfall, PH (2014). « Куртоз как пик, 1905–2014 годы. RIP » Американский статистик , 68 (3), 191–195.
источник
$
например$z^4$
, можно использоватьХотя вопрос несколько расплывчатый, он интересен. На каких уровнях преподается куртоз? Я помню, что он упоминался в курсе магистратуры по линейным моделям (давным-давно, на основе первого издания книги Себера). Это не было важной темой, но она входит в такие темы, как изучение (отсутствие) устойчивости критерия отношения правдоподобия (F-критерий) равенства дисперсий, где (из памяти) правильный уровень асимптотически зависит от того же эксцесса, что и нормальное распределение, что слишком много, чтобы предполагать! Мы увидели статью (но я никогда не читал ее с подробностями) http://www.jstor.org/stable/4615828?seq=1#page_scan_tab_contents by Oja, в которой пытались выяснить, что такое асимметрия, эксцесс и тому подобное.
Почему я нахожу это интересным? Потому что я преподаю в Латинской Америке, где кажется, что асимметрия и куртоз преподаются многими как важные темы, и пытаюсь сказать аспирантам (многие из экономики), что куртоз является плохой мерой формы распределения (главным образом потому что выборочная изменчивость четвертой степени просто велика), было сложно. Я пытался заставить их использовать QQplots вместо этого. Так что некоторым комментаторам да, этому учат места , наверное, многим!
Кстати, это не только мое мнение. Следующий пост в блоге https://www.spcforexcel.com/knowledge/basic-statistics/are-skewness-and-kurtosis-useful-statistics содержит эту цитату (приписывается доктору Уилеру):
Мы должны научить лучшим методам изучения форм распределения! такие как QQplots (или графики относительного распределения). И, если кому-то все еще нужны числовые меры, меры, основанные на L-моментах, лучше. Я процитирую один отрывок из статьи JR Statist Soc B (1990) 52, No 1, pp. 105-124 от JRM Hosking: «L-моменты: анализ и оценка распределения с использованием линейной комбинации статистики заказов», стр. 109:
(На данный момент я обращаюсь к статье с определениями этих мер, все они основаны на L-моментах.) Интересно то, что традиционная мера эксцесса, основанная на четвертых моментах, не является мерой эксцесс в смысле Оя! (Я отредактирую ссылки на это заявление, когда смогу его найти).
источник
На мой взгляд, коэффициент асимметрии полезен для мотивации терминов: положительно искажен и отрицательно искажен. Но на этом все и заканчивается, если ваша цель - оценить нормальность. Классические показатели асимметрии и эксцесса часто не в состоянии уловить различные типы отклонений от нормы. Я обычно призываю своих учеников использовать графические методы для оценки разумности оценки, такой как qq-график или график нормальной вероятности. Также с выборкой подходящего размера можно также использовать гистограмму. Boxplots также полезны для выявления выбросов или даже тяжелых хвостов.
Это соответствует рекомендациям целевой группы АПА 1999 года:
« Допущения. Вы должны приложить усилия, чтобы убедиться, что базовые предположения, необходимые для анализа, являются обоснованными, учитывая данные. Изучите остатки тщательно. Не используйте дистрибутивные тесты и статистические показатели формы (например, асимметрия, эксцесс) вместо графического анализа ваших остатков. Использование статистического теста для диагностики проблем подбора модели имеет ряд недостатков. Во-первых, тесты диагностической значимости, основанные на сводной статистике (такие как тесты на однородность дисперсии), часто оказываются неосуществимыми; наши статистические тесты моделей часто более надежны, чем наши статистические тесты предположений. Во-вторых, такие статистические данные, как асимметрия и эксцесс, часто не могут обнаружить неравномерности распределения в остатках. В-третьих, статистические тесты зависят от размера выборки, и с увеличением размера выборки тесты часто отклоняют безобидные предположения. В общем, ничто не заменит графический анализ предположений."
Ссылка: Уилкинсон Л., & Целевая группа по статистическому выводу. (1999). Статистические методы в психологических журналах: методические рекомендации и пояснения. Американский психолог, 54, 594-604.
источник
В зависимости от того, насколько применяется курс, может возникнуть вопрос о точности оценок. Точность оценки дисперсии сильно зависит от эксцесса. Причина этого заключается в том, что при высоком эксцентричном распределении допускаются редкие, экстремально потенциально наблюдаемые данные. Таким образом, процесс генерирования данных будет давать очень экстремальные значения в одних выборках, а не слишком экстремальные значения в других. В первом случае вы получите очень большую оценку дисперсии, а во втором - небольшую оценку дисперсии.
Если бы устарелая и неправильная интерпретация «пика» была устранена, а акцент был сделан исключительно на выбросах (то есть на редких, экстремально наблюдаемых), то было бы легче преподавать куртоз на начальных курсах. Но люди скручивают себя в узлы, пытаясь оправдать «пик», потому что это (неправильно) так указано в их учебниках, и они пропускают реальные применения эксцесса. Эти приложения в основном относятся к выбросам, и, конечно, выбросы важны в курсах прикладной статистики.
источник
Честно говоря, я не понимаю, почему люди хотят усложнять простые вещи. Почему бы просто не показать определение (украденное из Википедии ):
Вы можете заменить оператор ожидания оценками на основе суммы1NΣNя = 1 , конечно. Это помогает обсудить единицы измеренияμ , σ2, μ4 и покажите, почему четвертый момент должен быть масштабирован квадратом дисперсии, чтобы сделать эксцесс безразмерной меры, то есть параметра формы. Итак, у нас есть местоположениеμ , масштаб σ2 и любое количество параметров для описания формы, таких как перекос и эксцесс. Я всегда начинал с уравнений. Предположительно, простые для понимания объяснения на простом английском языке только делают все более запутанным. многословие≠ ясность.
источник