Недавно я понял, что существуют различия в значениях эксцесса, предоставляемых SPSS и Stata.
См. Http://www.ats.ucla.edu/stat/mult_pkg/faq/general/kurtosis.htm.
Насколько я понимаю, интерпретация одного и того же будет другой.
Любой совет, как с этим бороться?
spss
stata
interpretation
kurtosis
Чезаре Каместр
источник
источник
Ответы:
Три формулы
Три формулы для куртоза обычно используются разными программами. Я изложу все три формулы ( , и ) и программы, которые их используют. г 2 б 2g2 G2 b2
Первая формула и типичное определение , используемое во многих учебниках (это вторая формула в ссылке вы предоставили) , где обозначает моменты образца : мр
Иногда к этой формуле добавляется корректирующий член -3, так что нормальное распределение имеет эксцесс, равный 0. Формула эксцесса с термином -3 называется избыточным эксцессом (первая формула в указанной вами ссылке).
Вторая формула в (используется SAS, SPSS и MS Excel, это третья формула в ссылке вы предоставили)
где - это эксцесс, определенный в первой формуле.г2
Третья формула является (используется Minitab и BMDP)
где - несмещенная выборочная дисперсия :s2
Вг2- 3 г2 б2
R
эксцесс можно рассчитать с помощьюkurtosis
функции изe1071
пакета (ссылка здесь ). Опцияtype
определяет, какая из трех формул используется для расчетов (1 = , 2 = , 3 = ).г 2 б 2В этих двух статьях обсуждаются и сравниваются все три формулы: первая , вторая .
Краткое изложение различий между формулами
Смотрите также страницу Википедии и страницу MathWorld о эксцесса.
источник
Данная ссылка также говорит о SAS. Но на самом деле ничто в этом вопросе, за исключением, возможно, собственного внимания автора, не ограничивает его конкретными именованными программами.
Я думаю, что здесь необходимо выделить совершенно разные проблемы, некоторые из которых иллюзорны, а некоторые подлинны.
Некоторые программы делают, а некоторые нет, вычитают 3, так что сообщаемая мера куртоза составляет 3 для гауссовых / нормальных переменных без вычитания и 0 с вычитанием. Я видел людей, озадаченных этим, часто, когда разница оказывается, скажем, 2.999, а не точно 3.
Некоторые программы используют поправочные коэффициенты, разработанные для обеспечения того, чтобы эксцесс оценивался без смещения. Эти поправочные коэффициенты приближаются к 1, поскольку размер выборки становится больше. Поскольку куртоз плохо оценивается в небольших выборках, это не должно вызывать особой озабоченности.N
Таким образом, существует небольшая проблема с формулами: № 1 гораздо сложнее, чем № 2, но оба незначительны, если их понимать. Совет однозначно состоит в том, чтобы просмотреть документацию по используемой вами программе и, если нет документации, объясняющей такие подробности, немедленно отказаться от этой программы. Но тестовый пример, такой же простой как переменная (1, 2), дает эксцесс 1 или 4 в зависимости только от одного # (без поправочного коэффициента).
Затем возникает вопрос о толковании, но это гораздо более открытый и спорный вопрос.
Прежде чем мы перейдем к основной области обсуждения, часто сообщаемая, но малоизвестная проблема заключается в том, что оценки эксцесса ограничены как функция размера выборки. Я написал обзор в Коксе, Нью-Джерси. Пределы асимметрии образцов и эксцесс. Stata Journal 10 (3): 482-495. http://www.stata-journal.com/article.html?article=st0204
Резюме: асимметрия и эксцесс образца ограничены функциями размера выборки. В течение последних нескольких десятилетий пределы или их приближения неоднократно открывались вновь, но, тем не менее, остаются малоизвестными. Пределы придают смещение оценке и, в крайних случаях, подразумевают, что ни одна выборка не может быть точным свидетельством ее родительского распределения. Основные результаты объяснены в обзоре учебника, и показано, как Stata и Mata могут использоваться для подтверждения и изучения их последствий.
Теперь к тому, что обычно считается суть вопроса:
Многие люди переводят эксцесс как пик, но другие подчеркивают, что он часто служит мерой веса хвоста. Фактически, обе интерпретации могут быть разумной формулировкой для некоторых распределений. Почти неизбежно, что не существует простой словесной интерпретации куртоза: наш язык недостаточно богат для сравнения сумм четвертых степеней отклонения от среднего и сумм вторых степеней того же самого.
В небольшом и часто упускаемом из виду классическом материале Ирвинг Каплански (1945a) обратил внимание на четыре примера распределений с различными значениями эксцесса и поведения, не соответствующих некоторым дискуссиям о эксцессе.
Все распределения симметричны со средним 0 и дисперсией 1 и имеют функции плотности, для переменных и ,с = √Икс с = я--√
Куртоз (без вычитания) составляет (1) 2,75 (2) 3,125 (3) 4,5 (4) 8/3 2,667: сравните гауссово или нормальное значение 3. Плотность в среднем составляет (1) 0,423 (2) ) 0,387 (3) 0,470 (4) 0,366: сравните гауссово значение 0,399.≈
Поучительно построить эти плотности. Пользователи Stata могут скачать мою
kaplansky
программу из SSC. Использование логарифмической шкалы для плотности может помочь.Не вдаваясь в подробности, эти примеры подрывают любую простую историю о том, что низкий или высокий эксцесс имеет четкую интерпретацию с точки зрения пика или даже любого другого отдельного контраста.
Если имя Ирвинга Капланского звонит в колокольчик, это скорее всего потому, что вы знаете его работы в современной алгебре. Он (1917-2006) был канадским (позднее американским) математиком, преподавал и исследовал в Гарварде, Чикаго и Беркли, где в военное время учился в Группе прикладной математики Совета национальной обороны при Колумбийском университете. Капланский внес большой вклад в теорию групп, теорию колец, теорию операторных алгебр и теорию поля. Он был опытным пианистом и автором текстов и энтузиастом и ясным толкователем математики. Отметим также некоторые другие вклады в вероятности и статистику Капланского (1943, 1945b) и Капланского и Риордана (1945).
Капланский И. 1943. Характеристика нормального распределения. Анналы математической статистики 14: 197-198.
Капланский И. 1945а. Распространенная ошибка относительно куртоза. Журнал, только Американская статистическая ассоциация 40: 259.
Капланский И. 1945б. Асимптотическое распределение пробегов последовательных элементов. Анналы математической статистики 16: 200-203.
Капланский И. и Риордан Дж. 1945. Многократное сопоставление и прогоны символическим методом. Анналы математической статистики 16: 272-277.
источник