Какие другие нормализующие преобразования обычно используются помимо общих, таких как квадратный корень, лог и т. Д.?

10

При анализе результатов тестов (например, в области образования или психологии) общие методы анализа часто предполагают, что данные обычно распределяются. Однако, возможно, чаще, чем нет, баллы имеют тенденцию иногда сильно отличаться от нормальных.

Я знаком с некоторыми основными нормализующими преобразованиями, такими как: квадратные корни, логарифмы, обратные преобразования для уменьшения положительного перекоса, отраженные версии выше для уменьшения отрицательного перекоса, возведение в квадрат для лептокуртических распределений. Я слышал о арксинусных преобразованиях и преобразованиях власти, хотя я не очень осведомлен о них.

Итак, мне интересно, какие другие преобразования обычно используются аналитиками?

data-transformation normality-assumption variance-stabilizing Майк Вонг
источник

5

Преобразование Бокса-Кокса включает в себя многие из приведенных вами. Смотрите этот ответ для некоторых деталей:

Как мне преобразовать неотрицательные данные, включая нули?

ОБНОВЛЕНИЕ: Эти слайды предоставляют довольно хороший обзор преобразований Бокса-Кокса.

АРС
источник

Если мы применим t-инструменты к преобразованным данным Box-Cox, мы получим выводы о разнице в средствах преобразованных данных. Как мы можем интерпретировать те, которые находятся на первоначальной шкале измерения? (Среднее из преобразованных значений не является преобразованным средним). Другими словами (если я прав), обратное преобразование оценки среднего значения в преобразованной шкале не дает оценку среднего значения в исходной шкале.

Джордж Донтас

@ gd047, некоторые тесты предполагают нормальность распределения среднего значения, а не данных. t-критерий имеет тенденцию быть довольно устойчивым по отношению к базовым данным. Вы правы, хотя - с тестами после преобразования результаты сообщаются после обратного преобразования, и интерпретация может быть очень проблематичной. Все сводится к тому, насколько «ненормальными» являются ваши данные, можете ли вы уйти без преобразования или применения, скажем, преобразования журнала, которое легче интерпретировать. В противном случае, это зависит от фактического преобразования и предметной области, и у меня нет хорошего ответа. Может быть стоит спросить, что говорят другие?

АРС

10

Первый шаг должен быть спросить , почему ваши переменные не являются нормально распределенными. Это может быть освещающим. Общие выводы из моего опыта:

Тесты на способности (например, экзамены, тесты интеллекта, вступительные испытания), как правило, имеют отрицательный перекос при наличии потолочных эффектов и положительный перекос при наличии эффекта пола. Оба вывода показывают, что уровень сложности теста не оптимизирован для образца, либо слишком легко, либо слишком сложно для оптимальной дифференциации способности. Это также подразумевает, что интересующая скрытая переменная все еще может быть нормально распределена, но что структура теста вызывает перекос измеряемой переменной.
Тесты на способности часто имеют выбросы с точки зрения низкого показателя. Короче говоря, есть много способов сделать плохо на тесте. В частности, это иногда можно увидеть на экзаменах, где есть небольшой процент студентов, где некоторая комбинация недостатка способностей и недостатка усилий объединилась, чтобы создать очень низкие результаты теста. Это означает, что скрытая переменная интереса, вероятно, имеет несколько выбросов.
Относительно тестов самоотчета (например, личностных тестов, тестов на отношение и т. Д.) Асимметрия часто возникает, когда выборка изначально высока по шкале (например, распределение удовлетворенности жизнью отрицательно искажено, поскольку большинство людей удовлетворены) или когда шкала удовлетворена был оптимизирован для образца, отличного от того, к которому применяется тест (например, применение клинической меры депрессии к неклиническому образцу).

Этот первый шаг может предложить изменения конструкции теста. Если вы заранее знаете об этих проблемах, вы можете даже разработать свой тест, чтобы избежать их, если вы считаете их проблематичными.

Второй шаг должен решить , что делать в ситуации , когда у вас есть не-обычные данные. Заметки трансформации являются лишь одной из возможных стратегий. Я повторю общий совет из предыдущего ответа относительно ненормальности :

Многие процедуры, предполагающие нормальность остатков, устойчивы к скромным нарушениям нормальности остатков.
Самозагрузка - вообще хорошая стратегия
Преобразования - еще одна хорошая стратегия. Обратите внимание, что по моему опыту, виды умеренного перекоса, которые обычно возникают при психологических тестах способностей и самоотчетов, обычно могут быть легко преобразованы в распределение, приближенное к нормальному, с использованием log, sqrt или обратного преобразования (или обратного эквивалента).

Джером англим
источник

9

Джон Тьюки систематически обсуждает преобразования в своей книге об EDA. В дополнение к семейству Бокса-Кокса (аффинно масштабированные преобразования мощности) он определяет семейство «свернутых» преобразований для пропорций (по существу, степеней х / (1-х)) и «начальных» отсчетов (добавляя положительное смещение к подсчитанным данным прежде чем их трансформировать). Сложенные преобразования, которые по существу обобщают логит, особенно полезны для результатов тестов.

В совершенно ином ключе Johnson & Kotz в своих книгах о распределениях предлагает множество преобразований, предназначенных для преобразования статистики испытаний в приближенную нормальность (или в какое-либо другое целевое распределение), таких как преобразование кубического корня для хи-квадрат. Этот материал является отличным источником идей для полезных преобразований, когда вы ожидаете, что ваши данные будут следовать определенному распределению.

Whuber
источник

2

Простой вариант - использовать суммы баллов вместо самих баллов. Сумма распределений стремится к нормальности. Например, в сфере образования вы можете добавить баллы учащегося к серии тестов.

Другой вариант, конечно, заключается в использовании методов, которые не предполагают нормальности, которые недооцениваются и недоиспользуются.

Карлос Аккиоли
источник

1

Я считаю, что суммы должны быть нормализованы (например, использовать средний балл), чтобы распределение было нормальным.

1

Да, это правильно. В моем примере я предполагал, что в классах будет одинаковое количество учеников, что нереально. Спасибо.

Карлос Аккиоли

1

Для искаженных и тяжелых данных я использую (и разработал) структуру распространения Lambert W x F. Перекошенные и тяжелые хвосты распределений Ламберта W x F основаны на нелинейном преобразовании входной случайной величины (RV) для вывода , который аналогичен X, но искажен и / или с тяжелым хвостом (см. документы для подробных формул). $X \sim F$ $Y ~ Lambert W \times F$

В целом это работает для любого непрерывного RV, но на практике нас больше всего интересует гауссовский . Для распределений Ламберта с большими хвостами W x F обратное является биективным и может быть оценено по данным с использованием вашей любимой оценки для параметра (MLE, методы моментов, Байесовский анализ, ...). Для и X, являющегося гауссовым, оно сводится к распределению Тьюки h. $X \sim N(\mu, \sigma^2)$ $\theta = (\mu_x, \sigma_x, \delta, \alpha)$ $\alpha \equiv 1$

Теперь как преобразование данных это становится интересным, поскольку преобразование является биективным (почти биективным для искаженного случая) и может быть получено явно с помощью функции W Ламберта (отсюда и название Lambert W x F). Это означает, что мы можем удалить асимметрию из данных, а также удалить тяжелые хвосты (биективно!).

Вы можете попробовать это с помощью пакета LambertW R, в руководстве которого приведено множество примеров того, как его использовать.

Для приложений смотрите эти сообщения

Как распределяются эти данные? Это полная иллюстрация того, как преобразовать данные в нормальность в R с помощью пакета LambertW .
Ищем распределение, где: Среднее = 0, дисперсия является переменной, Skew = 0 и эксцесс является переменной

Георг М. Горг
источник

Какие другие нормализующие преобразования обычно используются помимо общих, таких как квадратный корень, лог и т. Д.?

Ответы: