При анализе результатов тестов (например, в области образования или психологии) общие методы анализа часто предполагают, что данные обычно распределяются. Однако, возможно, чаще, чем нет, баллы имеют тенденцию иногда сильно отличаться от нормальных.
Я знаком с некоторыми основными нормализующими преобразованиями, такими как: квадратные корни, логарифмы, обратные преобразования для уменьшения положительного перекоса, отраженные версии выше для уменьшения отрицательного перекоса, возведение в квадрат для лептокуртических распределений. Я слышал о арксинусных преобразованиях и преобразованиях власти, хотя я не очень осведомлен о них.
Итак, мне интересно, какие другие преобразования обычно используются аналитиками?
Первый шаг должен быть спросить , почему ваши переменные не являются нормально распределенными. Это может быть освещающим. Общие выводы из моего опыта:
Этот первый шаг может предложить изменения конструкции теста. Если вы заранее знаете об этих проблемах, вы можете даже разработать свой тест, чтобы избежать их, если вы считаете их проблематичными.
Второй шаг должен решить , что делать в ситуации , когда у вас есть не-обычные данные. Заметки трансформации являются лишь одной из возможных стратегий. Я повторю общий совет из предыдущего ответа относительно ненормальности :
источник
Джон Тьюки систематически обсуждает преобразования в своей книге об EDA. В дополнение к семейству Бокса-Кокса (аффинно масштабированные преобразования мощности) он определяет семейство «свернутых» преобразований для пропорций (по существу, степеней х / (1-х)) и «начальных» отсчетов (добавляя положительное смещение к подсчитанным данным прежде чем их трансформировать). Сложенные преобразования, которые по существу обобщают логит, особенно полезны для результатов тестов.
В совершенно ином ключе Johnson & Kotz в своих книгах о распределениях предлагает множество преобразований, предназначенных для преобразования статистики испытаний в приближенную нормальность (или в какое-либо другое целевое распределение), таких как преобразование кубического корня для хи-квадрат. Этот материал является отличным источником идей для полезных преобразований, когда вы ожидаете, что ваши данные будут следовать определенному распределению.
источник
Простой вариант - использовать суммы баллов вместо самих баллов. Сумма распределений стремится к нормальности. Например, в сфере образования вы можете добавить баллы учащегося к серии тестов.
Другой вариант, конечно, заключается в использовании методов, которые не предполагают нормальности, которые недооцениваются и недоиспользуются.
источник
Для искаженных и тяжелых данных я использую (и разработал) структуру распространения Lambert W x F. Перекошенные и тяжелые хвосты распределений Ламберта W x F основаны на нелинейном преобразовании входной случайной величины (RV) для вывода , который аналогичен X, но искажен и / или с тяжелым хвостом (см. документы для подробных формул).У л м б е р т Ш × ГX∼F Y LambertW×F
В целом это работает для любого непрерывного RV, но на практике нас больше всего интересует гауссовский . Для распределений Ламберта с большими хвостами W x F обратное является биективным и может быть оценено по данным с использованием вашей любимой оценки для параметра (MLE, методы моментов, Байесовский анализ, ...). Для и X, являющегося гауссовым, оно сводится к распределению Тьюки h.θ = ( μ x , σ x , δ , α ) α ≡ 1X∼N(μ,σ2) θ=(μx,σx,δ,α) α≡1
Теперь как преобразование данных это становится интересным, поскольку преобразование является биективным (почти биективным для искаженного случая) и может быть получено явно с помощью функции W Ламберта (отсюда и название Lambert W x F). Это означает, что мы можем удалить асимметрию из данных, а также удалить тяжелые хвосты (биективно!).
Вы можете попробовать это с помощью пакета LambertW R, в руководстве которого приведено множество примеров того, как его использовать.
Для приложений смотрите эти сообщения
источник