Экспресс-ответы в исходных единицах, в преобразованных Бокс-Коксом данных

13

Для некоторых измерений результаты анализа соответствующим образом представлены в преобразованной шкале. Однако в большинстве случаев желательно представлять результаты в исходной шкале измерений (в противном случае ваша работа более или менее бесполезна).

Например, в случае данных, преобразованных в лог, возникает проблема с интерпретацией в исходной шкале, потому что среднее значение зарегистрированных значений не является логарифмом среднего. Взятие антилогарифма оценки среднего значения по логарифмической шкале не дает оценки среднего значения по исходной шкале.

Однако, если преобразованные в журнал данные имеют симметричное распределение, сохраняются следующие отношения (поскольку журнал сохраняет порядок):

Жадный[журнал(Y)]знак равномедиана[журнал(Y)]знак равножурнал[медиана(Y)]

(антилогарифм среднего значения логарифма является медианой на исходной шкале измерений).

Так что я могу только сделать выводы о разнице (или соотношении) медиан в исходной шкале измерения.

T-тесты с двумя выборками и доверительные интервалы наиболее надежны, если популяции примерно нормальны с приблизительно стандартными отклонениями, поэтому мы можем испытать искушение использовать Box-Coxпреобразование для выполнения предположения о нормальности (я также думаю, что это преобразование также стабилизирует дисперсию) ).

Однако, если мы применим t-инструменты к Box-Coxпреобразованным данным, мы получим выводы о разнице в средствах преобразованных данных. Как мы можем интерпретировать те, которые находятся на первоначальной шкале измерения? (Среднее из преобразованных значений не является преобразованным средним). Другими словами, выполнение обратного преобразования оценки среднего значения в преобразованной шкале не дает оценку среднего значения в исходной шкале.

Могу ли я также сделать выводы только о медианах в этом случае? Есть ли трансформация, которая позволит мне вернуться к средствам (в первоначальном масштабе)?

Этот вопрос был изначально размещен как комментарий здесь

Джордж Донтас
источник

Ответы:

11

Если вы хотите сделать выводы конкретно о среднем исходной переменной, не используйте преобразование Бокса-Кокса. Преобразования Бокса-Кокса IMO наиболее полезны, когда преобразованная переменная имеет свою собственную интерпретацию, а преобразование Бокса-Кокса помогает вам только найти правильную шкалу для анализа - это, на удивление, часто случается. Два неожиданных показателя, которые я нашел таким образом, были 1/3 (когда переменная ответа была объемом мочевого пузыря) и -1 (когда переменная ответа была вдохом в минуту).

Лог-трансформация, вероятно, единственное исключение из этого. Среднее значение на логарифмической шкале соответствует среднему геометрическому значению в исходной шкале, которое является по меньшей мере четко определенной величиной.

Анико
источник
Ну, у тебя есть и другие исключения. -1 соответствует среднему гармоническому значению, ...
kjetil b halvorsen
9

Если преобразование Бокса-Кокса дает симметричное распределение, то среднее значение преобразованных данных преобразуется обратно в медиану в исходном масштабе. Это верно для любого монотонного преобразования, включая преобразования Бокса-Кокса, преобразования IHS и т. Д. Таким образом, выводы о средстве для преобразованных данных соответствуют выводам о медиане в исходной шкале.

Поскольку исходные данные были искажены (или вы не использовали бы вначале преобразование Бокса-Кокса), зачем вам выводы о средствах? Я бы подумал, что работа с медианами будет иметь больше смысла в этой ситуации. Я не понимаю, почему это рассматривается как «проблема с интерпретацией в первоначальном масштабе».

Роб Хиндман
источник
λ
АРС
Спасибо. Возможно, потому что выборка (от населения, которое, я думаю, должно следовать приблизительно симметричному распределению), может случайно оказаться искаженной.
Джордж Донтас
4
Хороший пример необходимости делать выводы о средствах, несмотря ни на что, дают некоторые оценки экологических рисков. Для упрощения представьте, что вы планируете превратить землю в парк. Вы проверяете почвы на наличие какого-либо опасного соединения и, как это часто бывает, обнаруживаете, что его концентрация приблизительно логарифмически распределена. Тем не менее, люди, пользующиеся парком - которые могут непосредственно подвергнуться воздействию этих почв - будут эффективно «случайным образом» выбирать почвы по мере их перемещения. Их экспозиция со временем будет представлять собой среднюю арифметическую концентрацию, а не ее геометрическое среднее.
whuber
1
Иногда нас интересуют проблемы, которые возникают из формулировок общего количества чего-либо. Если вы знаете среднее значение, вы можете перейти от среднего к общему (умножить на количество наблюдений). Нет пути от среднего к общему!
Джордж Донтас
6

Если вы хотите сделать вывод о средствах в исходной шкале, вы можете рассмотреть возможность использования вывода, которое не использует допущения нормальности.

Будьте осторожны, однако. Простое включение прямого сравнения средних значений посредством, скажем, повторной выборки (либо тестов перестановки, либо начальной загрузки), когда две выборки имеют разные отклонения, может стать проблемой, если ваш анализ предполагает, что отклонения равны (и равные отклонения в преобразованной шкале будут разностными отклонениями). в первоначальном масштабе, если средства отличаются). Такие техники не избавляют от необходимости думать о том, что вы делаете.

е(Икс+час)T[μ+(Y-μ)]Yμσ2T()

T(μ)

-

Самый простой случай - это нормальность в логарифмическом масштабе и, следовательно, логарифмическая норма в исходном масштабе. Если ваша дисперсия известна (что в лучшем случае случается очень редко), вы можете построить логарифмические КИ и ПИ по исходной шкале, и вы можете дать прогнозируемое среднее из среднего значения распределения соответствующей величины.

TT

Вы должны очень тщательно продумать, на какой именно вопрос вы пытаетесь ответить.

Glen_b - Восстановить Монику
источник