В «Обнаружении статистики Энди Филда с использованием SPSS» он утверждает, что все переменные должны быть преобразованы.
Однако в публикации: «Изучение пространственно меняющихся взаимосвязей между землепользованием и качеством воды с использованием географически взвешенной регрессии I: проектирование и оценка модели», в частности, они утверждают, что были преобразованы только ненормальные переменные.
Этот анализ специфичен? Например, при сравнении средств сравнение журналов с необработанными данными, очевидно, дало бы значительную разницу, тогда как при использовании чего-то вроде регрессии для исследования взаимосвязи между переменными это становится менее важным.
Изменить: Вот полнотекстовая страница в разделе «Преобразование данных»:
А вот и ссылка на статью: http://www.sciencedirect.com/science/article/pii/S0048969708009121
источник
Ответы:
Вы цитируете несколько советов, каждый из которых, без сомнения, предназначен для нас, но в них трудно найти много достоинств.
В каждом случае я полностью полагаюсь на то, что вы приводите в качестве резюме. В защиту авторов я хотел бы полагать, что они добавляют соответствующие квалификации в окружающий или другой материал. (Полные библиографические ссылки в обычном (ых) названии (ах), дате, названии, (издатель, место) или (название журнала, том, страницы) улучшат этот вопрос.)
поле
Этот совет полезен, но в лучшем случае значительно упрощен. Совет Филда, кажется, предназначен вообще; Например, ссылка на тест Левена подразумевает некоторую временную сосредоточенность на анализе отклонений.
Например, предположим, у меня есть один предиктор, который по разным причинам должен быть зарегистрирован, и другая переменная индикатора, которая . Последний (а) не может быть зарегистрирован (б) не должен быть зарегистрирован. (Действительно, любое преобразование индикаторной переменной в любые два различных значения не имеет важного эффекта.)( 1 , 0 )
В целом, во многих областях обычная ситуация - это то, что некоторые предикторы должны быть преобразованы, а остальные оставлены как есть.
Это правда, что столкновение в статье или диссертации смеси трансформаций, применяемых по-разному к разным предикторам (в том числе как частный случай, трансформация идентичности или оставление как есть), часто вызывает беспокойство у читателя. Является ли смесь хорошо продуманным выбором или она была произвольной и капризной?
Кроме того, в серии исследований согласованность подхода (всегда применяя логарифмы к ответу или никогда не делая этого) действительно очень помогает при сравнении результатов, а другой подход делает его более трудным.
Но это не значит, что никогда не может быть причин для сочетания преобразований.
Я не вижу, что большая часть цитируемого вами раздела имеет большое значение для ключевого совета, который вы выделите желтым цветом. Это само по себе вызывает беспокойство: странно объявлять абсолютное правило, а потом не объяснять его. И наоборот, предписание «Помни» предполагает, что основания Филда были указаны ранее в книге.
Анонимная бумага
Контекст здесь - регрессионные модели. Как часто разговоры об OLS странным образом подчеркивают метод оценки, а не модель, но мы можем понять, что предполагается. GWR я рассматриваю как географически взвешенную регрессию.
Аргумент здесь заключается в том, что вы должны преобразовать ненормальные предикторы и оставить другие как есть. Опять же, возникает вопрос о том, что вы можете и должны делать с переменными индикатора, которые не могут быть нормально распределены (на что, как указано выше, можно ответить, указав, что ненормальность в этом случае не является проблемой). Но судебный запрет имеет обратную сторону, подразумевая, что проблема заключается в ненормальности предикторов. Не так; регрессионное моделирование не является частью предположения о предельных распределениях предикторов.
На практике, если вы сделаете предикторы более нормальными, то вы будете часто применять преобразования, которые делают функциональную форму более близкой к данным, что я бы назвал главной причиной трансформации, несмотря на огромный акцент на структура ошибок во многих текстах. Другими словами, ведение журнала предикторов, чтобы приблизить их к нормальному состоянию, может делать правильные вещи по неправильной причине, если вы приближаетесь к линейности в преобразованном пространстве.Иксβ
На этом форуме так много необычайно хороших советов по трансформации, что я сосредоточился на обсуждении того, что вы цитируете.
PS Вы добавляете оператор, начинающийся с «Например, при сравнении средств сравнение журналов с необработанными данными, очевидно, даст значительную разницу». Я не понимаю, что вы имеете в виду, но сравнение значений для одной группы с логарифмами значений для другой группы было бы просто бессмысленным. Я не понимаю остальную часть вашего заявления.
источник
Прежде всего, обе кавычки вводят в заблуждение, поскольку любое преобразование, применяемое к данным, предназначенным для использования в регрессионной модели, не делается для более равномерного распределения переменных PDF, это делается для того, чтобы сделать остатки модели более симметричными, поскольку одно предположение в классической регрессии что ошибки гауссовы. Это подразумевает более глубокий уровень строгости и строгости, чем простая симметризация PDF.
Кроме того, обе цитаты являются слабыми в том, что ни один из них не вникает в мотивации своих рецептов (по крайней мере, на основе предоставленной информации). Как это происходит, я не согласен с обоими.
В выделенном вами отрывке книга SPSS утверждает, что смеси преобразований (например, натуральный логарифм для одной переменной, квадратный корень для другой) недопустимы. Почему это незаконно? Смеси трансформаций не противоречат регрессионным предположениям, о которых я знаю. Пожалуйста, проверьте любые регрессионные тексты на предположениях регрессии, чтобы подтвердить, что это так. Смеси преобразования могут представлять существенную описательную проблему с точки зрения их интерпретации, но это не вопрос того, являются ли смеси незаконными. Парень SPSS не прав.
Что касается второго текста, опять же, преобразования полностью зависят от выбора аналитика - делает ли он их вообще, преобразует ли все входные данные или некоторые переменные, а не другие. Ничто из этого не нарушает никаких предположений.
Я думаю, что вторая цитата сходит с рельсов: утверждение ... "чтобы избежать потенциальной мультиколлинеарности ... был использован только один индикатор землепользования ...". Это явно плохой совет и звучит как Некоторые аналитики будут делать такие вещи, как метод уменьшения размеров, где они будут анализировать множество переменных и выбирать самую высокую переменную загрузки для каждого фактора. Эта эвристика существует уже много лет, и я не использую ее или не рекомендую. Опять же, это вопрос предпочтений аналитика и обучения. Но этот момент не предназначен для ответа на ваши конкретные вопросы.
В конце дня обе цитаты становятся подтверждением мнений авторов в отсутствие каких-либо подтверждающих доказательств, основанных на предоставленной информации.
источник