Вопросы с тегом «data-transformation»

Математическое переопределение, часто нелинейное, значений данных. Данные часто преобразуются либо для соответствия допущениям статистической модели, либо для того, чтобы сделать результаты анализа более понятными.

191
Как мне преобразовать неотрицательные данные, включая нули?

Если у меня сильно искажены положительные данные, я часто беру логи. Но что мне делать с сильно искаженными неотрицательными данными, которые содержат нули? Я видел два использованных преобразования: журнал( х + 1 )log⁡(x+1)\log(x+1) который имеет аккуратную особенность, которая 0 отображается на...

181
Как суммировать данные по группам в R? [закрыто]

У меня есть фрейм данных R, как это: age group 1 23.0883 1 2 25.8344 1 3 29.4648 1 4 32.7858 2 5 33.6372 1 6 34.9350 1 7 35.2115 2 8 35.2115 2 9 35.2115 2 10 36.7803 1 ... Мне нужно получить фрейм данных в следующем виде: group mean sd 1 34.5 5.6 2 32.3 4.2 ... Номер группы может отличаться, но их...

174
Когда (и почему) вы должны взять журнал распределения (чисел)?

Скажем, у меня есть некоторые исторические данные, например, прошлые цены на акции, колебания цен на авиабилеты, прошлые финансовые данные компании ... Теперь кто-то (или какая-то формула) приходит и говорит «давайте возьмем / используем журнал дистрибутива», и вот куда я иду ПОЧЕМУ ? Вопросов:...

57
Имеет ли смысл когда-либо рассматривать категориальные данные как непрерывные?

Отвечая на этот вопрос о дискретных и непрерывных данных, я уверенно утверждал, что редко имеет смысл рассматривать категориальные данные как непрерывные. На первый взгляд это кажется само собой разумеющимся, но интуиция часто является плохим руководством для статистики, или, по крайней мере, моим....

57
Когда подходят логарифмические шкалы?

Я читал, что использование логарифмических масштабов при построении графиков / графиков целесообразно в определенных обстоятельствах, например, по оси Y в диаграмме временных рядов. Тем не менее, я не смог найти однозначного объяснения, почему это так, или когда это было бы уместно. Пожалуйста,...

57
Почему преобразование квадратного корня рекомендуется для данных подсчета?

Часто рекомендуется брать квадратный корень, когда у вас есть данные подсчета. (Некоторые примеры CV можно найти в ответе @ HarveyMotulsky здесь или в ответе @ whuber здесь .) С другой стороны, при подборе обобщенной линейной модели с переменной отклика, распределенной как Пуассон, журнал является...

57
Какое маленькое количество должно быть добавлено к x, чтобы избежать взятия нуля?

Я проанализировал свои данные такими, какие они есть. Теперь я хочу посмотреть на мои анализы после регистрации всех переменных. Многие переменные содержат много нулей. Поэтому я добавляю небольшое количество, чтобы избежать взятия нулевого журнала. Пока что я добавил 10 ^ -10, без какого-либо...

53
Бокс-Кокса как преобразование для независимых переменных?

Существует ли преобразование типа Бокса-Кокса для независимых переменных? То есть преобразование, которое оптимизирует переменную так, чтобы она более подходила для линейной модели?Иксxxy~f(x) Если да, есть ли функция для выполнения этого...

50
Горячее против фиктивного кодирования в Scikit-Learn

Существует два разных способа кодирования категориальных переменных. Скажем, одна категориальная переменная имеет n значений. Горячее кодирование преобразует его в n переменных, а фиктивное кодирование преобразует его в n-1 переменные. Если у нас есть k категориальных переменных, каждая из которых...

47
Как применить стандартизацию / нормализацию к обучению и тестам, если целью является прогнозирование?

Преобразовываю ли я все свои данные или сгибы (если применяется CV) одновременно? например (allData - mean(allData)) / sd(allData) Преобразовать ли наборы поездов и наборы тестов отдельно? например (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Или я...

46
Нормализация против масштабирования

В чем разница между данными «нормализация» и данными «масштабирование»? До сих пор я думал, что оба термина относятся к одному и тому же процессу, но теперь я понимаю, что есть нечто большее, чего я не знаю / не понимаю. Также, если есть разница между нормализацией и масштабированием, когда мы...

46
Интерпретация логарифмически преобразованного предиктора и / или ответа

Мне интересно, имеет ли это значение при интерпретации того, являются ли логически преобразованными только зависимые, как зависимые, так и независимые, или только независимые переменные. Рассмотрим случай log(DV) = Intercept + B1*IV + Error Я могу интерпретировать IV как процентное увеличение, но...

41
Регрессия: Преобразование переменных

При преобразовании переменных, вы должны использовать все те же преобразования? Например, могу ли я выбрать по-разному преобразованные переменные, как в: Пусть - возраст, стаж работы, стаж проживания и доход.Икс1, х2, х3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) Или вы должны...

36
Альтернативы одностороннему ANOVA для гетероскедастических данных

У меня есть данные от 3 групп биомассы водорослей ( , , ), которые содержат неравные размеры выборки ( , , ), и я хотел бы сравнить, если эти группы принадлежат к одной популяции.B C n A = 15 n B = 13 n C = 12AAABBBCCCnA=15nA=15n_A=15nB=13nB=13n_B=13nC=12nC=12n_C=12 Односторонний ANOVA определенно...

32
Как изменить данные между широким и длинным форматами в R? [закрыто]

Вы можете иметь данные в широком формате или в длинном формате. Это довольно важная вещь, так как используемые методы различаются в зависимости от формата. Я знаю, что вы должны работать melt()иcast() пакетом измененных форм из него, но есть некоторые вещи, которые я не понимаю. Может кто-нибудь...

31
Анализ со сложными данными, что-нибудь другое?

Скажем, например, вы делаете линейную модель, но данные сложны.yyy y=xβ+ϵy=xβ+ϵ y = x \beta + \epsilon Мой набор данных сложен, так как все числа в имеют форму . Есть ли что-то процедурное при работе с такими данными?( а + б я )yyy(a+bi)(a+bi)(a + bi) Я спрашиваю, потому что вы в конечном итоге...

30
Каковы предположения об отрицательной биномиальной регрессии?

Этот вопрос был перенесен из Математического стека обмена, потому что на него можно ответить по перекрестной проверке. Мигрировал 6 лет назад . Я работаю с большим набором данных (конфиденциально, поэтому я не могу поделиться слишком много), и пришел к выводу, что отрицательный биномиальный...

27
Всегда ли хорошо отбеливать?

Обычным этапом предварительной обработки алгоритмов машинного обучения является отбеливание данных. Кажется, что всегда полезно делать отбеливание, так как оно не коррелирует данные, что упрощает их моделирование. Когда отбеливание не рекомендуется? Примечание: я имею в виду декорреляцию...

26
Преобразование переменных для множественной регрессии в R

Я пытаюсь выполнить множественную регрессию в R. Однако моя зависимая переменная имеет следующий график: Вот матрица диаграммы рассеяния со всеми моими переменными ( WARэто зависимая переменная): Я знаю, что мне нужно выполнить преобразование для этой переменной (и, возможно, независимых...