Вопросы с тегом «data-transformation»

17
Обратное преобразование коэффициентов регрессии

Я делаю линейную регрессию с преобразованной зависимой переменной. Следующее преобразование было сделано для того, чтобы предположение о нормальности остатков было выполнено. Нетрансформированная зависимая переменная была отрицательно искажена, и следующее преобразование приблизило ее к...

16
Почему GLM отличается от LM с преобразованной переменной

Как поясняется в раздаточном материале этого курса (стр. 1) , линейная модель может быть записана в виде: y=β1x1+⋯+βpxp+εi,y=β1x1+⋯+βpxp+εi, y = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, где - переменная ответа, а - пояснительная переменная .yyyxixix_{i}ithithi^{th} Часто с целью...

16
Зачем преобразовывать данные в журнал перед выполнением анализа главных компонентов?

Я следую учебному пособию здесь: http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/, чтобы лучше понять PCA. Учебное пособие использует набор данных Iris и применяет преобразование журнала до PCA: Обратите внимание, что в следующем коде мы применяем логарифмическое преобразование к...

15
Канонический корреляционный анализ с ранговой корреляцией

Канонический корреляционный анализ (CCA) стремится максимизировать обычную корреляцию Пирсона с моментом произведения (то есть линейный коэффициент корреляции) линейных комбинаций двух наборов данных. Теперь рассмотрим тот факт , что этот коэффициент корреляции только измеряет линейные ассоциаций -...

15
Подводные камни, которых следует избегать при преобразовании данных?

Я добился прочной линейной взаимосвязи между моей переменной XXX и YYY после двукратного преобразования ответа. Модель была Y∼XY∼XY\sim X но я преобразовал ее в YX−−√∼X−−√YX∼X\sqrt{\frac{Y}{X}}\sim \sqrt{X} улучшилR2R2R^2с .19 до .76. Очевидно, я сделал приличную операцию на этих отношениях. Может...

15
Извлечь данные из скользящей средней?

Можно ли извлечь точки данных из данных скользящего среднего? Другими словами, если набор данных имеет только простые скользящие средние из предыдущих 30 точек, возможно ли извлечь исходные точки данных? Если так, то...

15
Преобразовать данные в желаемое среднее значение и стандартное отклонение

Я ищу метод для преобразования моего набора данных из его текущего среднего значения и стандартного отклонения в целевое среднее значение и целевое стандартное отклонение. По сути, я хочу уменьшить / расширить дисперсию и масштабировать все числа до среднего. Это не работает, чтобы сделать два...

15
CDF поднят на власть?

Если - это CDF, похоже, что ( ) также является CDF.FZFZF_ZFZ(z)αFZ(z)αF_Z(z)^\alphaα>0α>0\alpha \gt 0 В: Это стандартный результат? Q: Есть ли хороший способ найти функцию с st , гдеgggX≡g(Z)X≡g(Z)X \equiv g(Z)FX(x)=FZ(z)αFX(x)=FZ(z)αF_X(x) = F_Z(z)^\alphax≡g(z)x≡g(z) x \equiv g(z) По сути, у...

15
В чем может быть причина использования преобразования квадратного корня в данных?

Есть ли причина того, что я могу придумать, чтобы преобразовать данные с квадратным корнем? Я имею в виду, что я всегда наблюдаю, что R ^ 2 увеличивается. Но это, вероятно, только из-за центрирования данных! Любая мысль...

14
Как моделировать большие продольные данные?

Традиционно мы используем смешанную модель для моделирования продольных данных, то есть таких данных, как: id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 мы можем предположить случайный перехват или наклон для разных людей. Однако вопрос, который я...

14
Как бороться со смесью двоичных и непрерывных входов в нейронных сетях?

Я использую пакет nnet в R, чтобы попытаться построить ANN для прогнозирования цен на недвижимость для квартир (личный проект). Я новичок в этом и не имею математического образования, поэтому, пожалуйста, держись со мной. У меня есть входные переменные, которые являются двоичными и непрерывными....

14
Преобразование данных: все переменные или только ненормальные?

В «Обнаружении статистики Энди Филда с использованием SPSS» он утверждает, что все переменные должны быть преобразованы. Однако в публикации: «Изучение пространственно меняющихся взаимосвязей между землепользованием и качеством воды с использованием географически взвешенной регрессии I:...

14
Как энтропия зависит от местоположения и масштаба?

Энтропии непрерывного распределения с функцией плотности fff определяются как негатив ожидания log(f),log⁡(f),\log(f), и , следовательно , равны ЧАСе= - ∫∞- ∞журнал( ф( х ) ) е( х ) д х .Hf=−∫−∞∞log⁡(f(x))f(x)dx.H_f = -\int_{-\infty}^{\infty} \log(f(x)) f(x)\mathrm{d}x. Мы также говорим, что любая...

13
Уменьшение размерности SVD для временных рядов различной длины

Я использую Singular Value Decomposition в качестве техники уменьшения размерности. Заданные Nвекторы размерностиD идея состоит в том, чтобы представить элементы в преобразованном пространстве некоррелированных измерений, в котором большая часть информации данных содержится в собственных векторах...

13
центрирование и масштабирование фиктивных переменных

У меня есть набор данных, который содержит как категориальные переменные, так и непрерывные переменные. Мне посоветовали преобразовать категориальные переменные как двоичные переменные для каждого уровня (т. Е. A_level1: {0,1}, A_level2: {0,1}) - я думаю, некоторые назвали это «фиктивными...

13
Преобразование крайне искаженных распределений

Предположим, что у меня есть переменная, распределение которой искажено положительно в очень высокой степени, так что взятия бревна будет недостаточно, чтобы привести его в диапазон асимметрии для нормального распределения. Какие у меня варианты на данный момент? Что я могу сделать, чтобы...

13
Var (X) известно, как рассчитать Var (1 / X)?

Если у меня есть только , как я могу вычислить ?V a r ( 1)Var(X)Var(X)\mathrm{Var}(X)Var(1X)Var(1X)\mathrm{Var}(\frac{1}{X}) У меня нет никакой информации о распределении , поэтому я не могу использовать преобразование, или любые другие методы , которые используют распределение вероятностей...

13
Боксплотный эквивалент для дистрибутивов с тяжелыми хвостами?

Для приблизительно нормально распределенных данных коробочные диаграммы - отличный способ быстро визуализировать медиану и распространение данных, а также присутствие любых выбросов. Однако для распределений с более тяжелыми хвостами многие точки показаны как выбросы, поскольку выбросы определяются...

13
Модель регрессии, чья переменная ответа - день года, когда происходит ежегодное событие (обычно)

В данном конкретном случае я имею в виду день замерзания озера. Эта дата «обледенения» встречается только один раз в год, но иногда вообще не происходит (если зима теплая). Таким образом, в один год озеро может замерзнуть в день 20 (20 января), а в другой год оно может вообще не замерзнуть. Цель...