Вопросы с тегом «regression»

53
Что означает наличие «постоянной дисперсии» в модели линейной регрессии?

Что означает наличие «постоянной дисперсии» в термине ошибки? На мой взгляд, у нас есть данные с одной зависимой переменной и одной независимой переменной. Постоянная дисперсия является одним из предположений о линейной регрессии. Мне интересно, что означает гомоскедастичность. Поскольку даже если...

53
Эффективная онлайн линейная регрессия

Я анализирую некоторые данные, в которых я хотел бы выполнить обычную линейную регрессию, однако это невозможно, поскольку я имею дело с настройкой в ​​режиме онлайн с непрерывным потоком входных данных (который быстро станет слишком большим для памяти), и мне необходимо обновить оценки параметров,...

52
Почему мы так заботимся о нормально распределенных членах ошибки (и гомоскедастичности) в линейной регрессии, когда нам это не нужно?

Я полагаю, что расстраиваюсь каждый раз, когда слышу, как кто-то говорит, что ненормальность остатков и / или гетероскедастичность нарушают допущения OLS. Для оценки параметров в модели МНК ни одно из этих предположений не является необходимым по теореме Гаусса-Маркова. Я вижу, как это важно в...

52
Необходимо ли масштабировать целевое значение в дополнение к функциям масштабирования для регрессионного анализа?

Я строю регрессионные модели. В качестве шага предварительной обработки я масштабирую значения моих объектов так, чтобы они имели среднее значение 0 и стандартное отклонение 1. Необходимо ли также нормализовать целевые...

51
Почему бы не приблизиться к классификации через регрессию?

В некоторых материалах, которые я видел по машинному обучению, говорилось, что плохая идея - подходить к проблеме классификации с помощью регрессии. Но я думаю, что всегда можно сделать непрерывную регрессию, чтобы соответствовать данным и усечь непрерывный прогноз, чтобы получить дискретные...

50
Есть ли разница между «контролем» и «игнорированием» других переменных в множественной регрессии?

Коэффициент объясняющей переменной в множественной регрессии говорит нам о связи этой объясняющей переменной с зависимой переменной. Все это, одновременно «контролируя» другие объясняющие переменные. Как я видел это до сих пор: Пока каждый коэффициент вычисляется, другие переменные не учитываются,...

50
Горячее против фиктивного кодирования в Scikit-Learn

Существует два разных способа кодирования категориальных переменных. Скажем, одна категориальная переменная имеет n значений. Горячее кодирование преобразует его в n переменных, а фиктивное кодирование преобразует его в n-1 переменные. Если у нас есть k категориальных переменных, каждая из которых...

50
Можно ли использовать случайный лес для выбора признаков в множественной линейной регрессии?

Так как RF может обрабатывать нелинейность, но не может предоставить коэффициенты, было бы разумно использовать случайный лес для сбора наиболее важных признаков, а затем включить эти объекты в модель множественной линейной регрессии для получения их коэффициентов?...

50
Быстрая линейная регрессия, устойчивая к выбросам

Я имею дело с линейными данными с выбросами, некоторые из которых находятся на расстоянии более 5 стандартных отклонений от расчетной линии регрессии. Я ищу технику линейной регрессии, которая уменьшает влияние этих точек. Пока что я сделал, чтобы оценить линию регрессии со всеми данными, затем...

50
Почему ANOVA эквивалентен линейной регрессии?

Я читал, что ANOVA и линейная регрессия - это одно и то же. Как это может быть, учитывая, что выход ANOVA представляет собой некоторое значение и некоторое значение на основании которого вы заключаете, что выборка означает, что для разных выборок значения одинаковы или различны.pFFFпpp Но если...

47
Если t-критерий и ANOVA для двух групп эквивалентны, почему их предположения не эквивалентны?

Я уверен, что у меня это полностью обернуто вокруг моей головы, но я просто не могу понять это. T-критерий сравнивает два нормальных распределения, используя Z-распределение. Вот почему в ДАННЫХ есть предположение о нормальности. ANOVA эквивалентен линейной регрессии с фиктивными переменными и...

47
Сплайны перекрывают данные?

Моя проблема : я недавно встретил статистика, который сообщил мне, что сплайны полезны только для исследования данных и подвержены переобучению, таким образом, бесполезны при прогнозировании. Он предпочел исследовать с помощью простых полиномов ... Так как я большой поклонник сплайнов, и это...

47
С чего начать со статистики для опытного разработчика

В первой половине 2015 года я прошел курс обучения машинному обучению (автор Andrew Ng, курс GREAT). И изучил основы машинного обучения (линейная регрессия, логистическая регрессия, SVM, нейронные сети ...) Кроме того, я был разработчиком в течение 10 лет, поэтому изучение нового языка...

47
Можно ли сделать простую линейную регрессию без использования графиков и линейной алгебры?

Я полностью слепой и пришел из программирования. Я пытаюсь научиться машинному обучению, и для этого мне сначала нужно узнать о линейной регрессии. Все объяснения в Интернете, которые я нахожу об этом предмете, наносят данные в первую очередь. Я ищу практическое объяснение линейной регрессии,...

46
Интерпретация логарифмически преобразованного предиктора и / или ответа

Мне интересно, имеет ли это значение при интерпретации того, являются ли логически преобразованными только зависимые, как зависимые, так и независимые, или только независимые переменные. Рассмотрим случай log(DV) = Intercept + B1*IV + Error Я могу интерпретировать IV как процентное увеличение, но...

46
Понимание регрессий - роль модели

Как может быть полезна модель регрессии, если вы не знаете функцию, для которой вы пытаетесь получить параметры? Я видел исследование, в котором говорилось, что матери, которые кормили своих детей грудью, реже страдают диабетом. Исследование было проведено на основе опроса около 1000 матерей и...

45
Как смоделировать искусственные данные для логистической регрессии?

Я знаю, что чего-то не хватает в моем понимании логистической регрессии, и буду очень признателен за любую помощь. Насколько я понимаю, логистическая регрессия предполагает, что вероятность результата «1» с учетом входных данных представляет собой линейную комбинацию входных данных, пропущенных...

45
Регрессия, когда остатки OLS обычно не распределяются

На этом сайте есть несколько потоков, обсуждающих, как определить, асимптотически ли нормально распределены остатки OLS . В этом превосходном ответе представлен другой способ оценки нормальности остатков с помощью R-кода . Это еще одно обсуждение практической разницы между стандартизированными и...