Вопросы с тегом «predictive-models»

Прогнозирующие модели - это статистические модели, основной целью которых является оптимальное прогнозирование других наблюдений за системой, в отличие от моделей, целью которых является проверка конкретной гипотезы или механическое объяснение явления. Как таковые, прогнозирующие модели уделяют меньше внимания интерпретируемости и больше внимания производительности.

108
Результаты выборов в США 2016: что пошло не так с моделями прогнозирования?

Сначала это был Brexit , теперь выборы в США. Многие модельные прогнозы были отклонены с большой разницей, и есть ли уроки, которые нужно здесь извлечь? Вчера в 16:00 по тихоокеанскому времени рынки ставок по-прежнему предпочитали Хиллари 4: 1. Я полагаю, что рынки ставок с реальными деньгами на...

104
Различия между перекрестной проверкой и начальной загрузкой для оценки ошибки предсказания

Мне бы хотелось, чтобы ваши мысли о различиях между перекрестной проверкой и начальной загрузкой оценили ошибку прогноза. Работает ли лучше для небольших наборов данных или больших наборов...

80
Разница между доверительными интервалами и интервалами прогнозирования

Для интервала прогнозирования в линейной регрессии вы все еще используете E [ Y | х ] = ^ & beta ; 0 + β 1 х генерировать интервал. Вы также используете это, чтобы сгенерировать доверительный интервал E [ Y | х 0 ] . В чем разница между двумя?Е^[ Y| х]= β0^+ β^1ИксE^[Y|x]=β0^+β^1x\hat{E}[Y|x] =...

71
Генерация случайной величины с определенной корреляцией с существующей переменной

Для исследования моделирования я должен генерировать случайные переменные , которые показывают prefined (населения) корреляцию с существующей переменной .YYY Я посмотрел на Rпакеты copulaи CDVineкоторые могут производить случайные многомерные распределения с заданной структурой зависимостей. Однако...

70
Практические мысли о объяснительном и прогнозном моделировании

Еще в апреле я присутствовал на лекции в серии семинаров группы по статистике математического отдела UMD под названием «Объяснить или предсказать?». С докладом выступил профессор Галит Шмуэли, который преподает в Смитской школе бизнеса UMD. Ее доклад был основан на исследовании, которое она провела...

60
Как я могу гарантировать, что данные тестирования не попадут в данные обучения?

Предположим, у нас есть кто-то, строящий прогностическую модель, но он не обязательно хорошо разбирается в надлежащих статистических или машинных принципах обучения. Может быть, мы помогаем этому человеку, когда он учится, или, возможно, этот человек использует какой-то пакет программного...

57
Переменные часто корректируются (например, стандартизируются) перед созданием модели - когда это хорошая идея, а когда плохая?

В каких обстоятельствах вы хотите или не хотите масштабировать или стандартизировать переменную до подбора модели? И каковы преимущества / недостатки масштабирования...

55
Альтернативы логистической регрессии в R

Мне бы хотелось, чтобы столько алгоритмов выполняли ту же задачу, что и логистическая регрессия. Это алгоритмы / модели, которые могут дать прогноз двоичного ответа (Y) с некоторой пояснительной переменной (X). Я был бы рад, если после того, как вы назовете алгоритм, если вы также покажете, как...

54
Является ли корректной корректировка значений p в множественной регрессии для множественных сравнений?

Предположим, что вы - исследователь в области социальных наук / эконометрик и пытаетесь найти соответствующие предикторы спроса на услугу. У вас есть 2 итоговые / зависимые переменные, описывающие спрос (используя сервис да / нет и количество случаев). У вас есть 10 предикторов / независимых...

53
Когда несбалансированные данные действительно являются проблемой в машинном обучении?

У нас уже было несколько вопросов о несбалансированных данных при использовании логистической регрессии , SVM , деревьев решений , пакетов и ряда других подобных вопросов, что делает эту тему очень популярной! К сожалению, каждый из вопросов, похоже, зависит от алгоритма, и я не нашел каких-либо...

46
Интерпретация логарифмически преобразованного предиктора и / или ответа

Мне интересно, имеет ли это значение при интерпретации того, являются ли логически преобразованными только зависимые, как зависимые, так и независимые, или только независимые переменные. Рассмотрим случай log(DV) = Intercept + B1*IV + Error Я могу интерпретировать IV как процентное увеличение, но...

38
Вычисленный вручную

Я знаю, что это довольно специфический Rвопрос, но я могу думать о неправильной пропорции, объясненной, R2R2R^2 . Вот оно. Я пытаюсь использовать Rпакет randomForest. У меня есть некоторые тренировочные данные и данные тестирования. Когда я подгоняю модель случайного леса, randomForestфункция...

37
Дисперсия кратных оценок перекрестной проверки как : какова роль «устойчивости»?

TL, DR: кажется, что, вопреки часто повторяемым советам, перекрестная проверка «один-один-один» (LOO-CV), то естькратное CV, где(количество сгибов) равно(число обучающих наблюдений) - дает оценки ошибки обобщения, которые являются наименьшей переменной для любого, а не самой переменной, предполагая...

37
Когда и как использовать стандартизированные объясняющие переменные в линейной регрессии

У меня есть 2 простых вопроса о линейной регрессии: Когда рекомендуется стандартизировать объясняющие переменные? Как только можно выполнить оценку с использованием стандартизированных значений, как можно прогнозировать с помощью новых значений (как следует стандартизировать новые значения)?...

36
Как работать с моделью саморазрушительного прогнозирования?

Я смотрел презентацию специалиста по ML из крупного ритейлера, где они разработали модель для прогнозирования событий на складе. Давайте на минутку предположим, что со временем их модель становится очень точной, не будет ли это как-то «самоубийственно»? То есть, если модель действительно работает...

33
Относительная важность переменной для повышения

Я ищу объяснение того, как относительная важность переменной вычисляется в деревьях с градиентным усилением, которое не является слишком общим / упрощенным, например: Измерения основаны на количестве раз, которое переменная была выбрана для расщепления, взвешенной по квадрату улучшения модели в...

33
Это современная методология регрессии?

Я давно слежу за соревнованиями в Kaggle и осознаю, что многие выигрышные стратегии предполагают использование хотя бы одного из «больших троек»: мешки, бустинг и стекирование. Для регрессий вместо того, чтобы концентрироваться на построении одной наилучшей из возможных моделей регрессии, кажется,...

31
Должна ли скупость действительно оставаться золотым стандартом?

Просто мысль: Экономные модели всегда были стандартным выбором при выборе модели, но насколько этот подход устарел? Мне любопытно, насколько наша склонность к скупости является пережитком времени абаки и правил скольжения (или, что более серьезно, нетрадиционных компьютеров). Сегодняшние...

30
следует ли изменять масштаб индикатора / двоичных / фиктивных предикторов для LASSO

Для LASSO (и других процедур выбора модели) важно изменить масштаб предикторов. Общая рекомендация я следую просто использовать 0, 1 среднее стандартное отклонение нормализации для непрерывных переменных. Но что тут делать с чайниками? Например, некоторые прикладные примеры из той же (отличной)...

30
В чем причина проблемы дисбаланса классов?

В последнее время я много размышлял о «проблеме дисбаланса классов» в машинном / статистическом обучении и все глубже погружаюсь в ощущение, что я просто не понимаю, что происходит. Сначала позвольте мне определить (или попытаться) определить мои термины: Проблема дисбаланса классов в машинном /...