Вопросы с тегом «predictive-models»

28
Почему p-значения вводят в заблуждение после пошагового выбора?

Давайте рассмотрим, например, модель линейной регрессии. Я слышал, что в процессе интеллектуального анализа данных после выполнения пошагового выбора на основе критерия AIC вводить в заблуждение взгляды на p-значения для проверки нулевой гипотезы о том, что каждый истинный коэффициент регрессии...

27
Когда корреляция может быть полезной без причинно-следственной связи?

Любимая поговорка многих статистиков гласит: «Корреляция не подразумевает причинно-следственную связь». Это, конечно, правда, но одна вещь, которая, похоже, здесь подразумевается, это то, что корреляция имеет мало или вообще не имеет значения. Это правда? Разве бесполезно знать, что две переменные...

27
Могут ли степени свободы быть нецелым числом?

Когда я использую GAM, он дает мне остаточный DF, (последняя строка в коде). Что это значит? Выходя за рамки примера GAM, в общем, может ли число степеней свободы быть нецелым числом?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data =...

26
Прогнозирование с использованием как непрерывных, так и категориальных функций

Некоторые методы прогнозирующего моделирования больше предназначены для обработки непрерывных предикторов, а другие - для обработки категориальных или дискретных переменных. Конечно, существуют методы преобразования одного типа в другой (дискретизация, фиктивные переменные и т. Д.). Однако...

25
Какую проблему решают передискретизация, недостаточная выборка и SMOTE?

В недавнем, хорошо полученном вопросе Тим спрашивает, когда несбалансированные данные действительно являются проблемой в машинном обучении ? Предпосылка вопроса заключается в том, что существует много литературы по машинному обучению, в которой обсуждается баланс классов и проблема...

25
Есть ли алгоритм, сочетающий классификацию и регрессию?

Мне интересно, если какой-либо алгоритм может сделать классификацию и регрессию одновременно. Например, я бы хотел, чтобы алгоритм изучал классификатор, и в то же время внутри каждой метки он также изучал непрерывную цель. Таким образом, для каждого примера обучения он имеет категориальную метку и...

24
Перекрестная проверка или начальная загрузка для оценки эффективности классификации?

Какой метод выборки является наиболее подходящим для оценки производительности классификатора на конкретном наборе данных и сравнения его с другими классификаторами? Перекрестная проверка кажется стандартной практикой, но я читал, что такие методы, как .632 начальной загрузки, являются лучшим...

24
Полезны ли смешанные модели в качестве прогностических моделей?

Я немного озадачен преимуществами смешанных моделей в отношении прогнозного моделирования. Поскольку прогнозирующие модели обычно предназначены для прогнозирования значений ранее неизвестных наблюдений, для меня кажется очевидным, что единственная возможность, с которой смешанная модель может быть...

24
Как я могу интерпретировать матрицу путаницы Склеарн

Я использую матрицу путаницы, чтобы проверить производительность моего классификатора. Я использую Scikit-Learn, я немного запутался. Как я могу интерпретировать результат от from sklearn.metrics import confusion_matrix >>> y_true = [2, 0, 2, 2, 0, 1] >>> y_pred = [0, 0, 2, 2, 0,...

24
Средняя абсолютная процентная ошибка (MAPE) в Scikit-learn [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Как мы можем рассчитать среднюю абсолютную процентную ошибку (MAPE) наших прогнозов, используя Python и...

23
Сайты для соревнований по прогнозному моделированию

Я участвую в конкурсах по прогнозному моделированию на Kaggle , TunedIt и CrowdAnalytix . Я считаю, что эти сайты являются хорошим способом "тренировки" для статистики / машинного обучения. Есть ли другие сайты, о которых я должен знать? Как вы относитесь к соревнованиям, на которых ведущий...

23
Визуализация калибровки прогнозируемой вероятности модели

Предположим, у меня есть прогностическая модель, которая выдает для каждого случая вероятность для каждого класса. Теперь я признаю, что есть много способов оценить такую ​​модель, если я хочу использовать эти вероятности для классификации (точность, отзыв и т. Д.). Я также признаю, что кривая ROC...

23
Объяснение того, что Нейт Сильвер сказал о лессе

В вопросе, который я задал недавно , мне сказали, что это большое «нет-нет», экстраполировать с лессом. Но в последней статье Нейта Сильвера на FiveThirtyEight.com он обсуждал использование лессов для прогнозирования выборов. Он обсуждал специфику агрессивных и консервативных прогнозов с лессом, но...

23
Важен ли исследовательский анализ данных при чисто прогностическом моделировании?

При построении прогностической модели с использованием методов машинного обучения, какой смысл проводить исследовательский анализ данных (EDA)? Можно ли сразу перейти к генерации объектов и созданию вашей модели? Как важна описательная статистика, используемая в...

22
Генеративные и дискриминационные модели (в байесовском контексте)

Каковы различия между порождающими и дискриминационными (дискриминантными) моделями (в контексте байесовского обучения и умозаключений)? и какое это имеет отношение к предсказанию, теории принятия решений или обучению без...

21
Как предсказать результат только с положительными случаями в качестве обучения?

Ради простоты, скажем, я работаю над классическим примером писем со спамом / без спама. У меня есть набор из 20000 писем. Из них я знаю, что 2000 являются спамом, но у меня нет примеров писем, не являющихся спамом. Я хотел бы предсказать, являются ли оставшиеся 18000 спамом или нет. В идеале,...

21
Методы увеличения данных для общих наборов данных?

Во многих приложениях машинного обучения так называемые методы дополнения данных позволили построить лучшие модели. Например, предположим, тренировочный набор из изображений кошек и собак. Вращением, зеркальным отображением, регулировкой контрастности и т. Д. Можно создавать дополнительные...

20
Функция «Интерес» для вопросов StackExchange

Я пытаюсь собрать пакет сбора данных для сайтов StackExchange и, в частности, я застрял в попытке определить «самые интересные» вопросы. Я хотел бы использовать оценку вопроса, но убрать смещение из-за количества просмотров, но я не знаю, как к этому строго подходить. В идеальном мире я мог бы...

20
Байесовское мышление о переоснащении

Я посвятил много времени разработке методов и программного обеспечения для проверки прогностических моделей в традиционной статистической области. Внедряя больше байесовских идей в практику и обучая, я вижу некоторые ключевые отличия, которые следует принять Во-первых, байесовское прогнозирующее...

19
Прогнозирующее моделирование. Должны ли мы заботиться о смешанном моделировании?

Для прогностического моделирования, нужно ли нам заниматься статистическими понятиями, такими как случайные эффекты и отсутствие независимости наблюдений (повторные измерения)? Например.... У меня есть данные из 5 кампаний прямой почтовой рассылки (проводившихся в течение года) с различными...