Вопросы с тегом «predictive-models»

28

Почему p-значения вводят в заблуждение после пошагового выбора?

Давайте рассмотрим, например, модель линейной регрессии. Я слышал, что в процессе интеллектуального анализа данных после выполнения пошагового выбора на основе критерия AIC вводить в заблуждение взгляды на p-значения для проверки нулевой гипотезы о том, что каждый истинный коэффициент регрессии...

27

Когда корреляция может быть полезной без причинно-следственной связи?

Любимая поговорка многих статистиков гласит: «Корреляция не подразумевает причинно-следственную связь». Это, конечно, правда, но одна вещь, которая, похоже, здесь подразумевается, это то, что корреляция имеет мало или вообще не имеет значения. Это правда? Разве бесполезно знать, что две переменные...

correlation predictive-models causality

27

Могут ли степени свободы быть нецелым числом?

Когда я использую GAM, он дает мне остаточный DF, (последняя строка в коде). Что это значит? Выходя за рамки примера GAM, в общем, может ли число степеней свободы быть нецелым числом?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data =...

r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

26

Прогнозирование с использованием как непрерывных, так и категориальных функций

Некоторые методы прогнозирующего моделирования больше предназначены для обработки непрерывных предикторов, а другие - для обработки категориальных или дискретных переменных. Конечно, существуют методы преобразования одного типа в другой (дискретизация, фиктивные переменные и т. Д.). Однако...

classification predictive-models categorical-data continuous-data discrete-data

25

Какую проблему решают передискретизация, недостаточная выборка и SMOTE?

В недавнем, хорошо полученном вопросе Тим спрашивает, когда несбалансированные данные действительно являются проблемой в машинном обучении ? Предпосылка вопроса заключается в том, что существует много литературы по машинному обучению, в которой обсуждается баланс классов и проблема...

machine-learning classification predictive-models unbalanced-classes

25

Есть ли алгоритм, сочетающий классификацию и регрессию?

Мне интересно, если какой-либо алгоритм может сделать классификацию и регрессию одновременно. Например, я бы хотел, чтобы алгоритм изучал классификатор, и в то же время внутри каждой метки он также изучал непрерывную цель. Таким образом, для каждого примера обучения он имеет категориальную метку и...

regression machine-learning classification predictive-models finite-mixture-model

24

Перекрестная проверка или начальная загрузка для оценки эффективности классификации?

Какой метод выборки является наиболее подходящим для оценки производительности классификатора на конкретном наборе данных и сравнения его с другими классификаторами? Перекрестная проверка кажется стандартной практикой, но я читал, что такие методы, как .632 начальной загрузки, являются лучшим...

machine-learning classification predictive-models cross-validation bootstrap

24

Полезны ли смешанные модели в качестве прогностических моделей?

Я немного озадачен преимуществами смешанных моделей в отношении прогнозного моделирования. Поскольку прогнозирующие модели обычно предназначены для прогнозирования значений ранее неизвестных наблюдений, для меня кажется очевидным, что единственная возможность, с которой смешанная модель может быть...

mixed-model predictive-models

24

Как я могу интерпретировать матрицу путаницы Склеарн

Я использую матрицу путаницы, чтобы проверить производительность моего классификатора. Я использую Scikit-Learn, я немного запутался. Как я могу интерпретировать результат от from sklearn.metrics import confusion_matrix >>> y_true = [2, 0, 2, 2, 0, 1] >>> y_pred = [0, 0, 2, 2, 0,...

predictive-models prediction confusion-matrix

24

Средняя абсолютная процентная ошибка (MAPE) в Scikit-learn [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Как мы можем рассчитать среднюю абсолютную процентную ошибку (MAPE) наших прогнозов, используя Python и...

predictive-models python scikit-learn mape

23

Сайты для соревнований по прогнозному моделированию

Я участвую в конкурсах по прогнозному моделированию на Kaggle , TunedIt и CrowdAnalytix . Я считаю, что эти сайты являются хорошим способом "тренировки" для статистики / машинного обучения. Есть ли другие сайты, о которых я должен знать? Как вы относитесь к соревнованиям, на которых ведущий...

machine-learning predictive-models

23

Визуализация калибровки прогнозируемой вероятности модели

Предположим, у меня есть прогностическая модель, которая выдает для каждого случая вероятность для каждого класса. Теперь я признаю, что есть много способов оценить такую модель, если я хочу использовать эти вероятности для классификации (точность, отзыв и т. Д.). Я также признаю, что кривая ROC...

data-visualization classification predictive-models binary-data calibration

23

Объяснение того, что Нейт Сильвер сказал о лессе

В вопросе, который я задал недавно , мне сказали, что это большое «нет-нет», экстраполировать с лессом. Но в последней статье Нейта Сильвера на FiveThirtyEight.com он обсуждал использование лессов для прогнозирования выборов. Он обсуждал специфику агрессивных и консервативных прогнозов с лессом, но...

time-series forecasting predictive-models loess politics

23

Важен ли исследовательский анализ данных при чисто прогностическом моделировании?

При построении прогностической модели с использованием методов машинного обучения, какой смысл проводить исследовательский анализ данных (EDA)? Можно ли сразу перейти к генерации объектов и созданию вашей модели? Как важна описательная статистика, используемая в...

machine-learning predictive-models descriptive-statistics eda

22

Генеративные и дискриминационные модели (в байесовском контексте)

Каковы различия между порождающими и дискриминационными (дискриминантными) моделями (в контексте байесовского обучения и умозаключений)? и какое это имеет отношение к предсказанию, теории принятия решений или обучению без...

bayesian predictive-models unsupervised-learning

21

Как предсказать результат только с положительными случаями в качестве обучения?

Ради простоты, скажем, я работаю над классическим примером писем со спамом / без спама. У меня есть набор из 20000 писем. Из них я знаю, что 2000 являются спамом, но у меня нет примеров писем, не являющихся спамом. Я хотел бы предсказать, являются ли оставшиеся 18000 спамом или нет. В идеале,...

machine-learning predictive-models unsupervised-learning supervised-learning semi-supervised

21

Методы увеличения данных для общих наборов данных?

Во многих приложениях машинного обучения так называемые методы дополнения данных позволили построить лучшие модели. Например, предположим, тренировочный набор из изображений кошек и собак. Вращением, зеркальным отображением, регулировкой контрастности и т. Д. Можно создавать дополнительные...

machine-learning predictive-models dataset independence data-augmentation

20

Функция «Интерес» для вопросов StackExchange

Я пытаюсь собрать пакет сбора данных для сайтов StackExchange и, в частности, я застрял в попытке определить «самые интересные» вопросы. Я хотел бы использовать оценку вопроса, но убрать смещение из-за количества просмотров, но я не знаю, как к этому строго подходить. В идеальном мире я мог бы...

data-mining predictive-models

20

Байесовское мышление о переоснащении

Я посвятил много времени разработке методов и программного обеспечения для проверки прогностических моделей в традиционной статистической области. Внедряя больше байесовских идей в практику и обучая, я вижу некоторые ключевые отличия, которые следует принять Во-первых, байесовское прогнозирующее...

bayesian cross-validation predictive-models validation regression-strategies

19

Прогнозирующее моделирование. Должны ли мы заботиться о смешанном моделировании?

Для прогностического моделирования, нужно ли нам заниматься статистическими понятиями, такими как случайные эффекты и отсутствие независимости наблюдений (повторные измерения)? Например.... У меня есть данные из 5 кампаний прямой почтовой рассылки (проводившихся в течение года) с различными...

machine-learning predictive-models repeated-measures assumptions