Вопросы с тегом «predictive-models»

11

Как букмекеры выбирают свои шансы на открытие?

Я знаю, что букмекерские конторы корректируют свои шансы, чтобы максимизировать прибыль, прогнозируя вероятности объема денег, вложенных в каждый результат. Как букмекеры выбирают свои шансы на...

predictive-models

11

Есть ли в этом модельном подходе

Мне недавно сказали, что процесс, которому я следовал (компонент тезиса MS), мог быть замечен как переоснащение. Я хочу лучше понять это и посмотреть, согласны ли другие. Целью этой части статьи является Сравните производительность деревьев градиентной ускоренной регрессии со случайными лесами в...

machine-learning data-mining predictive-models

11

Метрика оценки прогноза для панельных / продольных данных

Я хотел бы оценить несколько различных моделей, которые обеспечивают предсказания поведения на ежемесячном уровне. Данные сбалансированы, и 100 000 и T = 12. В результате посещение концерта происходит в определенном месяце, поэтому оно равно нулю для ~ 80% людей в любом месяце, но есть длинный...

repeated-measures predictive-models stata panel-data validation

11

Как прогнозировать новые данные с помощью сплайна / плавной регрессии

Может ли кто-нибудь помочь дать концептуальное объяснение того, как делаются прогнозы для новых данных при использовании сглаживания / сплайнов для прогнозирующей модели? Например, учитывая модель , созданную с использованием gamboostв mboostпакете в R, с р-сплайнами, как предсказания новых данных...

regression machine-learning predictive-models splines

11

Как мы предсказываем редкие события?

Я работаю над разработкой модели прогнозирования страхового риска. Эти модели относятся к «редким событиям», таким как прогнозирование неявки авиакомпаний, обнаружение неисправностей оборудования и т. Д. Когда я готовил свой набор данных, я пытался применить классификацию, но не смог получить...

classification predictive-models scikit-learn poisson-process

11

Ресурсы для изучения многоцелевых методов?

Я ищу ресурсы (книги, конспекты лекций и т. Д.) О методах обработки данных с несколькими целями (например, три зависимые переменные: 2 дискретные и 1 непрерывная). У кого-нибудь есть ресурсы / знания по этому вопросу? Я знаю, что для этого можно использовать нейронные сети....

regression machine-learning predictive-models references

11

Деревья решений и регрессия - Могут ли прогнозируемые значения выходить за пределы диапазона данных обучения?

Когда речь идет о деревьях решений, может ли прогнозируемое значение лежать вне диапазона обучающих данных? Например, если диапазон набора обучающих данных целевой переменной составляет 0-100, когда я генерирую свою модель и применяю ее к чему-то другому, могут ли мои значения быть -5? или 150?...

regression predictive-models random-forest cart

11

Какова интуиция, лежащая в основе рекуррентной нейронной сети с долговременной памятью (LSTM)?

Идея, лежащая в основе Recurrent Neural Network (RNN), мне ясна. Я понимаю это следующим образом: у нас есть последовательность наблюдений ( ) (или, другими словами, многомерный временной ряд). Каждое отдельное наблюдение является числовым вектором. В рамках RNN-модели мы предполагаем, что...

time-series neural-networks predictive-models intuition rnn

11

Регрессия с искаженными данными

Попытка рассчитать количество посещений из демографии и обслуживания. Данные очень искажены. Гистограммы: qq графики (слева - лог): m <- lm(d$Visits~d$Age+d$Gender+city+service) m <- lm(log(d$Visits)~d$Age+d$Gender+city+service) cityи serviceявляются факторными переменными. Я получаю низкое...

regression multiple-regression predictive-models exponential qq-plot

11

Когда я должен прекратить искать модель?

Я ищу модель между запасами энергии и погодой. У меня есть цена на MWatt, купленная между странами Европы, и много ценностей на погоду (файлы Grib). Каждые часы на срок 5 лет (2011-2015). Цена / день Это в день на один год. У меня это по часам на 5 лет. Пример погоды 3Dscatterplot, в кельвинах, на...

time-series forecasting predictive-models modeling large-data

11

Как интерпретировать результаты, когда гребень и лассо по отдельности работают хорошо, но дают разные коэффициенты

Я использую регрессионную модель с Лассо и Риджем (для прогнозирования дискретной переменной результата в диапазоне от 0 до 5). Перед запуском модели я использую SelectKBestметод, scikit-learnчтобы уменьшить набор функций с 250 до 25 . Без первоначального выбора признаков и Лассо, и Ридж уступают...

regression predictive-models feature-selection lasso ridge-regression

11

Почему Netflix переключился бы со своей пятизвездочной рейтинговой системы на систему «нравится / не нравится»?

Netflix использовал свои предложения на основе предоставленных пользователем оценок других фильмов / шоу. Эта рейтинговая система имела пять звезд. Теперь Netflix позволяет пользователям нравится / не нравится (большие пальцы вверх / вниз) фильмы / шоу. Они утверждают, что фильмы легче оценивать....

variance predictive-models prediction

10

Посоветуете какие-нибудь книги / статьи / руководства, чтобы начать аналитическую аналитику?

Какой учебный материал вы бы предложили сотруднику CS / начинающему статистику / начинающему математику для того, чтобы перейти к прогнозной

references predictive-models

10

Статистика для сайтов онлайн знакомств

Мне интересно, как системы онлайн-знакомств могут использовать данные опросов для определения совпадений. Предположим, у них есть данные о результатах прошлых матчей (например, 1 = счастливо женат, 0 = нет 2-го свидания). Далее, давайте предположим, что у них было 2 вопроса о предпочтениях,...

predictive-models

10

R линейная регрессия категориальной переменной «скрытое» значение

Это всего лишь пример, с которым я сталкивался несколько раз, поэтому у меня нет примеров данных. Запуск модели линейной регрессии в R: a.lm = lm(Y ~ x1 + x2) x1является непрерывной переменной x2является категориальным и имеет три значения, например, «Низкий», «Средний» и «Высокий». Однако вывод,...

r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

10

Лучший способ объединить двоичный и непрерывный ответ

Я пытаюсь найти лучший способ предсказать сумму платежа для агентства по сбору платежей. Зависимая переменная отлична от нуля только тогда, когда был произведен платеж. Понятно, что существует огромное количество нулей, потому что большинство людей не могут быть достигнуты или не могут погасить...

regression predictive-models logistic

10

Почему Anova () и drop1 () предоставили разные ответы для GLMM?

У меня есть GLMM формы: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Когда я использую drop1(model, test="Chi"), я получаю другие результаты, чем если бы я использовал Anova(model, type="III")из пакета автомобиля или summary(model). Последние...

r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

10

«Значимая переменная», которая не улучшает прогнозирование вне выборки - как интерпретировать?

У меня есть вопрос, который, я думаю, будет довольно простым для многих пользователей. Я использую модели линейной регрессии для (i) исследования взаимосвязи нескольких объясняющих переменных и моей переменной отклика и (ii) прогнозирования моей переменной отклика с использованием объяснительных...

statistical-significance predictive-models p-value prediction out-of-sample

10

Модель истории дискретного времени (выживания) в R

Я пытаюсь вписать модель с дискретным временем в R, но я не уверен, как это сделать. Я читал, что вы можете организовать зависимую переменную в разных строках, по одной для каждого временного наблюдения, и использовать glmфункцию со ссылкой logit или cloglog. В этом смысле, у меня есть три колонки:...

r survival pca sas matlab neural-networks r logistic spatial spatial-interaction-model r time-series econometrics var statistical-significance t-test cross-validation sample-size r regression optimization least-squares constrained-regression nonparametric ordinal-data wilcoxon-signed-rank references neural-networks jags bugs hierarchical-bayesian gaussian-mixture r regression svm predictive-models libsvm scikit-learn probability self-study stata sample-size spss wilcoxon-mann-whitney survey ordinal-data likert group-differences r regression anova mathematical-statistics normal-distribution random-generation truncation repeated-measures variance variability distributions random-generation uniform regression r generalized-linear-model goodness-of-fit data-visualization r time-series arima autoregressive confidence-interval r time-series arima autocorrelation seasonality hypothesis-testing bayesian frequentist uninformative-prior correlation matlab cross-correlation

10

Подгонка распределения к пространственным данным

Перекрестная публикация моего вопроса от mathoverflow, чтобы найти некоторую помощь по конкретной статистике. Я изучаю физический процесс, генерирующий данные, которые красиво проецируются в два измерения с неотрицательными значениями. Каждый процесс имеет (спроецированную) дорожку из точек - - см....

distributions modeling predictive-models fitting curve-fitting