Статистика и большие данные

57

Кулинарная книга по машинному обучению / справочная карточка / шпаргалка?

Я считаю невероятно полезными такие ресурсы, как Книга вероятностей и статистики и Справочная карта R для интеллектуального анализа данных . Они, очевидно, служат справочной информацией, но также помогают мне организовать свои мысли по теме и получить представление о земле. В: Есть ли что-то...

machine-learning references

57

Переменные часто корректируются (например, стандартизируются) перед созданием модели - когда это хорошая идея, а когда плохая?

В каких обстоятельствах вы хотите или не хотите масштабировать или стандартизировать переменную до подбора модели? И каковы преимущества / недостатки масштабирования...

modeling predictive-models feature-selection theory standardization

57

Когда подходят логарифмические шкалы?

Я читал, что использование логарифмических масштабов при построении графиков / графиков целесообразно в определенных обстоятельствах, например, по оси Y в диаграмме временных рядов. Тем не менее, я не смог найти однозначного объяснения, почему это так, или когда это было бы уместно. Пожалуйста,...

data-visualization data-transformation

57

Имеет ли смысл добавлять в модель квадратный член, но не линейный?

У меня есть (смешанная) модель, в которой один из моих предикторов априори должен быть только квадратично связан с предиктором (из-за экспериментальных манипуляций). Следовательно, я хотел бы добавить только квадратичный член в модель. Две вещи не дают мне этого сделать: Я думаю, что я читал...

regression polynomial

57

Какое маленькое количество должно быть добавлено к x, чтобы избежать взятия нуля?

Я проанализировал свои данные такими, какие они есть. Теперь я хочу посмотреть на мои анализы после регистрации всех переменных. Многие переменные содержат много нулей. Поэтому я добавляю небольшое количество, чтобы избежать взятия нулевого журнала. Пока что я добавил 10 ^ -10, без какого-либо...

data-transformation chemometrics

57

Почему преобразование квадратного корня рекомендуется для данных подсчета?

Часто рекомендуется брать квадратный корень, когда у вас есть данные подсчета. (Некоторые примеры CV можно найти в ответе @ HarveyMotulsky здесь или в ответе @ whuber здесь .) С другой стороны, при подборе обобщенной линейной модели с переменной отклика, распределенной как Пуассон, журнал является...

generalized-linear-model data-transformation poisson-distribution count-data variance-stabilizing

57

Примеры, где метод моментов может превзойти максимальную вероятность в маленьких выборках?

Оценки максимального правдоподобия (MLE) асимптотически эффективны; мы видим практический результат в том, что они часто работают лучше, чем оценки методом моментов (MoM) (когда они различаются), даже при небольших размерах выборки Здесь «лучше чем» означает то, что обычно имеет меньшую дисперсию,...

estimation maximum-likelihood mse method-of-moments efficiency

57

Понимание кривой ROC

У меня проблемы с пониманием кривой ROC. Есть ли какое-либо преимущество / улучшение в области под кривой ROC, если я строю разные модели из каждого уникального подмножества обучающего набора и использую его для получения вероятности? Например, если имеет значения , и я строю модель , используя из...

r roc

57

10 голов подряд повышают вероятность того, что следующий бросок будет хвостом?

Я предполагаю, что верно следующее: при условии честной монеты, получение 10 голов подряд при подбрасывании монеты не увеличивает вероятность того, что следующая монета окажется хвостом , независимо от того, какое количество вероятности и / или статистического жаргона подброшено вокруг (извините за...

probability independence intuition games bernoulli-process

57

Как работает трюк репараметризации для VAE и почему это важно?

Как работает трюк репараметризации для вариационных автоэнкодеров (VAE)? Есть ли интуитивное и простое объяснение без упрощения математики? И зачем нам

mathematical-statistics autoencoders variational-bayes generative-models

57

Байесовская регрессия: как это делается по сравнению со стандартной регрессией?

У меня есть несколько вопросов о байесовской регрессии: Дана стандартная регрессия при . Если я хочу изменить это в байесовскую регрессию, нужно ли мне предварительные распределения для β 0 и β 1 (или это не работает таким образом)?Y= β0+ β1х + εy=β0+β1x+εy = \beta_0 + \beta_1 x +...

regression bayesian

56

Как распределяется минимум набора случайных величин?

Если являются независимыми одинаково распределенными случайными величинами, что можно сказать о распределении в целом?X1,...,XnX1,...,XnX_1, ..., X_nmin(X1,...,Xn)min(X1,...,Xn)\min(X_1, ...,...

distributions random-variable minimum

56

В чем разница между частичной вероятностью, профильной вероятностью и предельной вероятностью?

Я вижу, что эти термины используются, и я все время путаю их. Есть ли простое объяснение различий между

estimation maximum-likelihood

56

Какую реализацию теста перестановки в R использовать вместо t-тестов (парных и непарных)?

У меня есть данные из эксперимента, которые я проанализировал с помощью t-тестов. Зависимая переменная масштабируется по интервалу, а данные либо непарные (т. Е. 2 группы), либо парные (т. Е. Внутри-субъекты). Например (в рамках предметов): x1 <- c(99, 99.5, 65, 100, 99, 99.5, 99, 99.5, 99.5,...

r t-test nonparametric permutation-test

56

Каковы прорывы в статистике за последние 15 лет?

Я до сих пор помню документ «Анналы статистики» Фридмана-Хасти-Тибширани об усилении, а также комментарии других авторов (включая Фрейнда и Шапира) по тем же вопросам. В то время очевидно, что Boosting рассматривался как прорыв во многих отношениях: выполнимый в вычислительном отношении метод...

mathematical-statistics history

56

Зачем продолжать учить и использовать проверку гипотез (когда есть доверительные интервалы)?

Зачем продолжать учить и использовать тестирование гипотез (со всеми его сложными концепциями и которые являются одними из самых статистических грехов) для задач, где существует интервальная оценка (уверенность, начальная загрузка, достоверность или что-то еще)? Какое лучшее объяснение (если...

hypothesis-testing confidence-interval teaching

56

Программное обеспечение, необходимое для очистки данных от графика [закрыто]

У кого-нибудь есть опыт работы с программным обеспечением (желательно бесплатным, предпочтительно с открытым исходным кодом), которое будет снимать данные, нанесенные на декартовы координаты (стандартный, повседневный график), и извлекать координаты точек, нанесенных на график? По сути, это...

data-visualization data-mining software

56

Какой метод можно использовать для определения сезонности в данных?

Я хочу определить сезонность в данных, которые я получаю. Есть некоторые методы, которые я нашел, такие как сезонный подсерийный график и график автокорреляции, но дело в том, что я не понимаю, как читать график, кто-нибудь может помочь? Другое дело, есть ли другие методы для определения сезонности...

time-series seasonality

56

Как получить p-значение (проверить значимость) эффекта в смешанной модели lme4?

Я использую lme4 в R, чтобы соответствовать смешанной модели lmer(value~status+(1|experiment))) где значение непрерывно, статус и эксперимент являются факторами, и я получаю Linear mixed model fit by REML Formula: value ~ status + (1 | experiment) AIC BIC logLik deviance REMLdev 29.1 46.98 -9.548...

r hypothesis-testing mixed-model p-value lme4-nlme

56

Как смоделировать данные, которые удовлетворяют определенным ограничениям, таким как наличие определенного среднего значения и стандартного отклонения?

Этот вопрос мотивирован моим вопросом о метаанализе . Но я полагаю, что это также было бы полезно при обучении контекстов, в которых вы хотите создать набор данных, который точно отражает существующий опубликованный набор данных. Я знаю, как генерировать случайные данные из данного распределения....

r dataset simulation random-generation