Статистика и большие данные

57
Кулинарная книга по машинному обучению / справочная карточка / шпаргалка?

Я считаю невероятно полезными такие ресурсы, как Книга вероятностей и статистики и Справочная карта R для интеллектуального анализа данных . Они, очевидно, служат справочной информацией, но также помогают мне организовать свои мысли по теме и получить представление о земле. В: Есть ли что-то...

57
Переменные часто корректируются (например, стандартизируются) перед созданием модели - когда это хорошая идея, а когда плохая?

В каких обстоятельствах вы хотите или не хотите масштабировать или стандартизировать переменную до подбора модели? И каковы преимущества / недостатки масштабирования...

57
Когда подходят логарифмические шкалы?

Я читал, что использование логарифмических масштабов при построении графиков / графиков целесообразно в определенных обстоятельствах, например, по оси Y в диаграмме временных рядов. Тем не менее, я не смог найти однозначного объяснения, почему это так, или когда это было бы уместно. Пожалуйста,...

57
Имеет ли смысл добавлять в модель квадратный член, но не линейный?

У меня есть (смешанная) модель, в которой один из моих предикторов априори должен быть только квадратично связан с предиктором (из-за экспериментальных манипуляций). Следовательно, я хотел бы добавить только квадратичный член в модель. Две вещи не дают мне этого сделать: Я думаю, что я читал...

57
Какое маленькое количество должно быть добавлено к x, чтобы избежать взятия нуля?

Я проанализировал свои данные такими, какие они есть. Теперь я хочу посмотреть на мои анализы после регистрации всех переменных. Многие переменные содержат много нулей. Поэтому я добавляю небольшое количество, чтобы избежать взятия нулевого журнала. Пока что я добавил 10 ^ -10, без какого-либо...

57
Почему преобразование квадратного корня рекомендуется для данных подсчета?

Часто рекомендуется брать квадратный корень, когда у вас есть данные подсчета. (Некоторые примеры CV можно найти в ответе @ HarveyMotulsky здесь или в ответе @ whuber здесь .) С другой стороны, при подборе обобщенной линейной модели с переменной отклика, распределенной как Пуассон, журнал является...

57
Примеры, где метод моментов может превзойти максимальную вероятность в маленьких выборках?

Оценки максимального правдоподобия (MLE) асимптотически эффективны; мы видим практический результат в том, что они часто работают лучше, чем оценки методом моментов (MoM) (когда они различаются), даже при небольших размерах выборки Здесь «лучше чем» означает то, что обычно имеет меньшую дисперсию,...

57
Понимание кривой ROC

У меня проблемы с пониманием кривой ROC. Есть ли какое-либо преимущество / улучшение в области под кривой ROC, если я строю разные модели из каждого уникального подмножества обучающего набора и использую его для получения вероятности? Например, если имеет значения , и я строю модель , используя из...

57
10 голов подряд повышают вероятность того, что следующий бросок будет хвостом?

Я предполагаю, что верно следующее: при условии честной монеты, получение 10 голов подряд при подбрасывании монеты не увеличивает вероятность того, что следующая монета окажется хвостом , независимо от того, какое количество вероятности и / или статистического жаргона подброшено вокруг (извините за...

57
Байесовская регрессия: как это делается по сравнению со стандартной регрессией?

У меня есть несколько вопросов о байесовской регрессии: Дана стандартная регрессия при . Если я хочу изменить это в байесовскую регрессию, нужно ли мне предварительные распределения для β 0 и β 1 (или это не работает таким образом)?Y= β0+ β1х + εy=β0+β1x+εy = \beta_0 + \beta_1 x +...

56
Какую реализацию теста перестановки в R использовать вместо t-тестов (парных и непарных)?

У меня есть данные из эксперимента, которые я проанализировал с помощью t-тестов. Зависимая переменная масштабируется по интервалу, а данные либо непарные (т. Е. 2 ​​группы), либо парные (т. Е. Внутри-субъекты). Например (в рамках предметов): x1 <- c(99, 99.5, 65, 100, 99, 99.5, 99, 99.5, 99.5,...

56
Каковы прорывы в статистике за последние 15 лет?

Я до сих пор помню документ «Анналы статистики» Фридмана-Хасти-Тибширани об усилении, а также комментарии других авторов (включая Фрейнда и Шапира) по тем же вопросам. В то время очевидно, что Boosting рассматривался как прорыв во многих отношениях: выполнимый в вычислительном отношении метод...

56
Зачем продолжать учить и использовать проверку гипотез (когда есть доверительные интервалы)?

Зачем продолжать учить и использовать тестирование гипотез (со всеми его сложными концепциями и которые являются одними из самых статистических грехов) для задач, где существует интервальная оценка (уверенность, начальная загрузка, достоверность или что-то еще)? Какое лучшее объяснение (если...

56
Программное обеспечение, необходимое для очистки данных от графика [закрыто]

У кого-нибудь есть опыт работы с программным обеспечением (желательно бесплатным, предпочтительно с открытым исходным кодом), которое будет снимать данные, нанесенные на декартовы координаты (стандартный, повседневный график), и извлекать координаты точек, нанесенных на график? По сути, это...

56
Какой метод можно использовать для определения сезонности в данных?

Я хочу определить сезонность в данных, которые я получаю. Есть некоторые методы, которые я нашел, такие как сезонный подсерийный график и график автокорреляции, но дело в том, что я не понимаю, как читать график, кто-нибудь может помочь? Другое дело, есть ли другие методы для определения сезонности...

56
Как получить p-значение (проверить значимость) эффекта в смешанной модели lme4?

Я использую lme4 в R, чтобы соответствовать смешанной модели lmer(value~status+(1|experiment))) где значение непрерывно, статус и эксперимент являются факторами, и я получаю Linear mixed model fit by REML Formula: value ~ status + (1 | experiment) AIC BIC logLik deviance REMLdev 29.1 46.98 -9.548...

56
Как смоделировать данные, которые удовлетворяют определенным ограничениям, таким как наличие определенного среднего значения и стандартного отклонения?

Этот вопрос мотивирован моим вопросом о метаанализе . Но я полагаю, что это также было бы полезно при обучении контекстов, в которых вы хотите создать набор данных, который точно отражает существующий опубликованный набор данных. Я знаю, как генерировать случайные данные из данного распределения....