Статистика и большие данные

60
Стандартные ошибки для предсказания Лассо с использованием R

Я пытаюсь использовать модель LASSO для прогнозирования, и мне нужно оценить стандартные ошибки. Наверняка кто-то уже написал пакет для этого. Но, насколько я вижу, ни один из пакетов в CRAN, которые делают прогнозы с использованием LASSO, не будет возвращать стандартные ошибки для этих прогнозов....

60
В чем разница между отбеливанием ZCA и отбеливанием PCA?

Меня смущает отбеливание ZCA и нормальное отбеливание (которое получается путем деления главных компонентов на квадратные корни собственных значений PCA). Насколько мне известно, xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite}, где -...

60
Почему параметрическая статистика всегда предпочтительнее непараметрической?

Может ли кто-нибудь объяснить мне, почему кто-то выбрал бы параметрический непараметрический статистический метод для проверки гипотез или регрессионного анализа? На мой взгляд, это все равно, что заняться рафтингом и выбрать не водостойкие часы, потому что вы можете их не намочить. Почему бы не...

60
Почему сбор данных до получения значительного результата увеличивает частоту появления ошибок типа I?

Мне было интересно, почему именно сбор данных, пока не будет получен значительный результат (например, ) (т. Е. P-хакерство), увеличивает частоту ошибок типа I?p<.05p<.05p \lt .05 Я также был бы очень признателен за Rдемонстрацию этого...

59
Куда делись частые-байесовские дебаты?

Мир статистики был разделен между частыми лицами и байесовцами. В наши дни кажется, что все делают немного и того, и другого. Как это может быть? Если разные подходы подходят для разных задач, почему отцы-основатели статистики не видели этого? В качестве альтернативы, дебаты были выиграны частыми...

59
Средняя абсолютная ошибка ИЛИ среднеквадратическая ошибка?

Зачем использовать среднеквадратичную ошибку (RMSE) вместо средней абсолютной ошибки (MAE) ?? Здравствуй Я исследовал ошибку, сгенерированную в вычислениях - сначала я рассчитал ошибку как среднеквадратичную среднеквадратичную ошибку. Присмотревшись немного поближе, я вижу, что эффекты возведения в...

59
Почему оценка гребня становится лучше, чем OLS, добавляя константу к диагонали?

Я понимаю, что оценка регрессии гребня является ββ\beta который минимизирует остаточную сумму квадрата и штраф на размер ββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[...

59
Оптимизация, когда функция стоимости медленна для оценки

Градиентный спуск и многие другие методы полезны для нахождения локальных минимумов в функциях стоимости. Они могут быть эффективными, когда функцию стоимости можно быстро оценить в каждой точке, численно или аналитически. У меня есть то, что мне кажется необычной ситуацией. Каждая оценка моей...

59
Если мы не сможем отвергнуть нулевую гипотезу в большом исследовании, разве это не доказательство нулевой?

Основным ограничением проверки значимости нулевой гипотезы является то, что она не позволяет исследователю собирать доказательства в пользу нулевой ( Источник ) Я вижу, что это утверждение повторяется в нескольких местах, но я не могу найти оправдания для этого. Если мы проводим большое...

58
Как я могу изменить название легенды в ggplot2? [закрыто]

У меня есть график, который я делаю в ggplot2, чтобы суммировать данные из набора данных размером 2 x 4 x 3. Я был в состоянии сделать панели для переменной с двумя уровнями, используя facet_grid(. ~ Age)и установить оси X и Y, используя aes(x=4leveledVariable, y=DV). aes(group=3leveledvariable,...

58
Принципиальный способ свертывания категориальных переменных со многими уровнями?

Какие методы доступны для объединения (или объединения) многих категорий в несколько с целью использования их в качестве входных данных (предиктора) в статистической модели? Рассмотрим переменную, например, степень студента колледжа (дисциплина, выбранная студентом). Он неупорядочен и категоричен,...

58
Ошибка проверки меньше, чем ошибка обучения?

Здесь и здесь я нашел два вопроса об этой проблеме, но пока нет очевидного ответа или объяснения. Я навязываю ту же проблему, где ошибка проверки меньше, чем ошибка обучения в моей Convolution Neural Network. Что это...

58
Двухсторонние тесты ... Я просто не уверен. В чем смысл?

Следующий отрывок из записи: В чем различия между односторонним и двусторонним тестами? , на сайте помощи статистики UCLA. ... рассмотреть последствия пропуска эффекта в другом направлении. Представьте, что вы разработали новый препарат, который, по вашему мнению, является улучшением по сравнению с...

57
Имеет ли смысл когда-либо рассматривать категориальные данные как непрерывные?

Отвечая на этот вопрос о дискретных и непрерывных данных, я уверенно утверждал, что редко имеет смысл рассматривать категориальные данные как непрерывные. На первый взгляд это кажется само собой разумеющимся, но интуиция часто является плохим руководством для статистики, или, по крайней мере, моим....

57
Ресурсы для изучения цепей Маркова и скрытых марковских моделей

Я ищу ресурсы (учебные пособия, учебники, веб-трансляции и т. Д.), Чтобы узнать о цепи Маркова и HMM. Я работаю биологом, и в настоящее время я участвую в проекте, связанном с биоинформатикой. Кроме того, каковы необходимые математические знания, необходимые для достаточного понимания моделей...

57
Почему стандартное отклонение выборки является смещенной оценкой

Согласно статье в Википедии об объективной оценке стандартного отклонения, образец SD s = 1n - 1Σя = 1N( хя- х¯¯¯)2---------------√s=1n−1∑i=1n(xi−x¯)2s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2} является предвзятой оценкой SD населения. Утверждается, что .Е( с2--√) ≠ E(...