Статистика и большие данные

81

В чем разница между моделями с нулевой раздувкой и препятствиями?

Интересно, есть ли четкая разница между так называемыми распределениями с нулевым раздуванием (моделями) и так называемыми распределениями с барьером в нуле (моделями)? Термины встречаются в литературе довольно часто, и я подозреваю, что они не совпадают, но не могли бы вы объяснить мне разницу в...

zero-inflation

81

Понимание «дисперсии» интуитивно

Какой самый простой и понятный способ объяснить кому-либо понятие дисперсии? Что это означает интуитивно? Если кто-то должен объяснить это своему ребенку, как он поступит? Это концепция, которую мне сложно сформулировать, особенно когда она связана с риском. Я понимаю это математически и тоже могу...

distributions variance standard-deviation inference intuition

81

Имеет ли значение несбалансированный образец при выполнении логистической регрессии?

Итак, я думаю, что у меня есть достаточно приличная выборка, принимая во внимание эмпирическое правило 20: 1: довольно большая выборка (N = 374) для в общей сложности 7 потенциальных переменных-предикторов. Моя проблема заключается в следующем: независимо от того, какой набор переменных предикторов...

regression logistic sample-size unbalanced-classes

81

Модифицированная теорема Байеса в XKCD: на самом деле довольно разумно?

Я знаю, что это комикс, известный тем, что он использует определенные аналитические тенденции , но на самом деле он выглядит довольно разумным после нескольких минут просмотра. Кто-нибудь может рассказать мне, что делает эта « модифицированная теорема Байеса »?...

bayesian hierarchical-bayesian

80

Целевая функция, функция затрат, функция потерь: одно и то же?

В машинном обучении люди говорят о целевой функции, функции стоимости, функции потерь. Это просто разные названия одной и той же вещи? Когда их использовать? Если они не всегда ссылаются на одно и то же, в чем...

machine-learning terminology artificial-intelligence

80

Расчет оптимального количества бинов в гистограмме

Я заинтересован в поиске как можно более оптимального метода для определения количества бинов, которые я должен использовать в гистограмме. Мои данные должны быть в диапазоне от 30 до 350 объектов максимум, и в частности я пытаюсь применить пороговое значение (как метод Оцу), где "хорошие" объекты,...

rule-of-thumb histogram

80

Что касается значений р, почему 1% и 5%? Почему не 6% или 10%?

Что касается p-значения s, мне интересно, почему % и % кажутся золотым стандартом для . Почему не другие значения, такие как % или %?111555"statistical significance"666101010 Есть ли фундаментальная математическая причина для этого или это просто широко распространенное...

hypothesis-testing statistical-significance p-value history

80

Разница между доверительными интервалами и интервалами прогнозирования

Для интервала прогнозирования в линейной регрессии вы все еще используете E [ Y | х ] = ^ & beta ; 0 + β 1 х генерировать интервал. Вы также используете это, чтобы сгенерировать доверительный интервал E [ Y | х 0 ] . В чем разница между двумя?Е^[ Y| х]= β0^+ β^1ИксE^[Y|x]=β0^+β^1x\hat{E}[Y|x] =...

regression confidence-interval predictive-models prediction-interval

79

Книга Почему Иудеи Перл: Почему он избивает статистику?

Я читаю Книгу Почему Иудеи Перл, и она становится у меня под кожей 1 . В частности, мне кажется, что он безоговорочно избивает «классическую» статистику, выдвигая аргумент, что статистика никогда не сможет исследовать причинно-следственные связи, никогда не будет интересоваться...

causality

79

KL расхождение между двумя одномерными гауссианами

Мне нужно определить KL-расхождение между двумя гауссианами. Я сравниваю свои результаты с этими , но я не могу воспроизвести их результаты. Мой результат, очевидно, неверен, потому что KL не 0 для KL (p, p). Интересно, где я делаю ошибку и спрашиваю, может ли кто-нибудь ее заметить. Пусть и . Из...

normal-distribution kullback-leibler

79

В чем разница между обучением вне политики и вне политики?

Сайт искусственного интеллекта определяет обучение вне политики и вне политики следующим образом: «Учащийся вне политики изучает значение оптимальной политики независимо от действий агента. Q-learning - учащийся вне политики. Учащийся вне политики изучает значение политики, проводимой агентом,...

machine-learning reinforcement-learning artificial-intelligence

79

Вероятность единственного реального будущего события: что это значит, когда они говорят, что «Хиллари имеет 75% шансов на победу»?

Поскольку выборы - одноразовое событие, это не эксперимент, который можно повторить. Так что же технически означает утверждение «Хиллари имеет 75% шанс на победу» ? Я ищу статистически правильное определение, а не интуитивное или концептуальное. Я - любитель статистики, который пытается ответить на...

probability prediction politics

78

Как вручную вычислить площадь под кривой (AUC) или c-статистику

Меня интересует вычисление площади под кривой (AUC) или c-статистика вручную для бинарной модели логистической регрессии. Например, в наборе данных проверки у меня есть истинное значение для зависимой переменной, сохранение (1 = сохранено; 0 = не сохранено), а также прогнозируемое состояние...

regression logistic classification roc auc

78

Как определить, достаточно ли данных «кластеризовано», чтобы алгоритмы кластеризации давали значимые результаты?

Как бы вы узнали, что ваши (высокоразмерные) данные демонстрируют достаточную кластеризацию, так что результаты kmeans или другого алгоритма кластеризации действительно значимы? В частности, для алгоритма k-средних, насколько должно быть снижение дисперсии внутри кластера, чтобы фактические...

clustering k-means

78

Бесплатные ресурсы для изучения R

Я заинтересован в изучении R по дешевке. Какой лучший бесплатный ресурс / книга / учебник для изучения

r references

78

Пример: регрессия LASSO с использованием glmnet для двоичного результата

Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91,...

r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

78

Кластеризация на выходе t-SNE

У меня есть приложение, в котором было бы удобно кластеризовать зашумленный набор данных, прежде чем искать эффекты подгрупп в кластерах. Сначала я посмотрел на PCA, но для достижения 90% изменчивости требуется ~ 30 компонентов, поэтому кластеризация на нескольких компьютерах приведет к выбросу...

clustering interpretation k-means tsne

78

Когда R в квадрате отрицательный?

Насколько я понимаю, не может быть отрицательным, поскольку это квадрат R. Однако я запустил простую линейную регрессию в SPSS с одной независимой переменной и зависимой переменной. Мой вывод SPSS дает мне отрицательное значение для . Если бы я должен был вычислить это вручную из R, то был бы...

regression spss r-squared

78

В чем выгода разделения непрерывной переменной-предиктора?

Мне интересно, каково значение брать непрерывную переменную предиктора и разбивать ее (например, на квинтили), прежде чем использовать ее в модели. Мне кажется, что при биннинге переменной мы теряем информацию. Это просто для того, чтобы мы могли моделировать нелинейные эффекты? Если бы мы...

regression modeling continuous-data binning regression-strategies

77

Т-критерий для ненормального, когда N> 50?

Давным-давно я узнал, что для использования T-критерия с двумя образцами необходимо нормальное распределение. Сегодня коллега сказала мне, что она узнала, что для N> 50 нормальное распределение не нужно. Это правда? Если это правда, это из-за центральной предельной...

normal-distribution t-test central-limit-theorem