Статистика и большие данные

81
В чем разница между моделями с нулевой раздувкой и препятствиями?

Интересно, есть ли четкая разница между так называемыми распределениями с нулевым раздуванием (моделями) и так называемыми распределениями с барьером в нуле (моделями)? Термины встречаются в литературе довольно часто, и я подозреваю, что они не совпадают, но не могли бы вы объяснить мне разницу в...

81
Понимание «дисперсии» интуитивно

Какой самый простой и понятный способ объяснить кому-либо понятие дисперсии? Что это означает интуитивно? Если кто-то должен объяснить это своему ребенку, как он поступит? Это концепция, которую мне сложно сформулировать, особенно когда она связана с риском. Я понимаю это математически и тоже могу...

81
Имеет ли значение несбалансированный образец при выполнении логистической регрессии?

Итак, я думаю, что у меня есть достаточно приличная выборка, принимая во внимание эмпирическое правило 20: 1: довольно большая выборка (N = 374) для в общей сложности 7 потенциальных переменных-предикторов. Моя проблема заключается в следующем: независимо от того, какой набор переменных предикторов...

81
Модифицированная теорема Байеса в XKCD: на самом деле довольно разумно?

Я знаю, что это комикс, известный тем, что он использует определенные аналитические тенденции , но на самом деле он выглядит довольно разумным после нескольких минут просмотра. Кто-нибудь может рассказать мне, что делает эта « модифицированная теорема Байеса »?...

80
Целевая функция, функция затрат, функция потерь: одно и то же?

В машинном обучении люди говорят о целевой функции, функции стоимости, функции потерь. Это просто разные названия одной и той же вещи? Когда их использовать? Если они не всегда ссылаются на одно и то же, в чем...

80
Расчет оптимального количества бинов в гистограмме

Я заинтересован в поиске как можно более оптимального метода для определения количества бинов, которые я должен использовать в гистограмме. Мои данные должны быть в диапазоне от 30 до 350 объектов максимум, и в частности я пытаюсь применить пороговое значение (как метод Оцу), где "хорошие" объекты,...

80
Что касается значений р, почему 1% и 5%? Почему не 6% или 10%?

Что касается p-значения s, мне интересно, почему % и % кажутся золотым стандартом для . Почему не другие значения, такие как % или %?111555"statistical significance"666101010 Есть ли фундаментальная математическая причина для этого или это просто широко распространенное...

80
Разница между доверительными интервалами и интервалами прогнозирования

Для интервала прогнозирования в линейной регрессии вы все еще используете E [ Y | х ] = ^ & beta ; 0 + β 1 х генерировать интервал. Вы также используете это, чтобы сгенерировать доверительный интервал E [ Y | х 0 ] . В чем разница между двумя?Е^[ Y| х]= β0^+ β^1ИксE^[Y|x]=β0^+β^1x\hat{E}[Y|x] =...

79
Книга Почему Иудеи Перл: Почему он избивает статистику?

Я читаю Книгу Почему Иудеи Перл, и она становится у меня под кожей 1 . В частности, мне кажется, что он безоговорочно избивает «классическую» статистику, выдвигая аргумент, что статистика никогда не сможет исследовать причинно-следственные связи, никогда не будет интересоваться...

79
KL расхождение между двумя одномерными гауссианами

Мне нужно определить KL-расхождение между двумя гауссианами. Я сравниваю свои результаты с этими , но я не могу воспроизвести их результаты. Мой результат, очевидно, неверен, потому что KL не 0 для KL (p, p). Интересно, где я делаю ошибку и спрашиваю, может ли кто-нибудь ее заметить. Пусть и . Из...

79
В чем разница между обучением вне политики и вне политики?

Сайт искусственного интеллекта определяет обучение вне политики и вне политики следующим образом: «Учащийся вне политики изучает значение оптимальной политики независимо от действий агента. Q-learning - учащийся вне политики. Учащийся вне политики изучает значение политики, проводимой агентом,...

79
Вероятность единственного реального будущего события: что это значит, когда они говорят, что «Хиллари имеет 75% шансов на победу»?

Поскольку выборы - одноразовое событие, это не эксперимент, который можно повторить. Так что же технически означает утверждение «Хиллари имеет 75% шанс на победу» ? Я ищу статистически правильное определение, а не интуитивное или концептуальное. Я - любитель статистики, который пытается ответить на...

78
Как вручную вычислить площадь под кривой (AUC) или c-статистику

Меня интересует вычисление площади под кривой (AUC) или c-статистика вручную для бинарной модели логистической регрессии. Например, в наборе данных проверки у меня есть истинное значение для зависимой переменной, сохранение (1 = сохранено; 0 = не сохранено), а также прогнозируемое состояние...

78
Как определить, достаточно ли данных «кластеризовано», чтобы алгоритмы кластеризации давали значимые результаты?

Как бы вы узнали, что ваши (высокоразмерные) данные демонстрируют достаточную кластеризацию, так что результаты kmeans или другого алгоритма кластеризации действительно значимы? В частности, для алгоритма k-средних, насколько должно быть снижение дисперсии внутри кластера, чтобы фактические...

78
Пример: регрессия LASSO с использованием glmnet для двоичного результата

Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91,...

78
Кластеризация на выходе t-SNE

У меня есть приложение, в котором было бы удобно кластеризовать зашумленный набор данных, прежде чем искать эффекты подгрупп в кластерах. Сначала я посмотрел на PCA, но для достижения 90% изменчивости требуется ~ 30 компонентов, поэтому кластеризация на нескольких компьютерах приведет к выбросу...

78
Когда R в квадрате отрицательный?

Насколько я понимаю, не может быть отрицательным, поскольку это квадрат R. Однако я запустил простую линейную регрессию в SPSS с одной независимой переменной и зависимой переменной. Мой вывод SPSS дает мне отрицательное значение для . Если бы я должен был вычислить это вручную из R, то был бы...

78
В чем выгода разделения непрерывной переменной-предиктора?

Мне интересно, каково значение брать непрерывную переменную предиктора и разбивать ее (например, на квинтили), прежде чем использовать ее в модели. Мне кажется, что при биннинге переменной мы теряем информацию. Это просто для того, чтобы мы могли моделировать нелинейные эффекты? Если бы мы...

77
Т-критерий для ненормального, когда N> 50?

Давным-давно я узнал, что для использования T-критерия с двумя образцами необходимо нормальное распределение. Сегодня коллега сказала мне, что она узнала, что для N> 50 нормальное распределение не нужно. Это правда? Если это правда, это из-за центральной предельной...