Статистика и большие данные

56
Все ли значения в пределах 95% доверительного интервала одинаково вероятны?

Я нашел противоречивую информацию по вопросу: « Если построить 95-процентный доверительный интервал (CI) разницы в средних значениях или различий в пропорциях, все ли значения в пределах CI одинаково вероятны? Или точечная оценка наиболее вероятна? с значениями вблизи "хвостов" CI менее вероятны,...

56
R библиотеки для глубокого изучения

Мне было интересно, есть ли хорошие библиотеки R для глубокого изучения нейронных сетей? Я знаю , что это nnet, neuralnetи RSNNS, но ни один из них не кажется , осуществить глубокие методы обучения. Меня особенно интересует неконтролируемое обучение с последующим обучением и использование отсева...

56
Логистическая регрессия в R привела к идеальному разделению (феномен Хаука-Доннера). Что теперь?

Я пытаюсь предсказать бинарный результат, используя 50 непрерывных объясняющих переменных (диапазон большинства переменных до ∞ ). Мой набор данных имеет почти 24 000 строк. Когда я бегу в R, я получаю:- ∞−∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit:...

56
Является ли «гибрид» между подходами Фишера и Неймана-Пирсона к статистическому тестированию действительно «бессвязной путаницей»?

Существует определенная школа мысли, согласно которой наиболее распространенный подход к статистическому тестированию представляет собой «гибрид» между двумя подходами: подход Фишера и Неймана-Пирсона; эти два подхода, как утверждается в заявлении, являются «несовместимыми», и, следовательно,...

56
Регуляризация L2 эквивалентна гауссовскому приору

Я продолжаю читать это и интуитивно вижу это, но как перейти от регуляризации L2 к тому, что аналитически это - Приор Гаусса? То же самое можно сказать и о том, что L1 эквивалентен предшествующему лапласу. Любые дальнейшие ссылки будут великолепны....

56
Проблемы промышленности и Kaggle. Собирать больше наблюдений и иметь доступ к большему количеству переменных важнее, чем модное моделирование?

Я надеюсь, что название говорит само за себя. В Kaggle большинство победителей используют стеки с иногда сотнями базовых моделей, чтобы выжать несколько лишних% MSE, точность ... В целом, по вашему опыту, насколько важно модное моделирование, такое как стекирование, а не просто сбор большего...

56
Неверно ли перефразировать слова «1 из 80 смертей вызван автомобильной аварией», поскольку «1 из 80 человек погибает в результате автомобильной аварии?»

Утверждение 1 (S1): «Один из 80 смертей вызван автомобильной аварией». Утверждение второе (S2): «Один из 80 человек погибает в результате автомобильной аварии». Теперь я лично не вижу большой разницы между этими двумя утверждениями. При написании я бы посчитал их взаимозаменяемыми для...

55
Альтернативы логистической регрессии в R

Мне бы хотелось, чтобы столько алгоритмов выполняли ту же задачу, что и логистическая регрессия. Это алгоритмы / модели, которые могут дать прогноз двоичного ответа (Y) с некоторой пояснительной переменной (X). Я был бы рад, если после того, как вы назовете алгоритм, если вы также покажете, как...

55
Какую меру псевдо-

У меня есть SPSSвыход для модели логистической регрессии. Выходные данные сообщают о двух мерах для подгонки модели, Cox & Snellи Nagelkerke. Так что, как правило, какие из этих мер вы бы сообщили, как модель подходит?R2R²R^² Или какой из этих индексов соответствия обычно сообщается в журналах?...

55
Вопросы о том, как случайные эффекты указаны в lmer

Недавно я измерил, как значение нового слова приобретается после многократных воздействий (практика: день с 1 по 10) путем измерения ERP (ЭЭГ), когда слово рассматривалось в разных контекстах. Я также контролировал свойства контекста, например, его полезность для открытия нового значения слова...

55
Расширенные рекомендации по статистике книг

На этом сайте есть несколько веток для рекомендаций по вводной статистике и машинному обучению, но я ищу текст по расширенной статистике, в том числе в порядке приоритета: максимальная вероятность, обобщенные линейные модели, анализ главных компонентов, нелинейные модели . Я пробовал Статистические...

55
Что такого крутого в теореме о представлении де Финетти?

Из теории статистики Марка Дж. Шервиша (стр. 12): Хотя теорема ДеФинетти о представлении 1.49 является центральной для мотивации параметрических моделей, она фактически не используется в их реализации. Как теорема является центральной в параметрических...

55
Выбор между LM и GLM для лог-преобразованной переменной ответа

Я пытаюсь понять философию использования Обобщенной линейной модели (GLM) по сравнению с линейной моделью (LM). Я создал пример набора данных ниже, где: журнал( у) = x + εlog⁡(y)=x+ε\log(y) = x + \varepsilon В этом примере ошибка εε\varepsilon зависит от величины Yyy , поэтому я предположил бы, что...

55
Центральная предельная теорема для выборочных медиан

Если я вычислю медиану достаточно большого числа наблюдений, взятых из одного и того же распределения, будет ли в центральной предельной теореме аппроксимация распределения медиан приближаться к нормальному? Насколько я понимаю, это верно для большого количества образцов, но верно ли это для...

55
Понимание стратифицированной перекрестной проверки

В чем разница между стратифицированной перекрестной проверкой и перекрестной проверкой ? Википедия говорит: При перекрестной проверке по многослойной k-кратности сгибы выбираются таким образом, чтобы среднее значение отклика было примерно одинаковым во всех сгибах. В случае дихотомической...

55
Тест Вальда для логистической регрессии

Насколько я понимаю, критерий Вальда в контексте логистической регрессии используется для определения значимости определенной предикторной переменной или нет. Он отвергает нулевую гипотезу о том, что соответствующий коэффициент равен нулю.ИксXX Тест состоит из деления значения коэффициента на...

55
Почему усадка работает?

Чтобы решить проблемы выбора модели, ряд методов (LASSO, гребневая регрессия и т. Д.) Будут сжимать коэффициенты переменных-предикторов к нулю. Я ищу интуитивное объяснение того, почему это улучшает способность к прогнозированию. Если истинное влияние переменной на самом деле было очень велико,...

55
Каковы некоторые примеры анахронической практики в статистике?

Я имею в виду практики, которые все еще сохраняют свое присутствие, хотя проблемы (обычно вычислительные), с которыми они были разработаны, в основном были решены. Например, коррекция непрерывности Йетса не была изобретена , чтобы аппроксимировать точный критерий Фишера с тестом, но это уже не...