Статистика и большие данные

9
Как включить

Я хочу включить термин ИксИксx и его квадрат Икс2Икс2x^2 (переменные предиктора) в регрессию, потому что я предполагаю, что низкие значения ИксИксx положительно влияют на зависимую переменную, а высокие значения оказывают отрицательное влияние. Икс2Икс2x^2 должен захватить эффект более высоких...

9
Какой дистрибутив использовать для моделирования времени чтения веб-страницы?

У меня есть функция, которая возвращает среднее время ожидания для веб-пользователя. Таким образом, он дает среднее время, в течение которого средний пользователь может оставаться на веб-странице, учитывая длину веб-ресурса в словах. Я хочу использовать эту функцию (и итоговое среднее значение) в...

9
Непонимание оценки Монте-Карло Пи

Я вполне уверен, что понимаю, как работает интеграция Монте-Карло, но я не понимаю формулировку того, как она используется для оценки числа Пи. Я иду по процедуре, описанной в 5-м слайде этой презентации http://homepages.inf.ed.ac.uk/imurray2/teaching/09mlss/slides.pdf Я понимаю предварительные...

9
Модель линейной регрессии, которая лучше всего подходит для данных с ошибками

Я ищу алгоритм линейной регрессии, который наиболее подходит для данных, чья независимая переменная (x) имеет постоянную ошибку измерения, а зависимая переменная (y) имеет ошибку, зависящую от сигнала. Изображение выше иллюстрирует мой...

9
Почему нельзя обобщить критерий Колмогорова-Смирнова на 2 или более измерения?

Вопрос говорит обо всем. Я читал, что нельзя обобщить KS до измерения, равного или большего, чем два , и что известные реализации, подобные этой в Числовых Рецептах , просто неверны. Не могли бы вы объяснить, почему это...

9
Власть в протеомике?

Гранты часто требуют анализа мощности для поддержки предложенного размера выборки. В протеомике (и большей части -омики) есть 100–1000 функций / переменных, измеренных на 10 образцах (возможно, 100 с, но маловероятно). Кроме того, известно, что некоторые из этих единиц измерения (например,...

9
Логистическая регрессия на больших данных

У меня есть набор данных около 5000 функций. Для этих данных я сначала использовал тест Chi Square для выбора функции; после этого я получил около 1500 переменных, которые показали связь значимости с переменной отклика. Теперь мне нужно приспособить логистическую регрессию к этому. Я использую...

9
Помогите интерпретировать сюжет взаимодействия?

У меня проблемы с интерпретацией графиков взаимодействия, когда есть взаимодействие между двумя независимыми переменными. Следующие графики с этого сайта: Здесь и - независимые переменные, а - зависимая переменная.B D VAAABBBDVDVDV Вопрос: есть взаимодействие и основной эффект , но нет основного...

9
Как glmnet справляется с избыточной дисперсией?

У меня есть вопрос о том, как смоделировать текст поверх данных подсчета, в частности, как я могу использовать эту lassoтехнику для сокращения возможностей. Скажем, у меня есть N онлайн статей и количество просмотров страниц для каждой статьи. Я извлек 1-грамм и 2-грамм для каждой статьи, и я хотел...

9
анова тип III тест для GLMM

Я подгоняю glmerмодель в lme4пакете R. Я ищу таблицу anova с показанным в ней значением p, но я не могу найти пакет, который подходит ей. Возможно ли сделать это в R? Модель, которая мне подходит, имеет форму: model1<-glmer(dmn~period*teethTreated+(1|fullName), family="poisson",...

9
Как найти оптимальные значения параметров настройки в бустинге деревьев?

Я понимаю, что в модели деревьев повышения есть 3 параметра настройки, т.е. количество деревьев (количество итераций) параметр усадки количество разбиений (размер каждого составляющего дерева) У меня вопрос: для каждого из параметров настройки, как мне найти его оптимальное значение? А какой метод?...

9
Какова взаимосвязь между показателями надежности шкалы (альфа Кронбаха и т. Д.) И нагрузками компонентов / факторов?

Допустим, у меня есть набор данных с оценками по множеству пунктов вопросника, которые теоретически состоят из меньшего числа шкал, как в исследовании психологии. Я знаю, что общий подход здесь состоит в том, чтобы проверять надежность весов, используя альфа-версию Кронбаха или что-то подобное,...

9
Передискретизация с категориальными переменными

Я хотел бы выполнить комбинацию передискретизации и недостаточной выборки, чтобы сбалансировать мой набор данных примерно с 4000 клиентами, разделенными на две группы, где доля одной из групп составляет примерно 15%. Я изучил SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) и ROSE (...

9
K-кратная или удерживающая перекрестная проверка для регрессии гребня с использованием R

Я работаю над перекрестной проверкой прогноза моих данных с 200 субъектами и 1000 переменных. Меня интересует регрессия гребня, поскольку число переменных (которые я хочу использовать) больше, чем количество выборок. Поэтому я хочу использовать оценки усадки. Ниже приведены примеры данных: #random...

9
Моделирование сходимости по вероятности к константе

Асимптотические результаты не могут быть подтверждены компьютерным моделированием, потому что они являются утверждениями, включающими понятие бесконечности. Но мы должны иметь возможность почувствовать, что вещи действительно идут так, как нам подсказывает теория. Рассмотрим теоретический результат...

9
Оценка скорректированных коэффициентов риска в двоичных данных с использованием регрессии Пуассона

Я заинтересован в оценке скорректированного коэффициента риска, аналогичного тому, как оценивается скорректированный коэффициент шансов с использованием логистической регрессии. Некоторая литература (например, это ) указывает на то, что использование регрессии Пуассона со стандартными ошибками...

9
Аддитивная или мультипликативная декомпозиция

Мой вопрос очень простой, но это те, которые действительно меня заводят :) Я не знаю, как оценить, нужно ли разложить определенный временной ряд, используя аддитивный или мультипликативный метод разложения. Я знаю, что есть визуальные подсказки, как отличить их друг от друга, но я их не понимаю....

9
Почему корреляция рангов Пирсона действительна, несмотря на предположение о нормальности?

В настоящее время я читаю предположения о корреляциях Пирсона. Важным предположением для последующего t-критерия является то, что обе переменные происходят из нормальных распределений; если они этого не делают, то рекомендуется использовать альтернативные меры, такие как Spearman rho. Корреляция...

9
История: роль статистики в астрономии

Недавно я смело заявил перед группой довольно умных учеников восьмого класса, что астрономия внесла большой вклад в основы статистики, и многие статистические концепции были изобретены для использования в астрономии. Однако, оглядываясь назад, я был довольно разочарован. Ошибки, среднее значение и...

9
Что такое CDF из двух выборок из и из одностороннего теста Колмогорова-Смирнова?

Я пытаюсь понять, как получить ppp для одностороннего теста Колмогорова-Смирнова , и пытаюсь найти CDF для D+n1,n2Dn1,n2+D^{+}_{n_{1},n_{2}} и D−n1,n2Dn1,n2−D^{-}_{n_{1},n_{2}} в случае двух выборок. Ниже приводится в нескольких местах как CDF для D+nDn+D^{+}_{n} в случае с одним примером:...