Статистика и большие данные

9
Как бы вы визуализировали сегментированную воронку? (а вы могли бы сделать это с Python?)

Я видел этот пост на Moz, который представил сегментированную маркетинговую воронку: Такие вещи будут иметь большую ценность в моей работе. Я понятия не имею, как визуализировать необработанные данные, чтобы показать сегментированную воронку, подобную этой. Идея состоит в том, что коммерческие...

9
Конвергенция в распределении \ CLT

Учитывая, что , условный дистр. из есть . имеет маргинальный дистр. Пуассона ( ), - положительная постоянная.Y χ 2 ( 2 n ) N θ θN= пNзнак равноNN = nYYYχ2( 2 н )χ2(2N)\chi ^2(2n)NNNθθ\thetaθθ\theta Покажите, что как , в распределении.( Y - E ( Y ) ) / √θ → ∞θ→∞\theta \rightarrow \infty  ( Y- E( Y)...

9
SD больше среднего, неотрицательная шкала

Мне дали статью, в которой сообщалось об исследовании, очень похожем на исследование, которое хочет провести моя лаборатория. Но я заметил, что для интересующей переменной, Duration, SD больше среднего ... так как эта длительность измеряется в минутах, она никогда не может быть отрицательной, и это...

9
Почему функциональная форма 1-го этапа в 2SLS не важна?

В сегодняшней презентации спикер выступил с вышеуказанным заявлением. Он сказал, что даже если первая стадия будет неверно определена, оценки коэффициентов второй стадии все равно будут действительны. Будучи скромным аспирантом, я не мог попросить объяснений, поэтому теперь я просил вашей...

9
Байесовский анализ таблиц сопряженности: как описать величину эффекта

Я работаю с примерами из анализа Крушке « Байесовский анализ данных» , в частности, с использованием экспоненциального ANOVA Пуассона в гл. 22, который он представляет в качестве альтернативы частым тестам хи-квадрат независимости для таблиц непредвиденных обстоятельств. Я вижу, как мы получаем...

9
Когда правильное правило оценки является лучшей оценкой обобщения в условиях классификации?

Типичный подход к решению проблемы классификации состоит в том, чтобы идентифицировать класс моделей-кандидатов, а затем выполнить выбор модели с использованием некоторой процедуры, такой как перекрестная проверка. Обычно выбирается модель с наивысшей точностью или некоторая связанная функция,...

9
Определение точки переключения с вероятностным программированием (pymc)

В настоящее время я читаю "книгу" вероятностного программирования и байесовских методов для хакеров . Я прочитал несколько глав, и я думал о первой главе, где первый пример с pymc состоит из обнаружения точки ведьмы в текстовых сообщениях. В этом примере случайная величина, указывающая, когда...

9
Что такое «строго положительное распределение»?

Я читаю «Причинность» Иудеи Перл (второе издание 2009 года), а в разделе 1.1.5 «Условная независимость и графоиды» он заявляет: Ниже приведен (частичный) список свойств, удовлетворяемых условным условием независимости (X_ || _Y | Z). Симметрия: (X_ || _ Y | Z) ==> (Y_ || _X | Z). Разложение: (X_...

9
Может ли узкий доверительный интервал вокруг незначительного эффекта свидетельствовать об отсутствии?

Очевидно, ошибочно полагать, что отказ от отклонения нулевого значения подразумевает, что нулевое значение истинно. Но в случае , когда нуль не отвергается и соответствующий доверительный интервал (ДИ) узок и вокруг 0, делает это не дает доказательства для нуля? Я придерживаюсь двух соображений:...

9
Выбор k узлов в регрессионном сглаживающем сплайне, эквивалентном k категориальным переменным?

Я работаю над моделью прогнозируемой стоимости, в которой возраст пациента (целое число, измеренное в годах) является одной из переменных предиктора. Сильная нелинейная связь между возрастом и риском пребывания в больнице очевидна: Я рассматриваю сглаженный сплайн сглаживания регрессии для возраста...

9
Как сделать многомерное машинное обучение? (прогнозирование нескольких зависимых переменных)

Я пытаюсь предсказать группы предметов, которые кто-то купит ... то есть у меня есть несколько коллинеарных зависимых переменных. Вместо того, чтобы строить 7 или около того независимых моделей, чтобы предсказать вероятность того, что кто-то купит каждый из 7 предметов, а затем объединить...

9
Если ,

Предположим следующее: Пусть Zi=min{ki,Xi},i=1,...,nZi=min{ki,Xi},i=1,...,nZ_i = \min\{k_i, X_i\}, i=1,...,n . Также Xi∼U[ai,bi],ai,bi>0Xi∼U[ai,bi],ai,bi>0X_i \sim U[a_i, b_i], \; a_i, b_i >0 . Кроме того, Кя= сaя+ ( 1 - с )bя,0 < с < 1kязнак равносaя+(1-с)бя,0<с<1k_i = ca_i +...

9
Почему корреляция остатков не имеет значения при тестировании на нормальность?

Когда (то есть Y происходит из модели линейной регрессии), ε ∼ N ( 0 , σ 2 I )Y= A X+ εY=AX+εY = AX + \varepsilonYYY И в этом случае невязок е 1 , ... , е п коррелируют и ненезависимыми. Но когда мы делаем регрессионную диагностику и хотим проверить предположение , е ~ N ( 0 , σ 2 I ) , каждый...

9
Анализ выживаемости, когда ковариаты недоступны для цензурированных данных

Я смотрю на время, необходимое судьям для принятия решений. Каждый судья оценивает количество заявителей и может одобрить или не одобрить заявку. Дело завершается, когда судья представляет свой отчет, который может быть через некоторое время после слушания. В конце периода исследования ряд дел все...

9
Неортогональная техника, аналогичная PCA

Предположим, у меня есть набор точечных данных 2D, и я хочу определить направления всех локальных максимумов дисперсии в данных, например: PCA не помогает в этой ситуации, так как это ортогональное разложение и, следовательно, не может обнаружить обе линии, которые я указал синим цветом, скорее его...

9
ЭМ алгоритм Практика Задача

Это практическая проблема для промежуточного экзамена. Проблема в примере алгоритма EM. У меня проблемы с частью (е). Я перечисляю части (a) - (e) для завершения и в случае, если я допустил ошибку ранее. Пусть - независимые экспоненциальные случайные величины со скоростью . К сожалению, фактические...

9
Требуется ли ICA для запуска PCA в первую очередь?

Я просмотрел документ на основе заявления о том, что применение PCA перед применением ICA (с использованием пакета fastICA). У меня вопрос, требует ли ICA (fastICA) сначала запуск PCA? В этой статье упоминается, что ... также утверждается, что предварительное применение PCA повышает...

9
Оценка параметров с помощью обобщенных линейных моделей

По умолчанию, когда мы используем glmфункцию в R, она использует метод итеративно перевешиваемых наименьших квадратов (IWLS), чтобы найти оценку максимального правдоподобия параметров. Теперь у меня есть два вопроса. Гарантируют ли оценки IWLS глобальный максимум функции правдоподобия? Основываясь...

9
Почему остатки Пирсона из отрицательной биномиальной регрессии меньше, чем из пуассоновской регрессии?

У меня есть эти данные: set.seed(1) predictor <- rnorm(20) set.seed(1) counts <- c(sample(1:1000, 20)) df <- data.frame(counts, predictor) Я провел пуассоновскую регрессию poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson") И отрицательная биноминальная регрессия:...