Статистика и большие данные

9

Монте-Карло == применяется случайный процесс?

У меня никогда не было курса официальной статистики, но из-за моего направления исследований я постоянно сталкиваюсь со статьями, которые применяют несколько статистических концепций. Часто я вижу описание процесса Монте-Карло, применяемого к данной ситуации, и то, что я могу собрать 9 из 10 раз,...

monte-carlo random-generation

9

Данные подсчета моделирования, где переменная смещения равна 0 для некоторых наблюдений

Я пытаюсь помочь студенту коллеги. Студент наблюдал и подсчитывал поведение птицы (количество вызовов) в экспериментальной обстановке. Количество вызовов, относящихся к конкретной наблюдаемой птице во время каждого эксперимента, определить невозможно, но подсчет числа птиц, внесших вклад в...

generalized-linear-model count-data offset

9

Выбор значения k для анализа обнаружения локального фактора выброса (LOF)

У меня есть набор трехмерных данных, и я пытаюсь использовать локальный анализ коэффициента выбросов, чтобы определить наиболее уникальные или странные значения. Как определить значение k для использования в анализе LOF? Я понимаю, что определяет значение k, и поэтому я не удивлен, что вижу...

data-mining outliers

9

Каковы различия между различными решателями квадратичного программирования R?

Я ищу пакет, который поможет мне решить некоторые задачи квадратичной оптимизации, и я вижу, что есть как минимум полдюжины различных пакетов. Согласно этой странице: QP (квадратичное программирование, 90C20): cplexAPI , kernlab , limSolve , LowRankQP , quadprog , Rcplex , Rmosek Некоторые из них...

r optimization

9

Усеченное среднее против медианного

У меня есть набор данных со всеми звонками в службу экстренной помощи и временем отклика отделения скорой помощи. Они признали, что есть некоторые ошибки с временем отклика, так как есть случаи, когда они не начали запись (таким образом, значение 0) или когда они не останавливали часы (таким...

mean outliers median trimmed-mean

9

Является ли байесовская оценка с «плоским априором» такой же, как оценка максимального правдоподобия?

В филогенетике филогенетические деревья часто строятся с использованием MLE или байесовского анализа. Часто в байесовской оценке используется плоский априор. Насколько я понимаю, байесовская оценка - это оценка вероятности, которая включает в себя предварительную оценку. Мой вопрос: если вы...

bayesian confidence-interval maximum-likelihood likelihood phylogeny

9

В чем разница между «статистическим тестом нулевой гипотезы» и любым другим тестом?

Недавняя горячая тема обсуждения касается журнала, запрещающего использование «процедур статистического тестирования нулевых гипотез (NHSTP)» в статьях, представленных в журнал. Я вижу этот термин, используемый некоторыми авторами, но я не понимаю, какое различие они пытаются провести. Является ли...

hypothesis-testing statistical-significance terminology

9

Каковы различия между фильтрами, изученными в автоэнкодере и сверточной нейронной сети?

В CNN мы изучим фильтры для создания карты объектов в сверточном слое. В Autoencoder каждый скрытый элемент каждого слоя может рассматриваться как фильтр. Какая разница между фильтрами, изученными в этих двух...

machine-learning neural-networks conv-neural-network autoencoders

9

Как журнал (p (x, y)) нормализует точечную взаимную информацию?

Я пытаюсь понять нормализованную форму точечной взаимной информации. npmi=pmi(x,y)log(p(x,y))npmi=pmi(x,y)log(p(x,y))npmi = \frac{pmi(x,y)}{log(p(x,y))} Почему логарифмическая вероятность нормализует точечную взаимную информацию между [-1, 1]? Точечная взаимная информация:...

entropy information-theory mutual-information

9

Как подготовить / построить функции для обнаружения аномалий (данные сетевой безопасности)

Моя цель - проанализировать сетевые журналы (например, Apache, syslog, аудит безопасности Active Directory и т. Д.), Используя кластеризацию / обнаружение аномалий для целей обнаружения вторжений. Из журналов у меня много текстовых полей, таких как IP-адрес, имя пользователя, имя хоста, порт...

feature-selection outliers unsupervised-learning feature-construction

9

Вопрос о предположении нормальности t-критерия

Для t-тестов, согласно большинству текстов, есть предположение, что данные о населении обычно распределяются. Я не понимаю, почему это так. Разве t-критерий не требует только того, чтобы распределение выборки средних значений выборки было нормально распределено, а не совокупность? Если это так, что...

hypothesis-testing t-test assumptions normality-assumption central-limit-theorem

9

R сезонные временные ряды

Я использую decomposeфункцию Rи придумываю 3 компонента моего ежемесячного временного ряда (тренд, сезонный и случайный). Если я строю график или смотрю на таблицу, я ясно вижу, что временные ряды зависят от сезонности. Тем не менее, когда я регрессирую временной ряд на 11 сезонных фиктивных...

r regression time-series

9

Что может быть примером, когда L2 является хорошей функцией потерь для вычисления апостериорных потерь?

Потери L2 вместе с потерями L0 и L1 являются тремя очень распространенными функциями потерь «по умолчанию», используемыми при суммировании апостериорного значения с минимальной апостериорной ожидаемой потерей. Возможно, одной из причин этого является то, что их относительно легко вычислить (по...

bayes teaching decision-theory loss-functions

9

Рецептивное поле нейронов в LeNet

Я пытаюсь лучше понять рецептивные поля CNN. Для этого я хотел бы рассчитать рецептивное поле каждого нейрона в LeNet. Для обычного MLP это довольно просто (см. Http://deeplearning.net/tutorial/lenet.html#sparse-connectivity ), но сложнее рассчитать рецептивное поле нейрона в слое, следующем за...

deep-learning conv-neural-network

9

Сходимость по алгоритму EM с двумерным распределением смеси

У меня есть смешанная модель, в которой я хочу найти оценку максимального правдоподобия для данного набора данных и набора частично наблюдаемых данных . Я реализовал и E-шаг (вычисление ожидания учетом и текущих параметров ), и M-шаг, чтобы минимизировать отрицательное логарифмическое правдоподобие...

maximum-likelihood mixture expectation-maximization

9

Если являются независимой бета-версией, тогда show также является бета-версией

Вот проблема, которая возникла на семестровом экзамене в нашем университете несколько лет назад, и я пытаюсь ее решить. Если являются независимыми случайными переменными с плотностями и соответственно, то покажите, что следует за...

self-study random-variable beta-distribution distributions jacobian

9

Разработать статистический тест для различения двух продуктов

У меня есть набор данных из опроса клиентов, я хочу развернуть статистический тест, чтобы увидеть, есть ли разница в значении между продуктом 1 и продуктом 2. Вот набор данных отзывов клиентов. Оценка от очень плохой, плохой, хорошо, хорошо, до очень хорошо. customer product1 product2 1 very good...

statistical-significance categorical-data repeated-measures ordinal-data

9

Результаты регрессии имеют неожиданную верхнюю границу

Я пытаюсь предсказать балансовую оценку и попробовал несколько различных методов регрессии. Одна вещь, которую я заметил, заключается в том, что прогнозируемые значения имеют некоторую верхнюю границу. То есть фактический баланс находится в , но мои прогнозы достигают вершины около . На следующем...

regression distributions data-transformation prediction bounds

9

Постоянно ли ЭМ-алгоритм оценивает параметры в модели гауссовой смеси?

Я изучаю модель гауссовой смеси и сам задаю этот вопрос. Предположим, что базовые данные генерируются из смеси гауссовского распределения и у каждого из них есть средний вектор \ mu_k \ in \ mathbb {R} ^ p , где 1 \ leq k \ leq K, и каждый из них имеет одинаковое ко дисперсионная матрица \ Sigma и...

self-study expectation-maximization gaussian-mixture consistency

9

Цитирование для статистического теста на разницу между двумя коэффициентами шансов?

В комментарии здесь @gung написал: Я полагаю, что они могут немного перекрываться (возможно, ~ 25%) и все еще быть значительными на уровне 5%. Помните, что 95% -й доверительный интервал, который вы видите, предназначен для отдельного ИЛИ, но тест на 2 ИЛИ показывает разницу между ними. Однако, если...

logistic confidence-interval odds-ratio references