Статистика и большие данные

9

Рекомендации для начинающего учителя (Введение в биостатистику)

Этой осенью я преподаю свой первый класс (Введение в биостатистику). У кого-нибудь есть предложения по обучению статистике лучше? Возможно, какой-нибудь пример, который вы хотели бы использовать своему первому учителю? Я использую Принципы биостатистики Пагано и Говро. РЕДАКТИРОВАТЬ ДЕТАЛИ Этот...

biostatistics teaching

9

Показатель эффективности классификатора, который сочетает в себе чувствительность и специфичность?

У меня есть данные с двумя классами, для которых я выполняю классификацию, используя несколько классификаторов. И наборы данных хорошо сбалансированы. Оценивая работу классификаторов, я должен учитывать, насколько точен классификатор при определении не только истинных положительных моментов, но и...

classification roc model-evaluation sensitivity-specificity

9

Интерпретация скрипичных сюжетов

Я сравниваю распределение по разным группам с использованием графиков для скрипки, однако большинство онлайн-ресурсов, которые я нашел, просто связаны с тем, как составлять графики, и с очень простой интерпретацией результатов (срединное отклонение, данные сгруппированы или нет). Я ищу подробные...

data-visualization

9

Есть ли в статистике общепринятый смысл символа ?

Я читал статью о подгонке кривой Байеса ( Dimatteo et. Al. Подгонка кривой Байеса со сплайнами свободных узлов, 2001 ) и наткнулся на символ ≏≏\bumpeq . Он используется несколько раз по всей статье, но никогда явно не определяется. После нескольких поисков в google и stackexchange, кажется, что...

notation definition

9

статистический тест, чтобы увидеть, является ли связь линейной или нелинейной

У меня есть пример данных, установленных следующим образом: Volume <- seq(1,20,0.1) var1 <- 100 x2 <- 1000000 x3 <- 30 x4 = sqrt(x2/pi) H = x3 - Volume r = (x4*H)/(H + Volume) Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r)) Power <- jitter(Power, factor = 1, amount = 0.1)...

r hypothesis-testing nonlinear-regression goodness-of-fit heteroscedasticity

9

Расчет прогнозируемого интервала

У меня есть следующие данные, расположенные здесь . Я пытаюсь рассчитать 95% доверительный интервал для средней чистоты, когда процент углеводородов равен 1,0. В R я ввожу следующее. > predict(purity.lm, newdata=list(hydro=1.0), interval="confidence", level=.95) fit lwr upr 1 89.66431 87.51017...

r regression confidence-interval prediction-interval

9

Есть ли название для этого графика - своего рода нечто среднее между круговой диаграммой и графиком Мекко

Есть ли название для такого рода диаграммы ниже (получено от Министерства бизнеса, инноваций и занятости Новой Зеландии , на которого я работаю, но не участвовал в создании этого графика)? Он состоит из прямоугольников, в которых площадь пропорциональна переменной, и напоминает нечто среднее между...

data-visualization pie-chart

9

Какие алгоритмы машинного обучения можно масштабировать с помощью hadoop / map-Reduce

Масштабируемые алгоритмы машинного обучения в наши дни кажутся шумом. Каждая компания обрабатывает только большие данные . Существует ли учебник, в котором обсуждается, какие алгоритмы машинного обучения можно масштабировать с помощью параллельных архитектур, таких как Map-Reduce, а какие - нет?...

machine-learning large-data

9

Использование логистической регрессии для непрерывной зависимой переменной

Недавно я получил ревизию для своей исследовательской работы, и ниже приводится комментарий рецензента к моей статье: результаты, полученные на одной модели, не совсем убедительны, особенно линейная регрессия обычно имеет недостатки в работе с выбросами. Я предлагаю авторам также попробовать...

regression logistic multiple-regression

9

Книги по статистической экологии?

Я знаю, что этот вопрос задавался ранее: Справочник по экологическим исследованиям, но это не то, что я ищу. Что я ищу, так это если бы кто-нибудь мог порекомендовать хорошую книгу (или канонический справочник) по статистической экологии? У меня очень хорошее понимание статистики, поэтому книга...

self-study references ecology

9

Использование анализа основных компонентов против анализа соответствия

Я анализирую набор данных, касающихся литоральных сообществ. Данные представляют собой процент покрытия (водорослей, ракушек, мидий и т. Д.) В квадратах. Я привык думать об анализе соответствия (CA) с точки зрения количества видов , а анализ основных компонентов (PCA) как о чем-то более полезном...

r pca multivariate-analysis correspondence-analysis

9

Интерпретация оценки ошибок из пакета для RandomForestRegressor

Я использую регрессор RandomForest для своих данных, и я мог видеть, что показатель oob был получен равным 0,83. Я не уверен, как это получилось, чтобы быть таким. Я имею в виду, что мои цели - высокие значения в диапазоне 10 ^ 7. Так что, если это MSE, то это должно было быть намного выше. Я не...

regression random-forest

9

Почему теорема Байеса работает графически?

С математической точки зрения теорема Байеса имеет для меня совершенный смысл (т.е. вывод и доказательство), но я не знаю, есть ли хороший геометрический или графический аргумент, который можно показать для объяснения теоремы Байеса. Я попытался найти что-нибудь на Google, и на удивление не смог...

bayesian bayes geometry

9

Обобщенная аддитивная модель: что такое ref.df в выводе R?

Привет, я изо всех сил, чтобы понять Ref.df на экране вывода в R: Approximate significance of smooth terms: edf Ref.df F p-value s(meangrain) 1.779 2.209 3.193 0.0451 * s(depth) 2.108 2.697 3.538 0.0254 * Что это значит и нужно ли включать этот термин для представления результатов GAM в статье? Это...

model gam degrees-of-freedom

9

Проверка гипотезы на равенство пропорций с 3 образцами

У меня есть набор данных с информацией о клиентах сотового телефона с двумя столбцами. Первый столбец содержит определенную категорию, к которой относится учетная запись (A, B или C), а второй столбец содержит двоичное значение для определения того, была ли удалена эта учетная запись. например A |...

hypothesis-testing equivalence

9

Оценка эффективности прогнозирования временных рядов

У меня есть динамическая наивная байесовская модель, обученная по нескольким временным переменным. Результатом модели является прогноз P(Event) @ t+1, рассчитанный для каждого t. График P(Event)зависимости timeот приведен на рисунке ниже. На этом рисунке черная линия соответствует P(Event)прогнозу...

time-series probability prediction model-comparison model-evaluation

9

Моделирование футбольных матчей

В Dixon, Coles ( 1997 ) они использовали оценку максимального правдоподобия для двух модифицированных независимых моделей Пуассона в (4.3) для моделирования результатов в футболе. Я пытаюсь использовать R для того, чтобы «воспроизвести» альфа и бета, а также параметры домашнего эффекта (стр. 274,...

r modeling maximum-likelihood games

9

Имитация данных в соответствии с моделью посредничества

Я заинтересован в поиске процедуры для моделирования данных, которые соответствуют указанной модели посредничества. В соответствии с общей структурой модели линейных структурных уравнений для тестирования моделей посредничества, впервые описанной Barron и Kenny (1986) и описанной в других местах,...

r regression simulation random-generation mediation

9

Понимание байесовских прогнозирующих распределений

Я прохожу курс «Введение в Байес» и испытываю некоторые затруднения с пониманием предиктивного распределения. Я понимаю, почему они полезны, и я знаком с определением, но есть некоторые вещи, которые я не совсем понимаю. 1) Как получить правильное предсказательное распределение для вектора новых...

bayesian prediction

9

Скрытая марковская модель для прогнозирования событий

Вопрос : Является ли установка ниже разумной реализации скрытой марковской модели? У меня есть набор данных 108,000наблюдений (взятых в течение 100 дней) и приблизительно 2000событий на протяжении всего периода наблюдения. Данные выглядят как на рисунке ниже, где наблюдаемая переменная может...

time-series machine-learning predictive-models markov-chain hidden-markov-model