Статистика и большие данные

9
Рекомендации для начинающего учителя (Введение в биостатистику)

Этой осенью я преподаю свой первый класс (Введение в биостатистику). У кого-нибудь есть предложения по обучению статистике лучше? Возможно, какой-нибудь пример, который вы хотели бы использовать своему первому учителю? Я использую Принципы биостатистики Пагано и Говро. РЕДАКТИРОВАТЬ ДЕТАЛИ Этот...

9
Показатель эффективности классификатора, который сочетает в себе чувствительность и специфичность?

У меня есть данные с двумя классами, для которых я выполняю классификацию, используя несколько классификаторов. И наборы данных хорошо сбалансированы. Оценивая работу классификаторов, я должен учитывать, насколько точен классификатор при определении не только истинных положительных моментов, но и...

9
Интерпретация скрипичных сюжетов

Я сравниваю распределение по разным группам с использованием графиков для скрипки, однако большинство онлайн-ресурсов, которые я нашел, просто связаны с тем, как составлять графики, и с очень простой интерпретацией результатов (срединное отклонение, данные сгруппированы или нет). Я ищу подробные...

9
Есть ли в статистике общепринятый смысл символа ?

Я читал статью о подгонке кривой Байеса ( Dimatteo et. Al. Подгонка кривой Байеса со сплайнами свободных узлов, 2001 ) и наткнулся на символ ≏≏\bumpeq . Он используется несколько раз по всей статье, но никогда явно не определяется. После нескольких поисков в google и stackexchange, кажется, что...

9
статистический тест, чтобы увидеть, является ли связь линейной или нелинейной

У меня есть пример данных, установленных следующим образом: Volume <- seq(1,20,0.1) var1 <- 100 x2 <- 1000000 x3 <- 30 x4 = sqrt(x2/pi) H = x3 - Volume r = (x4*H)/(H + Volume) Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r)) Power <- jitter(Power, factor = 1, amount = 0.1)...

9
Расчет прогнозируемого интервала

У меня есть следующие данные, расположенные здесь . Я пытаюсь рассчитать 95% доверительный интервал для средней чистоты, когда процент углеводородов равен 1,0. В R я ввожу следующее. > predict(purity.lm, newdata=list(hydro=1.0), interval="confidence", level=.95) fit lwr upr 1 89.66431 87.51017...

9
Есть ли название для этого графика - своего рода нечто среднее между круговой диаграммой и графиком Мекко

Есть ли название для такого рода диаграммы ниже (получено от Министерства бизнеса, инноваций и занятости Новой Зеландии , на которого я работаю, но не участвовал в создании этого графика)? Он состоит из прямоугольников, в которых площадь пропорциональна переменной, и напоминает нечто среднее между...

9
Какие алгоритмы машинного обучения можно масштабировать с помощью hadoop / map-Reduce

Масштабируемые алгоритмы машинного обучения в наши дни кажутся шумом. Каждая компания обрабатывает только большие данные . Существует ли учебник, в котором обсуждается, какие алгоритмы машинного обучения можно масштабировать с помощью параллельных архитектур, таких как Map-Reduce, а какие - нет?...

9
Использование логистической регрессии для непрерывной зависимой переменной

Недавно я получил ревизию для своей исследовательской работы, и ниже приводится комментарий рецензента к моей статье: результаты, полученные на одной модели, не совсем убедительны, особенно линейная регрессия обычно имеет недостатки в работе с выбросами. Я предлагаю авторам также попробовать...

9
Книги по статистической экологии?

Я знаю, что этот вопрос задавался ранее: Справочник по экологическим исследованиям, но это не то, что я ищу. Что я ищу, так это если бы кто-нибудь мог порекомендовать хорошую книгу (или канонический справочник) по статистической экологии? У меня очень хорошее понимание статистики, поэтому книга...

9
Использование анализа основных компонентов против анализа соответствия

Я анализирую набор данных, касающихся литоральных сообществ. Данные представляют собой процент покрытия (водорослей, ракушек, мидий и т. Д.) В квадратах. Я привык думать об анализе соответствия (CA) с точки зрения количества видов , а анализ основных компонентов (PCA) как о чем-то более полезном...

9
Интерпретация оценки ошибок из пакета для RandomForestRegressor

Я использую регрессор RandomForest для своих данных, и я мог видеть, что показатель oob был получен равным 0,83. Я не уверен, как это получилось, чтобы быть таким. Я имею в виду, что мои цели - высокие значения в диапазоне 10 ^ 7. Так что, если это MSE, то это должно было быть намного выше. Я не...

9
Почему теорема Байеса работает графически?

С математической точки зрения теорема Байеса имеет для меня совершенный смысл (т.е. вывод и доказательство), но я не знаю, есть ли хороший геометрический или графический аргумент, который можно показать для объяснения теоремы Байеса. Я попытался найти что-нибудь на Google, и на удивление не смог...

9
Обобщенная аддитивная модель: что такое ref.df в выводе R?

Привет, я изо всех сил, чтобы понять Ref.df на экране вывода в R: Approximate significance of smooth terms: edf Ref.df F p-value s(meangrain) 1.779 2.209 3.193 0.0451 * s(depth) 2.108 2.697 3.538 0.0254 * Что это значит и нужно ли включать этот термин для представления результатов GAM в статье? Это...

9
Проверка гипотезы на равенство пропорций с 3 образцами

У меня есть набор данных с информацией о клиентах сотового телефона с двумя столбцами. Первый столбец содержит определенную категорию, к которой относится учетная запись (A, B или C), а второй столбец содержит двоичное значение для определения того, была ли удалена эта учетная запись. например A |...

9
Оценка эффективности прогнозирования временных рядов

У меня есть динамическая наивная байесовская модель, обученная по нескольким временным переменным. Результатом модели является прогноз P(Event) @ t+1, рассчитанный для каждого t. График P(Event)зависимости timeот приведен на рисунке ниже. На этом рисунке черная линия соответствует P(Event)прогнозу...

9
Моделирование футбольных матчей

В Dixon, Coles ( 1997 ) они использовали оценку максимального правдоподобия для двух модифицированных независимых моделей Пуассона в (4.3) для моделирования результатов в футболе. Я пытаюсь использовать R для того, чтобы «воспроизвести» альфа и бета, а также параметры домашнего эффекта (стр. 274,...

9
Имитация данных в соответствии с моделью посредничества

Я заинтересован в поиске процедуры для моделирования данных, которые соответствуют указанной модели посредничества. В соответствии с общей структурой модели линейных структурных уравнений для тестирования моделей посредничества, впервые описанной Barron и Kenny (1986) и описанной в других местах,...

9
Понимание байесовских прогнозирующих распределений

Я прохожу курс «Введение в Байес» и испытываю некоторые затруднения с пониманием предиктивного распределения. Я понимаю, почему они полезны, и я знаком с определением, но есть некоторые вещи, которые я не совсем понимаю. 1) Как получить правильное предсказательное распределение для вектора новых...

9
Скрытая марковская модель для прогнозирования событий

Вопрос : Является ли установка ниже разумной реализации скрытой марковской модели? У меня есть набор данных 108,000наблюдений (взятых в течение 100 дней) и приблизительно 2000событий на протяжении всего периода наблюдения. Данные выглядят как на рисунке ниже, где наблюдаемая переменная может...