Статистика и большие данные

52
Кластеризация с матрицей расстояний

У меня есть (симметричная) матрица, Mкоторая представляет расстояние между каждой парой узлов. Например, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 80 80 120 140 140 140 Д 20 20 20 0 60 80 80 80 120 140 140 140 E 40 60 60 60 0...

52
Excel как инструмент для статистики

Похоже, что многие люди (в том числе и я) любят проводить предварительный анализ данных в Excel. Некоторые ограничения, такие как количество строк, разрешенных в электронной таблице, являются проблемой, но в большинстве случаев не делают невозможным использование Excel для работы с данными. Тем не...

52
Какая наиболее удивительная характеристика гауссова (нормального) распределения?

Стандартизированное распределение Гаусса в можно определить, явно указав его плотность: RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} или его характерная функция. Как указано в этом вопросе, это также единственное распределение, для которого выборочное среднее и дисперсия...

52
ANOVA предположение нормальность / нормальное распределение остатков

На странице Википедии в ANOVA перечислены три предположения , а именно: Независимость случаев - это предположение модели, которая упрощает статистический анализ. Нормальность - распределение остатков нормальное. Равенство (или «однородность») дисперсий, называемых гомоскедастичностью ... Интересным...

52
Вывод лассо раствора в закрытой форме

Для задачи Лассо minβ(Y−Xβ)T(Y−Xβ)minβ(Y−Xβ)T(Y−Xβ)\min_\beta (Y-X\beta)^T(Y-X\beta) такая, что ∥β∥1≤t‖β‖1≤t\|\beta\|_1 \leq t . Я часто вижу результат мягкого определения порога βlassoj=sgn(βLSj)(|βLSj|−γ)+βjlasso=sgn(βjLS)(|βjLS|−γ)+ \beta_j^{\text{lasso}}=...

52
Современный преемник исследовательского анализа данных Тьюки?

Я читал книгу Тьюки "Исследовательский анализ данных". Книга, написанная в 1977 году, делает упор на бумажных / карандашных методах. Есть ли более «современный» преемник, который учитывает, что теперь мы можем мгновенно строить большие наборы данных?...

52
Нейронные сети против опорных векторных машин: второе определенно превосходит?

Многие авторы статей, которые я читаю, утверждают, что SVM - это превосходный метод для решения проблемы регрессии / классификации, осознавая, что они не могут получить аналогичные результаты с помощью NN. Часто сравнение утверждает, что SVM вместо NN, Иметь сильную теорию основания Достигнуть...

52
Имеют ли предсказания модели случайного леса интервал предсказания?

Если я запускаю randomForestмодель, я могу делать прогнозы на основе этой модели. Есть ли способ получить интервал прогнозирования для каждого из прогнозов, чтобы я знал, насколько «уверена» модель в своем ответе. Если это возможно, то просто ли это основано на изменчивости зависимой переменной для...

52
Выполнить нормализацию объекта до или в рамках валидации модели?

Обычной хорошей практикой в ​​машинном обучении является нормализация характеристик или стандартизация данных переменных предиктора, вот и все, центрируйте данные, вычитая среднее значение, и нормализуйте его, деля на дисперсию (или стандартное отклонение тоже). Для самодостаточности и, насколько я...

52
Необходимо ли масштабировать целевое значение в дополнение к функциям масштабирования для регрессионного анализа?

Я строю регрессионные модели. В качестве шага предварительной обработки я масштабирую значения моих объектов так, чтобы они имели среднее значение 0 и стандартное отклонение 1. Необходимо ли также нормализовать целевые...

52
Почему мы так заботимся о нормально распределенных членах ошибки (и гомоскедастичности) в линейной регрессии, когда нам это не нужно?

Я полагаю, что расстраиваюсь каждый раз, когда слышу, как кто-то говорит, что ненормальность остатков и / или гетероскедастичность нарушают допущения OLS. Для оценки параметров в модели МНК ни одно из этих предположений не является необходимым по теореме Гаусса-Маркова. Я вижу, как это важно в...

52
Бинарная классификация с сильно несбалансированными классами

У меня есть набор данных в виде (функции, двоичный вывод 0 или 1), но 1 случается довольно редко, поэтому, всегда прогнозируя 0, я получаю точность от 70% до 90% (в зависимости от конкретных данных, на которые я смотрю ). Методы ML дают мне примерно одинаковую точность, и я считаю, что в этой...

52
Камминг (2008) утверждает, что распределение значений p, полученных в репликациях, зависит только от исходного значения p. Как это может быть правдой?

Я читал 2008 документ Джеффа Камминг репликации и Интервалы: значения предсказывать будущее лишь смутно, но доверительные интервалы делают намного лучше pppppp р р[~ 200 ссылок в Google Scholar] - и смущает одно из центральных требований. Это одна из серии статей, где Камминг спорит с и...

51
В чем разница между фильтром частиц (последовательным методом Монте-Карло) и фильтром Калмана?

Фильтр частиц и фильтр Калмана является рекурсивным байесовскими . Я часто сталкиваюсь с фильтрами Калмана в своей области, но очень редко вижу использование фильтра частиц. Когда один будет использоваться над...

51
Статистика и причинный вывод?

В своей статье 1984 года «Статистика и причинно-следственные связи» Пол Холланд поднял один из самых фундаментальных вопросов статистики: Что статистическая модель может сказать о причинно-следственной связи? Это привело к его девизу: НЕТ ПРИЧИНЫ БЕЗ МАНИПУЛЯЦИИ который подчеркнул важность...

51
Что такое хороший ресурс по дизайну стола?

Я видел различные теоретические обработки графики, такие как грамматика графики . Но я не видел ничего эквивалентного в отношении таблиц. За это время я разработал неформальную модель хорошей практики в дизайне таблиц. Тем не менее, я хотел бы иметь возможность дать хорошую ссылку на студентов....

51
Есть ли у нас проблема «жалких голосов»?

Я знаю, это может звучать как не по теме, но выслушайте меня. В Stack Overflow и здесь мы получаем голоса за сообщения, все это хранится в табличной форме. Например: идентификатор сообщения идентификатор голосования тип голосования дата и время ------- -------- --------- -------- 10 1 2 2000-1-1...

51
Почему бы не приблизиться к классификации через регрессию?

В некоторых материалах, которые я видел по машинному обучению, говорилось, что плохая идея - подходить к проблеме классификации с помощью регрессии. Но я думаю, что всегда можно сделать непрерывную регрессию, чтобы соответствовать данным и усечь непрерывный прогноз, чтобы получить дискретные...

51
Как определить лучшую точку отсечения и ее доверительный интервал, используя кривую ROC в R?

У меня есть данные теста, который можно использовать для различения нормальных и опухолевых клеток. Согласно кривой ROC это выглядит хорошо для этой цели (площадь под кривой составляет 0,9): Мои вопросы: Как определить точку отсечки для этого теста и его доверительный интервал, где показания...