Статистика и большие данные

98

Нахождение свободно доступных образцов данных

Я работал над новым методом анализа и анализа наборов данных, чтобы идентифицировать и изолировать подгруппы населения без предварительного знания характеристик какой-либо подгруппы. Хотя этот метод достаточно хорошо работает с искусственными выборками данных (то есть наборами данных, созданными...

98

Это действительно, как работают p-значения? Может ли миллион научных работ в год основываться на чистой случайности?

Я очень плохо знаком со статистикой, и я только учусь понимать основы, включая . Но сейчас у меня в голове огромный вопросительный знак, и я надеюсь, что мое понимание неверно. Вот мой мыслительный процесс:пpp Разве все исследования в мире не похожи на обезьян в «теореме о бесконечной обезьяне»?...

hypothesis-testing statistical-significance p-value

98

Как интуитивно объяснить, что такое ядро?

Многие классификаторы машинного обучения (например, машины опорных векторов) позволяют указывать ядро. Что было бы интуитивно понятным способом объяснить, что такое ядро? Один из аспектов, о котором я думал, - это различие между линейным и нелинейным ядрами. Проще говоря, я мог бы говорить о...

machine-learning svm references kernel-trick intuition

97

Интуитивное объяснение единичного корня

Как бы вы объяснили интуитивно, что такое единичный корень в контексте теста единичного корня? Я думаю о способах объяснения, которые я основал в этом вопросе . Случай с корневым модулем состоит в том, что я знаю (кстати, немного), что тест корневого модуля используется для проверки стационарности...

intuition unit-root

97

В чем разница между линейной регрессией по y с x и x с y?

Коэффициент корреляции Пирсона для x и y одинаков, независимо от того, вычисляете ли вы Pearson (x, y) или Pearson (y, x). Это говорит о том, что выполнение линейной регрессии y с учетом x или x с учетом y должно быть таким же, но я не думаю, что это так. Может ли кто-то пролить свет на то, когда...

regression correlation linear-model pearson-r

97

Деревья условного вывода против традиционных деревьев решений

Может ли кто-нибудь объяснить основные различия между деревьями условного вывода ( ctreeиз partyпакета в R) по сравнению с более традиционными алгоритмами дерева решений (такими как rpartв R)? Что отличает CI-деревья? Сильные и слабые стороны? Обновление: я посмотрел на статью Хортхорна и др., На...

r machine-learning cart

97

Почему L1 норма для разреженных моделей

Я читаю книги о линейной регрессии. Есть несколько предложений о нормах L1 и L2. Я их знаю, просто не понимаю, почему L1 норма для разреженных моделей. Может кто-то использовать дать простое...

regression lasso regularization ridge-regression

96

Разница между стандартной ошибкой и стандартным отклонением

Я изо всех сил пытаюсь понять разницу между стандартной ошибкой и стандартным отклонением. Чем они отличаются и почему нужно измерять стандартную

mean standard-deviation standard-error intuition

96

Как выбрать ядро для SVM?

При использовании SVM нам нужно выбрать ядро. Интересно, как выбрать ядро. Какие-либо критерии выбора

machine-learning svm kernel-trick

96

Как выбрать t-критерий или непараметрический критерий, например, Уилкоксон в небольших выборках

Определенные гипотезы могут быть проверены с использованием t- критерия Стьюдента (возможно, с использованием поправки Уэлча для неравных отклонений в случае двух выборок) или с помощью непараметрического теста, такого как парный критерий Уилкоксона со знаком, ранговый критерий...

hypothesis-testing t-test nonparametric small-sample wilcoxon-mann-whitney

94

Каков наилучший способ выявления выбросов в многомерных данных?

Предположим, у меня есть большой набор многомерных данных, по крайней мере, с тремя переменными. Как я могу найти выбросы? Парные диаграммы рассеяния не будут работать, поскольку выброс может существовать в трех измерениях, который не является выбросом ни в одном из двухмерных подпространств. Я...

multivariate-analysis outliers

94

Можно ли обучить нейронную сеть без обратного распространения?

Многие книги и учебные пособия по нейронной сети тратят много времени на алгоритм обратного распространения, который по сути является инструментом для вычисления градиента. Давайте предположим, что мы строим модель с ~ 10K параметров / весов. Можно ли запустить оптимизацию, используя некоторые...

machine-learning neural-networks optimization backpropagation

94

Разница между падением веса нейронной сети и скоростью обучения

Какая разница между скоростью обучения и снижением веса в контексте нейронных сетей?

neural-networks terminology

94

Какую книгу вы бы порекомендовали ученым, не занимающимся статистикой?

Какую книгу вы бы порекомендовали ученым, которые не являются статистиками? Чистая доставка наиболее ценится. А также объяснение соответствующих методов и методов для типичных задач: анализ временных рядов, представление и агрегация больших наборов...

references

94

Как много мы знаем о p-хакерстве «в дикой природе»?

Фраза p- взлома (также: «выемка данных» , «отслеживание» или «промысел») относится к различным видам статистической халатности, в которой результаты становятся искусственно статистически значимыми. Есть много способов добиться «более значительного» результата, включая, но не ограничиваясь: анализ...

hypothesis-testing statistical-significance p-value model-selection reproducible-research

93

Основные тесты проверки данных

В своей работе я часто работаю с наборами данных других людей, неспециалисты приносят мне клинические данные, и я помогаю им обобщать их и выполнять статистические тесты. Проблема, с которой я сталкиваюсь, состоит в том, что наборы данных, которые я привожу, почти всегда полны опечаток,...

dataset outliers checking

92

Что такое ковариация на простом языке?

Что такое ковариантность на простом языке и как она связана с терминами зависимости , корреляции и дисперсии-ковариантности относительно конструкций с повторными...

correlation repeated-measures terminology covariance independence

92

Вложенная перекрестная проверка для выбора модели

Как можно использовать вложенную перекрестную проверку для выбора модели ? Из того, что я читаю онлайн, вложенное резюме работает следующим образом: Существует внутренний цикл CV, где мы можем проводить поиск по сетке (например, запустив K-fold для каждой доступной модели, например, комбинацию...

cross-validation model-selection

92

Кто такие байесовцы?

Когда кто-то начинает интересоваться статистикой, дихотомия «Частый» и «Байесовский» вскоре становится обычным явлением (а кто вообще не читал « Сигнал и шум» Нейта Сильвера ?). В беседах и вводных курсах точка зрения является чрезвычайно частой ( MLE , значения), но есть небольшая часть времени,...

bayesian mathematical-statistics inference bayes frequentist

92

Почему временные ряды должны быть стационарными?

Я понимаю, что стационарный временной ряд - это тот, чье среднее значение и дисперсия постоянны во времени. Может кто-нибудь объяснить, почему мы должны убедиться, что наш набор данных является стационарным, прежде чем мы сможем запустить на нем различные модели ARIMA или ARM? Относится ли это...

regression time-series stationarity