Статистика и большие данные

98
Нахождение свободно доступных образцов данных

Я работал над новым методом анализа и анализа наборов данных, чтобы идентифицировать и изолировать подгруппы населения без предварительного знания характеристик какой-либо подгруппы. Хотя этот метод достаточно хорошо работает с искусственными выборками данных (то есть наборами данных, созданными...

98
Это действительно, как работают p-значения? Может ли миллион научных работ в год основываться на чистой случайности?

Я очень плохо знаком со статистикой, и я только учусь понимать основы, включая . Но сейчас у меня в голове огромный вопросительный знак, и я надеюсь, что мое понимание неверно. Вот мой мыслительный процесс:пpp Разве все исследования в мире не похожи на обезьян в «теореме о бесконечной обезьяне»?...

98
Как интуитивно объяснить, что такое ядро?

Многие классификаторы машинного обучения (например, машины опорных векторов) позволяют указывать ядро. Что было бы интуитивно понятным способом объяснить, что такое ядро? Один из аспектов, о котором я думал, - это различие между линейным и нелинейным ядрами. Проще говоря, я мог бы говорить о...

97
Интуитивное объяснение единичного корня

Как бы вы объяснили интуитивно, что такое единичный корень в контексте теста единичного корня? Я думаю о способах объяснения, которые я основал в этом вопросе . Случай с корневым модулем состоит в том, что я знаю (кстати, немного), что тест корневого модуля используется для проверки стационарности...

97
В чем разница между линейной регрессией по y с x и x с y?

Коэффициент корреляции Пирсона для x и y одинаков, независимо от того, вычисляете ли вы Pearson (x, y) или Pearson (y, x). Это говорит о том, что выполнение линейной регрессии y с учетом x или x с учетом y должно быть таким же, но я не думаю, что это так. Может ли кто-то пролить свет на то, когда...

97
Деревья условного вывода против традиционных деревьев решений

Может ли кто-нибудь объяснить основные различия между деревьями условного вывода ( ctreeиз partyпакета в R) по сравнению с более традиционными алгоритмами дерева решений (такими как rpartв R)? Что отличает CI-деревья? Сильные и слабые стороны? Обновление: я посмотрел на статью Хортхорна и др., На...

96
Как выбрать t-критерий или непараметрический критерий, например, Уилкоксон в небольших выборках

Определенные гипотезы могут быть проверены с использованием t- критерия Стьюдента (возможно, с использованием поправки Уэлча для неравных отклонений в случае двух выборок) или с помощью непараметрического теста, такого как парный критерий Уилкоксона со знаком, ранговый критерий...

94
Каков наилучший способ выявления выбросов в многомерных данных?

Предположим, у меня есть большой набор многомерных данных, по крайней мере, с тремя переменными. Как я могу найти выбросы? Парные диаграммы рассеяния не будут работать, поскольку выброс может существовать в трех измерениях, который не является выбросом ни в одном из двухмерных подпространств. Я...

94
Можно ли обучить нейронную сеть без обратного распространения?

Многие книги и учебные пособия по нейронной сети тратят много времени на алгоритм обратного распространения, который по сути является инструментом для вычисления градиента. Давайте предположим, что мы строим модель с ~ 10K параметров / весов. Можно ли запустить оптимизацию, используя некоторые...

94
Какую книгу вы бы порекомендовали ученым, не занимающимся статистикой?

Какую книгу вы бы порекомендовали ученым, которые не являются статистиками? Чистая доставка наиболее ценится. А также объяснение соответствующих методов и методов для типичных задач: анализ временных рядов, представление и агрегация больших наборов...

94
Как много мы знаем о p-хакерстве «в дикой природе»?

Фраза p- взлома (также: «выемка данных» , «отслеживание» или «промысел») относится к различным видам статистической халатности, в которой результаты становятся искусственно статистически значимыми. Есть много способов добиться «более значительного» результата, включая, но не ограничиваясь: анализ...

93
Основные тесты проверки данных

В своей работе я часто работаю с наборами данных других людей, неспециалисты приносят мне клинические данные, и я помогаю им обобщать их и выполнять статистические тесты. Проблема, с которой я сталкиваюсь, состоит в том, что наборы данных, которые я привожу, почти всегда полны опечаток,...

92
Вложенная перекрестная проверка для выбора модели

Как можно использовать вложенную перекрестную проверку для выбора модели ? Из того, что я читаю онлайн, вложенное резюме работает следующим образом: Существует внутренний цикл CV, где мы можем проводить поиск по сетке (например, запустив K-fold для каждой доступной модели, например, комбинацию...

92
Кто такие байесовцы?

Когда кто-то начинает интересоваться статистикой, дихотомия «Частый» и «Байесовский» вскоре становится обычным явлением (а кто вообще не читал « Сигнал и шум» Нейта Сильвера ?). В беседах и вводных курсах точка зрения является чрезвычайно частой ( MLE , значения), но есть небольшая часть времени,...

92
Почему временные ряды должны быть стационарными?

Я понимаю, что стационарный временной ряд - это тот, чье среднее значение и дисперсия постоянны во времени. Может кто-нибудь объяснить, почему мы должны убедиться, что наш набор данных является стационарным, прежде чем мы сможем запустить на нем различные модели ARIMA или ARM? Относится ли это...