Статистика и большие данные

86
Учитывая мощь компьютеров в наши дни, есть ли причина для проведения теста хи-квадрат, а не для точного теста Фишера?

Учитывая, что в настоящее время программное обеспечение может так легко выполнять точный расчет теста Фишера , есть ли обстоятельства, когда теоретически или практически критерий хи-квадрат на самом деле предпочтительнее точного теста Фишера? Преимущества точного теста Фишера включают в себя:...

86
Что именно является доверительным интервалом?

Я примерно и неофициально знаю, что такое доверительный интервал. Однако я не могу обернуться вокруг одной довольно важной детали: согласно Википедии: Доверительный интервал не предсказывает, что истинное значение параметра имеет конкретную вероятность нахождения в доверительном интервале с учетом...

86
Какие примеры, когда «наивный бутстрап» терпит неудачу?

Предположим, у меня есть набор данных выборки из неизвестного или сложного распределения, и я хочу сделать некоторый вывод по статистике TTT данных. Моя склонность по умолчанию является просто генерировать кучу образцов бутстраповских с заменой, и вычислить мою статистику TTT на каждый образец...

85
Как выбрать библиотеку nlme или lme4 R для моделей со смешанными эффектами?

У меня подходят несколько смешанных моделей эффектов ( в частности , продольные модели) с использованием lme4в Rно хотел бы, чтобы действительно мастер модели и код , который идет с ними. Однако, прежде чем погрузиться обеими ногами (и купить несколько книг), я хочу убедиться, что я изучаю...

85
Включая взаимодействие, но не основные эффекты в модели

Является ли когда-либо обоснованным включение двустороннего взаимодействия в модель без учета основных эффектов? Что, если ваша гипотеза касается только взаимодействия, вам все равно нужно включить основные...

85
При каких условиях корреляция подразумевает причинно-следственную связь?

Все мы знаем мантру «корреляция не подразумевает причинно-следственную связь», которую разыгрывают все студенты первого курса статистики. Есть некоторые хорошие примеры здесь , чтобы проиллюстрировать эту идею. Но иногда корреляция делает подразумевает причинно - следственную связь. Следующий...

85
Практические правила для «современной» статистики

Мне нравится книга Дж. Ван Белля о статистических правилах большого пальца и, в меньшей степени, распространенные ошибки в статистике (и как их избежать) от Филиппа Гуда и Джеймса У. Хардина. Они учитывают распространенные ошибки при интерпретации результатов экспериментальных и наблюдательных...

85
Есть ли интуитивное объяснение, почему мультиколлинеарность является проблемой линейной регрессии?

В вики обсуждаются проблемы, возникающие, когда мультиколлинеарность является проблемой линейной регрессии. Основная проблема заключается в том, что мультиколлинеарность приводит к нестабильным оценкам параметров, что очень затрудняет оценку влияния независимых переменных на зависимые переменные. Я...

84
Если среднее значение настолько чувствительно, зачем использовать его в первую очередь?

Это известный факт, что медиана устойчива к выбросам. Если это так, то когда и почему мы будем использовать среднее значение в первую очередь? Возможно, я могу придумать одну вещь: понять наличие выбросов, то есть если медиана далека от среднего значения, тогда распределение искажено и, возможно,...

83
Смещение и отклонение в перекрестном подтверждении по сравнению с K-кратной проверкой

Как разные методы перекрестной проверки сравниваются с точки зрения дисперсии модели и смещения? Мой вопрос частично мотивирован этой веткой: Оптимальное количество сгибов в перекрестной проверке с кратным распределением : всегда ли лучший выбор - резюме с пропуском? КKK, Ответ на этот вопрос...

83
Как применить нейронную сеть для прогнозирования временных рядов?

Я новичок в машинном обучении, и я пытался понять, как применить нейронную сеть для прогнозирования временных рядов. Я нашел ресурс, связанный с моим запросом, но я все еще немного потерян. Я думаю, что базовое объяснение без особых подробностей поможет. Допустим, у меня есть несколько ценовых...

83
Когда использовать методы регуляризации для регрессии?

При каких обстоятельствах следует рассмотреть использование методов регуляризации (регрессия ребра, лассо или наименьших углов) вместо OLS? В случае, если это поможет вести дискуссию, мой главный интерес - повышение точности...

82
Что означает «решение в закрытой форме»?

Я часто сталкивался с термином «решение в закрытой форме». Что означает решение в закрытой форме? Как определить, существует ли решение в близкой форме для данной проблемы? Ища в Интернете, я нашел некоторую информацию, но ничего в контексте разработки статистической или вероятностной модели /...

82
функция активации tanh против функции активации сигмоида

Функция активации tanh: t a n h ( x ) = 2 ⋅ σ( 2 х ) - 1tanh(x)=2⋅σ(2x)−1tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1 Где , сигмовидная функция, определяется как: \ sigma (x) = \ frac {e ^ x} {1 + e ^ x} .σ ( x ) = e xσ( х )σ(x)\sigma(x) σ( х ) = еИкс1 + еИксσ(x)=ex1+ex\sigma(x) =...

82
Линия наилучшего соответствия не выглядит как подходящая. Почему?

Посмотрите на этот график Excel: Линия наилучшего соответствия «здравого смысла» будет представлять собой почти вертикальную линию, проходящую через центр точек (отредактировано вручную красным цветом). Однако линейная линия тренда, определенная в Excel, представляет собой показанную диагональную...

82
Почему надежная (и устойчивая) статистика не заменила классические методы?

При решении бизнес-задач с использованием данных обычно используется хотя бы одно ключевое предположение о том, что подкрепляющая классическая статистика недопустима. В большинстве случаев никто не удосуживается проверить эти предположения, поэтому вы никогда не узнаете. Например, то, что многие из...

81
Имеет ли значение несбалансированный образец при выполнении логистической регрессии?

Итак, я думаю, что у меня есть достаточно приличная выборка, принимая во внимание эмпирическое правило 20: 1: довольно большая выборка (N = 374) для в общей сложности 7 потенциальных переменных-предикторов. Моя проблема заключается в следующем: независимо от того, какой набор переменных предикторов...