Статистика и большие данные

45
Есть ли золотой стандарт для моделирования нерегулярно расположенных временных рядов?

В области экономики (я думаю) у нас есть ARIMA и GARCH для регулярно разнесенных временных рядов и Пуассон, Хоукс для моделирования точечных процессов, так как насчет попыток моделирования нерегулярно (неравномерно) разнесенных временных рядов - есть (по крайней мере) какие-либо общие практики ?...

45
Насколько хорошо множественная регрессия действительно может «контролировать» ковариаты?

Мы все знакомы с наблюдательными исследованиями, которые пытаются установить причинно-следственную связь между нерандомизированным предиктором X и результатом путем включения каждого мыслимого потенциального препятствия в модель множественной регрессии. Таким образом, «контролируя» всех...

45
Как смоделировать искусственные данные для логистической регрессии?

Я знаю, что чего-то не хватает в моем понимании логистической регрессии, и буду очень признателен за любую помощь. Насколько я понимаю, логистическая регрессия предполагает, что вероятность результата «1» с учетом входных данных представляет собой линейную комбинацию входных данных, пропущенных...

45
Линейное ядро ​​и нелинейное ядро ​​для опорных векторов машины?

При использовании машины опорных векторов есть ли какие-либо рекомендации по выбору линейного ядра или нелинейного ядра, например, RBF? Я когда-то слышал, что нелинейное ядро ​​имеет тенденцию не работать хорошо, когда количество функций велико. Есть ли какие-либо ссылки на этот...

45
Каков эффект наличия коррелированных предикторов в модели множественной регрессии?

Я узнал в классе линейных моделей, что если два предиктора коррелированы и оба включены в модель, один из них будет незначительным. Например, предположим, что размер дома и количество спален взаимосвязаны. При прогнозировании стоимости дома с использованием этих двух предикторов один из них может...

45
Ожидаемое количество соотношение девочек и мальчиков при рождении

Я наткнулся на вопрос в тесте на собеседование на предмет критического мышления. Это выглядит примерно так: У Zorganian республики есть некоторые очень странные обычаи. Семейные пары хотят иметь только детей женского пола, поскольку только женщины могут наследовать богатство семьи, поэтому, если у...

45
Все модели бесполезны? Возможна ли какая-то точная модель - или полезная?

Этот вопрос был в моей голове более месяца. Выпуск Amstat News за февраль 2015 года содержит статью профессора Беркли Марка ван дер Лаана, которая ругает людей за использование неточных моделей. Он утверждает, что при использовании моделей статистика становится искусством, а не наукой. По его...

45
Что мы можем сказать о средней численности населения из выборки 1?

Мне интересно, что мы можем сказать, если вообще что-нибудь, о значении населения, когда у меня есть только одно измерение, (размер выборки 1). Очевидно, мы хотели бы иметь больше измерений, но мы не можем их получить.y 1μμ\muy1y1y_1 Мне кажется, что поскольку среднее значение выборки, , тривиально...

45
Разница между GradientDescentOptimizer и AdamOptimizer (TensorFlow)?

Я написал простой MLP в TensorFlow, который моделирует XOR-Gate . Таким образом, для: input_data = [[0., 0.], [0., 1.], [1., 0.], [1., 1.]] он должен произвести следующее: output_data = [[0.], [1.], [1.], [0.]] Сеть имеет входной слой, скрытый слой и выходной слой с 2, 5 и 1 нейроном каждый. В...

45
Как определить, должна ли ось Y графика начинаться с нуля?

Один из распространенных способов «лежать с данными» - это использовать масштаб по оси Y, который создает впечатление, что изменения более значительны, чем они есть на самом деле. Когда я просматриваю научные публикации или лабораторные отчеты студентов, меня часто расстраивает этот «грех...

45
Как работает метод стохастического градиентного спуска Адама?

Я знаком с основными алгоритмами градиентного спуска для обучения нейронных сетей. Я прочитал статью с предложением Адама: АДАМ: МЕТОД СТОХАСТИЧЕСКОЙ ОПТИМИЗАЦИИ . Хотя у меня определенно есть некоторые идеи (по крайней мере), статья кажется мне слишком высокой в ​​целом. Например, функция...

45
Каковы основные теоремы в машинном (глубоком) обучении?

Аль Рахими недавно выступил с весьма провокационным докладом в NIPS 2017, сравнивая современное машинное обучение с алхимией. Одним из его утверждений является то, что нам нужно вернуться к теоретическим разработкам, чтобы иметь простые теоремы, доказывающие основополагающие результаты. Когда он...

45
Откуда исходит неправильное представление о том, что Y должен быть нормально распределен?

Достоверно авторитетные источники утверждают, что зависимая переменная должна быть нормально распределена: Предположения модели: нормально распределен, ошибки нормально распределены, и независимы, фиксирован и постоянная дисперсия .e i ∼ N ( 0 , σ 2 ) X σ 2YYYei∼N(0,σ2)ei∼N(0,σ2)e_i \sim...

45
Как правильно строить тренды

Я создаю график, показывающий тенденции смертности (на 1000 чел.) В разных странах, и история должна исходить из того, что Германия (голубая линия) - единственная, чья тенденция увеличивается после 1932 года. моя первая (базовая) попытка По моему мнению, этот график уже показывает то, что мы хотим...

44
Статистические модели шпаргалки

Мне было интересно, есть ли статистическая модель "шпаргалка", которая перечисляет любую или более информацию: когда использовать модель когда не использовать модель обязательные и дополнительные входы ожидаемые результаты Была ли модель протестирована в различных областях (политика, био,...

44
Почему множественное сравнение является проблемой?

Мне трудно понять, в чем на самом деле проблема множественных сравнений . По простой аналогии говорят, что человек, который примет много решений, совершит много ошибок. Поэтому применяются очень консервативные меры предосторожности, такие как коррекция Бонферрони, с тем чтобы сделать вероятность...

44
Строгое определение выброса?

Люди часто говорят о работе с выбросами в статистике. Что меня беспокоит в этом, так это то, что, насколько я могу судить, определение выброса является полностью субъективным. Например, если истинное распределение некоторой случайной величины является очень тяжелым или бимодальным, любая...

44
Как избежать наложения меток на графике R? [закрыто]

Я пытаюсь обозначить довольно простую диаграмму рассеяния в R. Это то, что я использую: plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) Результат посредственный, как вы можете видеть (нажмите, чтобы увеличить): Я пытался компенсировать это с помощью textxyфункции, но это не лучше . Увеличение...

44
Как статистически сравнить два временных ряда?

У меня есть два временных ряда, показанных на графике ниже: На графике показаны все детали обоих временных рядов, но я могу легко сократить их до совпадений, если это необходимо. У меня вопрос: какие статистические методы я могу использовать для оценки различий между временными рядами? Я знаю, что...