Статистика и большие данные

9
Почему сумма вероятностей в непрерывном равномерном распределении не бесконечность?

Функция плотности вероятности равномерного распределения (непрерывная) показана выше. Площадь под кривой равна 1, что имеет смысл, поскольку сумма всех вероятностей в распределении вероятностей равна 1. Формально вышеуказанная функция вероятности (f (x)) может быть определена как 1 / (ba) для x в...

9
Для какой проблемы или игры оптимальным решением являются дисперсия и стандартное отклонение?

Для заданной случайной величины (или совокупности, или стохастического процесса) математическое ожидание является ответом на вопрос: какой точечный прогноз минимизирует ожидаемую квадратичную потерю? , Кроме того, это оптимальное решение для игры. Угадайте следующую реализацию случайной величины...

9
Регрессия остатков логистической регрессии на других регрессорах

С помощью регрессии OLS, применяемой к непрерывному отклику, можно построить уравнение множественной регрессии, последовательно выполняя регрессии остатков в каждом ковариате. У меня вопрос, есть ли способ сделать это с помощью логистической регрессии через остатки логистической регрессии ?...

9
Оптимизация градиентного спуска

Я пытаюсь понять оптимизацию градиентного спуска в алгоритмах ML (машинного обучения). Я понимаю , что есть стоимость функция, где цель состоит в том, чтобы свести к минимуму ошибки у - у . В случае , когда вес ш 1 , ж 2 оптимизируются , чтобы дать минимальную ошибку, и используются в частных...

9
Как детям удается объединить своих родителей в прогнозе PCA набора данных GWAS?

Возьмите 20 случайных точек в 10000-мерном пространстве с каждой координатой из N( 0 , 1 )N(0,1)\mathcal N(0,1) . Разделите их на 10 пар («пары») и добавьте среднее значение каждой пары («ребенок») к набору данных. Затем проведите PCA по полученным 30 точкам и постройте график PC1 против PC2....

9
Почему информация о проверочных данных просачивается, если я оцениваю производительность модели на проверочных данных при настройке гиперпараметров?

В книге «глубокое обучение Франсуа Шоле с Python» говорится: В результате настройка конфигурации модели на основе ее производительности на наборе проверки может быстро привести к подгонке к набору проверки, даже если ваша модель никогда не обучалась непосредственно этому. Центральное место в этом...

9
Почему логистическая регрессия хорошо откалибрована и как ее испортить?

В scikit изучают документы по калибровке вероятности, они сравнивают логистическую регрессию с другими методами и отмечают, что случайный лес менее хорошо откалиброван, чем логистическая регрессия. Почему логистическая регрессия хорошо откалибрована? Как можно испортить калибровку логистической...

9
Проверка честности монеты

Мне задал следующий вопрос друг. Я не мог ей помочь, но я надеюсь, что кто-нибудь сможет мне это объяснить. Я не мог найти подобный пример. Спасибо за любую помощь и объяснение. Q: Результаты 100 экспериментов с бросанием монет записываются как 0 = "Хвост" и 1 = "Голова". Выход x представляет собой...

9
Почему байесовский апостериор концентрируется вокруг минимизатора расхождения KL?

Рассмотрим Байеса задней . Асимптотически его максимум возникает при оценке MLE , которая просто максимизирует вероятность .θ∣Xθ∣X\theta\mid Xθ^θ^\hat \thetaargminθfθ(X)argminθfθ(X)\operatorname{argmin}_\theta\, f_\theta(X) Все эти концепции - байесовские априоры, максимизирующие вероятность -...

9
Оценка неопределенности в задачах многомерного вывода без выборки?

Я работаю над проблемой многомерного вывода (около 2000 параметров модели), для которой мы можем надежно выполнить оценку MAP, найдя глобальный максимум логарифмического аппроксимации, используя комбинацию градиентной оптимизации и генетического алгоритма. Я очень хотел бы иметь возможность сделать...

9
Вероятность

Предположим, что X1X1X_1 и X2X2X_2 - независимые геометрические случайные величины с параметром ppp . Какова вероятность того, что X1≥X2X1≥X2X_1 \geq X_2 ? Я запутался в этом вопросе, потому что нам ничего не говорят о X1X1X_1 и X2X2X_2 кроме геометрических. Разве это не будет 50%50%50\% потому...

9
Как уменьшить предикторы правильным способом для модели логистической регрессии

Поэтому я читал некоторые книги (или их части) по моделированию (в частности, «Стратегии регрессионного моделирования» Ф. Харрелла), поскольку моя текущая ситуация сейчас заключается в том, что мне нужно создать логистическую модель, основанную на данных двоичного отклика. У меня есть как...

9
Если «B более вероятно дано A», то «A более вероятно дано B»

Я пытаюсь получить более ясную интуицию: «Если AAA делает BBB более вероятным, то BBB делает AAA более вероятным», т.е. Пусть n(S)n(S)n(S) обозначает размер пространства, в котором находятся AAA и BBB , тогда Утверждение: P(B|A)>P(B)P(B|A)>P(B)P(B|A)>P(B) поэтому...

9
В линейной регрессии, почему регуляризация штрафует также значения параметров?

В настоящее время я изучаю регрессию гребня, и меня немного смущает вопрос о наказании за более сложные модели (или определение более сложной модели). Из того, что я понимаю, сложность модели не обязательно соотносится с полиномиальным порядком. Итак: - более сложная модель, чем:2 + 3 + 4 х2+ 5 х3+...

9
Если квадрат временного ряда является стационарным, является ли исходный временной ряд стационарным?

Я нашел решение, которое гласило, что если квадрат временного ряда является стационарным, то же самое происходит и с исходным временным рядом, и наоборот. Однако я не могу доказать это, у кого-то есть идея, если это правда, и если это как вывести...

9
Как найти ковариационную матрицу многоугольника?

Представьте, что у вас есть многоугольник, определенный набором координат и его центр масс находится в . Вы можете рассматривать полигон как равномерное распределение с полигональной границей. (x1,y1)...(xn,yn)(x1,y1)...(xn,yn)(x_1,y_1)...(x_n,y_n)(0,0)(0,0)(0,0) Мне нужен метод, который найдет...