Статистика и большие данные

9
Распространены ли какие-либо процессы в природе совершенно нормально?

Много было сказано о важности нормальных распределений в природе. Многие измерения, такие как рост или вес, распределены примерно нормально. Но ни один из них не является абсолютно нормальным, насколько я понимаю. Учитывая, что нормальное распределение является одним из максимальных распределений...

9
Половина дискретной случайной величины?

Пусть XXX дискретная случайная величина принимает значения в NN\mathbb{N} . Я хотел бы наполовину эту переменную, то есть найти случайную переменную YYY такую ​​как: X=Y+Y∗X=Y+Y*X = Y + Y^* где является независимой копией .Y∗Y∗Y^*YYY Я называю этот процесс вдвое ; это выдуманная терминология. В...

9
Вращайте компоненты PCA, чтобы выровнять дисперсию в каждом компоненте

Я пытаюсь уменьшить размерность и шум набора данных, выполняя PCA для набора данных и выбрасывая последние несколько ПК. После этого я хочу использовать некоторые алгоритмы машинного обучения на оставшихся ПК, и поэтому я хочу нормализовать данные путем выравнивания дисперсии ПК, чтобы алгоритмы...

9
Выбор функций для проблем кластеризации

Я пытаюсь сгруппировать разные наборы данных, используя неконтролируемые алгоритмы (кластеризация). Проблема в том, что у меня много функций (~ 500) и небольшое количество дел (200-300). До сих пор я занимался только задачами классификации, для которых я всегда отмечал данные как обучающие наборы....

9
Почему проксимальный градиентный спуск вместо простых субградиентных методов для Лассо?

Я думал решить Лассо с помощью ванильных субградиентных методов. Но я читал людей, предлагающих использовать проксимальный градиентный спуск. Может ли кто-нибудь подчеркнуть, почему для лассо используются проксимальный GD вместо ванильных субградиентных...

9
инвариантность корреляции к линейному преобразованию:

Это на самом деле является одной из проблем в 4-й редакции «Базовой эконометрики» Гуджарати (Q3.11), в которой говорится, что коэффициент корреляции инвариантен относительно изменения происхождения и масштаба, то есть где , , , - произвольные...

9
Что должен охватывать курс по экспериментальному дизайну?

Меня попросили предложить курс по экспериментальному проектированию для продвинутых аспирантов по агрономии и экологии. Я никогда не брал такой курс, и с удивлением обнаружил, что этот курс может быть более удачно назван «За пределами одностороннего ANOVA», и что он охватывает материал, который я...

9
Являются ли контуры интересными особенностями функции полученной регрессией?

Я предполагаю общую установку регрессии, то есть непрерывную функцию выбирают из семейства чтобы соответствовать заданным данным ( может быть любым пространством, таким как куб или фактически любым разумным топологическим пространством) в соответствии с некоторыми естественными...

9
Какая научная область (области) изучает, как люди интерпретируют количественные резюме и визуализации?

Существует множество известных ресурсов, предлагающих советы по визуализации данных. (Например, Туфте, Стивен Фью и др. , Натан Яу .) Но к какой области можно обратиться за ответами на такие вопросы: Актуальна ли критика круговой диаграммы на практике? Являются ли люди намного лучше в интерпретации...

9
Асимптотическая нормальность статистики порядка распределений с тяжелыми хвостами

Предыстория: у меня есть пример, который я хочу смоделировать с дистрибутивом с тяжелыми хвостами. У меня есть некоторые крайние значения, такие, что разброс наблюдений относительно велик. Моя идея состояла в том, чтобы смоделировать это с помощью обобщенного распределения Парето, и я это сделал....

9
Узкое место применения глубокого обучения на практике

После прочтения большого количества документов для глубокого изучения возникает некое ощущение, что существует множество хитростей в обучении сети, чтобы получить лучшую, чем обычно, производительность. С точки зрения отраслевых приложений очень трудно разрабатывать подобные приемы, за исключением...

9
Если

Это не домашнее задание. Пусть - случайная величина. Если и , следует ли из этого, что ?ИксXXE [X] = k ∈ RE[X]=k∈R\mathbb{E}[X] = k \in \mathbb{R}Вар [ Х] = 0Var[X]=0\text{Var}[X] = 0Pr ( X= к ) = 1Pr(X=k)=1\Pr\left(X = k\right) = 1 Интуитивно это кажется очевидным, но я не уверен, как бы это...

9
Топологии, для которых ансамбль вероятностных распределений завершен

Я изо всех сил пытался согласовать свое интуитивное понимание распределений вероятностей со странными свойствами, которыми обладают почти все топологии распределений вероятностей. Например, рассмотрим смешанную случайную переменную : выберите гауссову с центром в 0 с дисперсией 1 и с вероятностью...

9
Лучшее использование LSTM для прогнозирования событий последовательности

Предположим следующую одномерную последовательность: A, B, C, Z, B, B, #, C, C, C, V, $, W, A, % ... Письма A, B, C, ..здесь представляют «обычные» события. #, $, %, ...Здесь символы обозначают «особые» события Временной интервал между всеми событиями является неоднородным (от секунд до дней), хотя...

9
Интерпретация значения AIC

Типичные значения AIC, которые я видел для логистических моделей, исчисляются тысячами, по меньшей мере, сотнями. например, на http://www.r-bloggers.com/how-to-perform-a-logistic-regression-in-r/ AIC составляет 727,39 Хотя всегда говорят, что AIC следует использовать только для сравнения моделей, я...

9
Как формализовать предыдущее распределение вероятностей? Есть ли практические правила или советы, которые следует использовать?

Хотя мне нравится думать, что я хорошо понимаю концепцию предварительной информации в байесовском статистическом анализе и принятии решений, у меня часто возникают проблемы с нахождением головы вокруг ее применения. Я имею в виду пару ситуаций, которые иллюстрируют мою борьбу, и я чувствую, что они...

9
Нормализация входа для нейронов ReLU

Согласно «Эффективному Backprop» ЛеКуна и др. (1998), хорошей практикой является нормализация всех входных данных таким образом, чтобы они центрировались вокруг 0 ​​и лежали в диапазоне максимальной второй производной. Так, например, мы бы использовали [-0,5,0,5] для функции «Тан». Это должно...

9
Случайные перекрывающиеся интервалы

Как найти аналитическое выражение в следующей задаче?D(n,l,L)D(n,l,L)D(n,l,L) Я случайно выбрасываю «баров» длиной в интервал . «Бары» могут перекрываться. Я хотел бы найти среднюю общую длину интервала занятую хотя бы одним «баром».nnnlll[0,L][0,L][0,L]DDD[0,L][0,L][0,L] В пределе "низкой...