Статистика и большие данные

9
Какая модель глубокого обучения может классифицировать категории, которые не являются взаимоисключающими

Примеры: у меня есть предложение в должностной инструкции: «Старший инженер Java в Великобритании». Я хочу использовать модель глубокого обучения, чтобы предсказать ее как 2 категории: English и IT jobs. Если я использую традиционную классификационную модель, она может предсказать только 1 метку с...

9
Разброс отклонения: термин для ожидаемой квадратической ошибки прогноза за вычетом неснижаемой ошибки

Hastie et al. «Элементы статистического обучения» (2009) рассматривают процесс генерирования данных с E ( ε ) = 0 и Var ( ε ) = σ 2 ε .Y= ф( Х) + εY=f(X)+ε Y = f(X) + \varepsilon E(ε)=0E(ε)=0\mathbb{E}(\varepsilon)=0Var(ε)=σ2εVar(ε)=σε2\text{Var}(\varepsilon)=\sigma^2_{\varepsilon} Они представляют...

9
Когда использовать регрессию Деминга

В настоящее время я работаю над тем, как преобразовать два разных значения фосфора друг в друга. Фон Существует множество (экстракционных) методов измерения содержания фосфора в почве. В разных странах применяются разные методы, поэтому для сравнения коэффициента рождаемости в разных странах...

9
Определение статистической значимости коэффициента линейной регрессии при наличии мультиколлинеарности

Предположим, у меня есть несколько городов с разной численностью населения, и я хотел узнать, существует ли положительная линейная зависимость между количеством винных магазинов в городе и количеством DUI. Где я определяю, является ли эта связь значимой или нет, основываясь на t-критерии...

9
Использование p-значения для вычисления вероятности того, что гипотеза верна; что еще нужно?

Вопрос: Одно из распространенных заблуждений относительно р-значений заключается в том, что они представляют вероятность того, что нулевая гипотеза верна. Я знаю, что это не правильно, и я знаю, что p-значения представляют только вероятность найти образец столь же экстремальный, как этот, учитывая,...

9
Какие из следующих курсов статистики являются наиболее применимыми и полезными в финансовой / технической индустрии? [закрыто]

Закрыто . Этот вопрос основан на мнении . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы ответить на него фактами и цитатами, отредактировав этот пост . Закрыто 3 года назад . Я нахожусь в процессе выбора 3 классов статистики для моего кластера курсов...

9
Как определить, существенно ли отличаются две корреляции?

Я хочу определить, какой из двух наборов данных (B1, B2) лучше соотносит (Pearsons r) с другим набором (A). Во всех наборах данных отсутствуют данные. Как я могу определить, существенно ли отличается результирующая корреляция или нет? Например, значения 8426 присутствуют как в A, так и в B1, r =...

9
Каково распределение вероятностей этой случайной суммы неидеальных переменных Бернулли?

Я пытаюсь найти вероятностное распределение суммы случайного числа переменных, которые не распределены одинаково. Вот пример: Джон работает в колл-центре обслуживания клиентов. Он получает звонки с проблемами и пытается их решить. Те, кого он не может решить, он передает их своему начальнику....

9
Полезен ли функциональный анализ и гильбертовы пространства в машинном обучении? Если так, то как?

Мне было интересно, как гильбертовы пространства и функциональный анализ полезны для машинного обучения? Я думал, что машинное обучение - это смесь статистики, информатики и оптимизации. Как функциональный анализ связан с...

9
Выбор байесовской модели и вероятный интервал

У меня есть набор данных с тремя переменными, где все переменные являются количественными. Давайте назовем это , и . Я подгоняю регрессионную модель в байесовской перспективе через MCMC сх 1 х 2yyyx1x1x_1x2x2x_2rjags Я сделал предварительный анализ, и график рассеяния подсказывает, что следует...

9
Обратная проблема дня рождения с несколькими столкновениями

Предположим, у вас был год инопланетянина с неизвестной длиной N. Если у вас есть случайная выборка из указанных инопланетян, и у некоторых из них есть общие дни рождения, можете ли вы использовать эти данные для оценки длины года? Например, в выборке из 100 у вас может быть две тройки (т.е. два...

9
P-значения и принцип правдоподобия

Этот вопрос возник в классе: если мы используем p-значения для оценки гипотез в эксперименте, какой части принципа правдоподобия мы не подчиняемся: достаточность или обусловленность ? Моя интуиция будет сказать Достаточность , поскольку вычисление значения р зависит от ненаблюдаемых результатов...

9
Кривые Каплана-Мейера, кажется, говорят иначе, чем регрессия Кокса

В R я делаю анализ данных выживаемости больных раком. Я читал очень полезные материалы об анализе выживания в CrossValidated и других местах и ​​думаю, что понял, как интерпретировать результаты регрессии Кокса. Тем не менее, один результат по-прежнему меня беспокоит ... Я сравниваю выживание...

9
Почему в латинских квадратах строки, обработки и столбцы называются ортогональными

Я всегда слышал «ортогональность» в области геометрии (обратите внимание, я не являюсь носителем английского языка). Я не понимаю следующее для латинских квадратов (цитата из учебника): Каждое лечение (ABCD) появляется один раз в каждом ряду. Следовательно, процедуры и ряды являются ортогональными....

9
Стандартизация против нормализации для регрессии Лассо / Риджа

Я знаю, что общепринятой практикой является стандартизация функций для регрессии гребня и лассо, однако, будет ли когда-либо более практичным нормализовать функции по шкале (0,1) в качестве альтернативы стандартизации z-показателя для этих методов регрессии?...

9
Изучение различий между популяциями

Скажем, у нас есть выборка из двух групп населения: Aи B. Давайте предположим, что эти группы состоят из отдельных лиц, и мы решили описать людей с точки зрения особенностей. Некоторые из этих функций являются категориальными (например, они ездят на работу?), А некоторые являются числовыми...

9
Являются ли большинство опубликованных корреляций в социальных науках ненадежными и что с этим делать? [закрыто]

Закрыто . Этот вопрос основан на мнении . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы ответить на него фактами и цитатами, отредактировав этот пост . Закрыто 2 года назад . Несмотря на важные, но отвратительные попытки отдельных людей «разобраться»...

9
ГАММ с нулевыми данными

Можно ли подобрать GAMM (Обобщенную аддитивную смешанную модель) для данных с нулевым раздувом в R? Если нет, то можно ли подобрать GAM (обобщенную аддитивную модель) для данных с нулевым раздувом с отрицательным биномиальным или квазипуассоновским распределением в R? (Я нашел функции COZIGAM ::...

9
Почему тот факт, что 1 медиана ниже, чем другой медианы, не означает, что большинство в группе 1 меньше, чем большинство в группе 2?

Я полагал, что приведенные ниже прямоугольники могут быть интерпретированы как «большинство мужчин быстрее, чем большинство женщин» (в этом наборе данных), главным образом потому, что среднее время мужчин было меньше среднего времени женщин. Но курс EDX на R- и статистика викторине сказал мне , что...

9
Можно ли из

Ну, мы не можем, например, посмотреть https://en.wikipedia.org/wiki/Subindependence за интересным контрпримером. Но реальный вопрос заключается в следующем: есть ли какой-нибудь способ усилить условие, чтобы независимость следовала? Например, существует ли некоторый набор функций так что если E g i...