Статистика и большие данные

9
Олимпиада - Венгрия имеет лидирующие цифры в золоте? (Относительное население)

Я создал веб-страницу, на которой публикуются живые результаты олимпийских медалей от Thompson Reuters и подсчет населения по всему миру из ЦРУ. Результаты интересны для меня - у Венгрии двузначное лидерство в золотых медалях над остальным миром. Кроме того, США и Китай находятся на самом низком...

9
Моделирование игроков в крикет, получающих игроков с битой

У меня есть набор данных, детализирующий большое количество игр в крикет (несколько тысяч). В крикет "боулеры" неоднократно бросают мяч в ряд "игроков с битой". Котелок пытается вытащить игрока с битой. В этом отношении он очень похож на кувшины и баттеры в бейсболе. Если бы я взял весь набор...

9
Как линейный базовый ученик работает в повышении? И как это работает в библиотеке xgboost?

Я знаю, как реализовать линейную целевую функцию и линейные усиления в XGBoost. Мой конкретный вопрос: когда алгоритм соответствует остаточному (или отрицательному градиенту), использует ли он один элемент на каждом шаге (т.е. одномерную модель) или все признаки (многомерная модель)? Будем...

9
Более простой способ найти

Рассмотрим 3 одинаковых выборки, взятых из равномерного распределения u(θ,2θ)u(θ,2θ)u(\theta, 2\theta) , где θθ\theta - параметр. Я хочу найти E[X(2)|X(1),X(3)]E[X(2)|X(1),X(3)] \mathbb{E}\left[X_{(2)}| X_{(1)}, X_{(3)}\right] где X(i)X(i)X_{(i)} - это статистика порядка iii . Я ожидаю, что...

9
Когда (и почему) байесовцы отвергают действительные байесовские методы? [закрыто]

Закрыто . Этот вопрос нуждается в деталях или ясности . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Добавьте детали и проясните проблему, отредактировав этот пост . Закрыто 3 года назад . Из того, что я прочитал, и из ответов на другие вопросы, которые я здесь задавал,...

9
Я хотел бы изучить теорию вероятностей, теорию мер и, наконец, машинное обучение. С чего мне начать? [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 3 года назад . Я хотел бы изучить теорию вероятностей, теорию мер...

9
Пуассон с нулевым усечением и основной Пуассон являются вложенными или не вложенными?

Я видел множество статей, в которых обсуждается, является ли базовая регрессия Пуассона вложенной версией регрессии Пуассона с нулевым уровнем инфляции. Например, этот сайт утверждает, что это так, поскольку последний включает дополнительные параметры для моделирования дополнительных нулей, но в...

9
Как оптимально распределить ничьи при расчете множественных ожиданий

Предположим, мы хотим вычислить некоторое ожидание: EYЕИкс| Y[f(X,Y) ]EYЕИкс|Y[е(Икс,Y)]E_YE_{X|Y}[f(X,Y)] Предположим, мы хотим приблизить это с помощью моделирования Монте-Карло. ЕYЕИкс| Y[ ф( Х, Y) ] ≈ 1R SΣг = 1рΣs = 1Sе(xr,s,yr)EYEX|Y[f(X,Y)]≈1RS∑r=1R∑s=1Sf(xr,s,yr)E_YE_{X|Y}[f(X,Y)] \approx...

9
Может кто-нибудь объяснить, как мне 5 лет, об этой проблеме из Книги ESL Хасти?

Я работаю над книгой Хэсти по ESL, и мне тяжело с вопросом 2.3. Вопрос в следующем: Мы рассматриваем оценку ближайшего соседа в начале координат, и среднее расстояние от начала координат до ближайшей точки данных задается этим уравнением. Я понятия не имею, с чего начать, пытаясь вывести это. Я...

9
Регрессия на единичном диске, начиная с «равномерно расположенных» выборок

Мне нужно решить сложную проблему регрессии на диске устройства. Оригинальный вопрос вызвал некоторые интересные комментарии, но, к сожалению, ответов нет. Тем временем я узнал кое-что еще об этой проблеме, поэтому я постараюсь разбить исходную проблему на подзадачи и посмотреть, повезет ли мне в...

9
Байесовское онлайн-обнаружение точек изменения (предельное прогнозное распределение)

Я читаю байесовскую онлайн-статью об обнаружении точек смены Адамса и Маккея ( ссылка ). Авторы начинают с написания предельного распределительного предсказания: гдеP(xt+1|x1:t)=∑rtP(xt+1|rt,x(r)t)P(rt|x1:t)(1)P(xt+1|x1:t)=∑rtP(xt+1|rt,xt(r))P(rt|x1:t)(1) P(x_{t+1} | \textbf{x}_{1:t}) = \sum_{r_t}...

9
Разрешено ли использовать средние значения для набора данных для улучшения корреляции?

У меня есть набор данных с зависимой и независимой переменной. Оба не временные ряды. У меня 120 наблюдений. Коэффициент корреляции составляет 0,43. После этого расчета я добавил столбец для обеих переменных со средним значением для каждых 12 наблюдений, в результате чего появилось 2 новых столбца...

9
Случайные величины, для которых неравенства Маркова, Чебышева жесткие

Я заинтересован в построении случайных величин, для которых неравенства Маркова или Чебышева являются жесткими. Тривиальным примером является следующая случайная величина. п( Х= 1 ) = P( Х= - 1 ) = 0,5P(X=1)=P(X=−1)=0.5P(X=1)=P(X=-1) = 0.5 . Его среднее значение равно нулю, дисперсия равна 1 и ....

9
Линейная модель, где данные имеют неопределенность, используя R

Допустим, у меня есть данные, которые имеют некоторую неопределенность. Например: X Y 1 10±4 2 50±3 3 80±7 4 105±1 5 120±9 Природой неопределенности могут быть, например, повторные измерения или эксперименты, или неопределенность измерительного прибора. Я хотел бы подогнать к нему кривую, используя...

9
Два квантиля бета-распределения определяют его параметры?

Если я даю два квантиля и соответствующие им местоположения (каждый) в открытом интервале , могу ли я всегда найти параметры бета-распределения, в котором эти квантили находятся в указанных местоположениях?( l 1 , l 2 ) ( 0 , 1 )(q1,q2)(q1,q2)(q_1,q_2)(l1,l2)(l1,l2)(l_1,l_2)( 0 , 1...

9
Понимание этого PCA графика продаж мороженого в зависимости от температуры

Я беру фиктивные данные о температуре и продажах мороженого и классифицирую их по K-средним (n кластеров = 2), чтобы выделить 2 категории (полностью фиктивные). Сейчас я делаю анализ основных компонентов этих данных, и моя цель - понять, что я вижу. Я знаю, что цель PCA состоит в том, чтобы...

9
Означает ли положительный член взаимодействия корреляцию между составляющими его переменными?

Допустим, я запускаю линейную регрессию, которая имеет вид .y=β0+β1A+β2B+β3AB+ϵy=β0+β1A+β2B+β3AB+ϵy = \beta_0 + \beta_1A+\beta_2B+\beta_3AB +\epsilon Если положительно, означает ли это положительную корреляцию между A и B ? (И наоборот, отрицательная корреляция, если \ beta_3...

9
Разница между типами СВМ

Я новичок в поддержке векторных машин. Краткое объяснение svmФункция из e1071пакета в R предлагает различные варианты: C-классификация ню-классификации одна классификация (для обнаружения новизны) EPS-регрессионный ню-регрессионный Каковы интуитивные различия между пятью типами? Какой из них...

9
Должны ли мы всегда делать резюме?

Мой вопрос: должен ли я делать резюме даже для относительно большого набора данных? У меня относительно большой набор данных, и я буду применять алгоритм машинного обучения для набора данных. Так как мой компьютер не быстрый, CV (и поиск по сетке) иногда занимает слишком много времени. В частности,...