Вопросы с тегом «sample»

13
В чем разница между случайной величиной и случайной выборкой?

Эти два выражения сильно смутили меня, когда я изучал статистику. Мне кажется, что это совершенно разные вещи. Случайная выборка является случайным образом взять пробу из популяции, в то время как случайная величина , как функция , которая отображает множество всех возможных результатов...

12
Соревнования Kaggle просто выиграны случайно?

Соревнования Kaggle определяют итоговые рейтинги на основе проведенного тестового набора. Выдержанный тестовый набор является образцом; он не может быть репрезентативным для моделируемого населения. Поскольку каждое представление похоже на гипотезу, алгоритм, выигравший соревнование, может,...

12
ANOVA: тестирование предположения о нормальности для многих групп с небольшим количеством образцов на группу

Предположим следующую ситуацию: у нас есть большое количество (например, 20) с небольшим размером группы (например, n = 3). Я заметил, что если я сгенерирую значения из равномерного распределения, остатки будут выглядеть примерно нормально, даже если распределение ошибок будет равномерным....

12
Почему в классической статистике не используется метод удержания (разделение данных на обучение и тестирование)?

В моей классной работе по извлечению данных был предложен метод удержания для оценки производительности модели. Однако, когда я взял свой первый класс по линейным моделям, это не было введено как средство проверки или оценки модели. Мои онлайн-исследования также не показывают какого-либо...

12
Как взять много образцов из 10 из большого списка, без полной замены

У меня есть большой набор данных (20 000 точек данных), из которого я хочу взять повторные выборки из 10 точек данных. Однако, как только я выбрал эти 10 точек данных, я хочу, чтобы они больше не выбирались. Я пытался использовать sampleфункцию, но, похоже, у нее нет возможности сэмплировать без...

12
тесты противтестов?

Я пытаюсь выяснить, в чем именно разница между тестами и тестами.TttZzz Насколько я могу судить, для обоих классов тестов используется одна и та же статистика тестов, что-то вроде б^- Ссеˆ( б^)б^-Ссе^(б^)\frac{\hat{b} - C}{\widehat{\operatorname{se}}(\hat{b})} где - некоторая выборочная статистика,...

11
Оценить дисперсию населения, если среднее значение известно

Я знаю, что мы используем чтобы оценить дисперсия популяции. Я помню видео из Академии Хана, где указанная интуиция заключалась в том, что наше предполагаемое среднее значение, вероятно, немного отличается от фактического, поэтому расстоянияxi- ˉ x на самом деле будут больше, поэтому мы делим на...

11
Подгонка многоуровневых моделей к сложным данным обследования в R

Я ищу совет о том, как анализировать сложные данные опросов с помощью многоуровневых моделей в R. Я использовал этот surveyпакет для взвешивания неравных вероятностей выбора в одноуровневых моделях, но этот пакет не имеет функций для многоуровневого моделирования. lme4Пакет отлично подходит для...

11
SurveyMonkey игнорирует тот факт, что вы получаете неслучайный образец?

SurveyMonkey имеет шаги и диаграмму, чтобы вы могли определить, какой размер выборки вам нужен для данного диапазона погрешности или доверительного интервала, исходя из размера вашей популяции. Размер выборки SurveyMonkey Эта диаграмма просто игнорирует тот факт, что вы не получите случайную...

11
Надежна ли рандомизация с небольшими выборками?

Джером Корнфилд написал: Одним из лучших плодов фишерианской революции была идея рандомизации, и статистики, согласившиеся с несколькими другими моментами, по крайней мере согласились с этим. Но, несмотря на это согласие и несмотря на широкое использование процедур рандомизированного распределения...

11
Если не Пуассон, то что это за распределение?

У меня есть набор данных, содержащий количество действий, совершенных отдельными лицами в течение 7 дней. Конкретные действия не должны иметь отношение к этому вопросу. Вот некоторые описательные статистические данные для набора данных: СпектрЖадныйотклонениеКоличество наблюдений0 -...

11
Что является более подходящим способом создания выносного набора: удалить некоторые предметы или удалить некоторые наблюдения от каждого предмета?

У меня есть набор данных с 26 функциями и 31000 строк. Это набор данных из 38 предметов. Это для биометрической системы. Поэтому я хочу иметь возможность определять предметы. Чтобы иметь набор для тестирования, я знаю, что должен удалить некоторые значения. Так что лучше делать и почему? (а)...

10
Почему доля выборки также не имеет биномиального распределения

В биномиальной установке случайная величина X, которая дает количество успехов, распределяется биномиально. Пропорция выборки может быть рассчитана как где - размер вашей выборки. В моем учебнике говорится, чтоИксNИксN\frac{X}{n}NNn Эта пропорция не имеет биномиального распределения однако,...

10
«Значимая переменная», которая не улучшает прогнозирование вне выборки - как интерпретировать?

У меня есть вопрос, который, я думаю, будет довольно простым для многих пользователей. Я использую модели линейной регрессии для (i) исследования взаимосвязи нескольких объясняющих переменных и моей переменной отклика и (ii) прогнозирования моей переменной отклика с использованием объяснительных...

10
R линейная регрессия категориальной переменной «скрытое» значение

Это всего лишь пример, с которым я сталкивался несколько раз, поэтому у меня нет примеров данных. Запуск модели линейной регрессии в R: a.lm = lm(Y ~ x1 + x2) x1является непрерывной переменной x2является категориальным и имеет три значения, например, «Низкий», «Средний» и «Высокий». Однако вывод,...

10
Пределы основанных на деревьях методов ансамбля в маленьких n, больших p проблемах?

Основанные на деревьях методы ансамбля, такие как Случайный лес и последующие производные (например, условный лес), предназначены для использования в так называемых задачах «маленький n , большой p » для определения относительной важности переменной. Действительно, похоже, что это так, но мой...

10
Как рассчитать из выборки R в квадрате?

Я знаю, что это, вероятно, обсуждалось где-то еще, но я не смог найти четкого ответа. Я пытаюсь использовать формулу для расчета вне выборки R 2 модели линейной регрессии, где S S R - это сумма квадратов невязок, а S S T - это общая сумма квадратов. Для тренировочного набора ясно,...

10
Оценка размера пересечения нескольких наборов с использованием выборки из одного набора

Я работаю над алгоритмом, который должен рассчитать размер набора, сгенерированного пересечениями не менее 2 наборов. Более конкретно: z=|A0∩…∩An|z=|A0∩…∩An| z = \left |A_0 \cap \ldots \cap A_n \right | Пересекающиеся наборы генерируются запросами SQL, и, чтобы поддерживать скорость, я...

10
Требуется ли перекрестная проверка для моделирования со случайными лесами?

Насколько я видел, мнения об этом, как правило, расходятся. Лучшая практика, безусловно, диктует использование перекрестной проверки (особенно если сравнивать RF с другими алгоритмами в одном наборе данных). С другой стороны, первоначальный источник утверждает, что факт ошибки OOB, рассчитанный во...