Вопросы с тегом «descriptive-statistics»

Описательные статистические данные суммируют особенности выборки, такие как среднее и стандартное отклонения, медиана и квартили, максимум и минимум. С несколькими переменными, могут включать корреляции и кросс-таблицы. Может включать в себя визуальные отображения - графы, гистограммы, диаграммы рассеяния и так далее.

118
В чем разница между нормализацией и стандартизацией?

На работе мы обсуждали это, так как мой начальник никогда не слышал о нормализации. В линейной алгебре нормализация, по-видимому, относится к делению вектора на его длину. И в статистике стандартизация, по-видимому, относится к вычитанию среднего значения, которое затем делится на его SD. Но они...

78
Пример: регрессия LASSO с использованием glmnet для двоичного результата

Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91,...

68
Как «сложить» стандартное отклонение?

У меня есть среднемесячное значение и стандартное отклонение, соответствующее этому среднему. Сейчас я вычисляю среднегодовое значение как сумму среднемесячных значений, как я могу представить стандартное отклонение для суммированного среднего значения? Например, учитывая выход из ветровой...

67
Какую хорошую базовую статистику использовать для порядковых данных?

У меня есть некоторые порядковые данные, полученные из вопросов опроса. В моем случае это ответы в стиле Лайкерта (категорически не согласен-не согласен-нейтрален-согласен-полностью согласен). По моим данным они кодируются как 1-5. Я не думаю, что средства здесь много значат, так что какая основная...

52
Современный преемник исследовательского анализа данных Тьюки?

Я читал книгу Тьюки "Исследовательский анализ данных". Книга, написанная в 1977 году, делает упор на бумажных / карандашных методах. Есть ли более «современный» преемник, который учитывает, что теперь мы можем мгновенно строить большие наборы данных?...

42
Корреляции между непрерывными и категориальными (номинальными) переменными

Я хотел бы найти корреляцию между непрерывной (зависимой переменной) и категориальной (номинальной: пол, независимая переменная) переменной. Непрерывные данные обычно не распространяются. Прежде чем я вычислил его с помощью Спирмена . Однако мне сказали, что это неправильно.ρρ\rho При поиске в...

40
Эмпирические отношения между средним, медианой и модой

Для унимодального распределения, которое умеренно искажено, мы имеем следующие эмпирические отношения между средним, медианой и модой: Как были эти отношения получен?(Mean - Mode)∼3(Mean - Median)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} Карл Пирсон нарисовал...

39
Функция графического обзора данных (сводная) в R

Я уверен, что раньше я сталкивался с подобной функцией в пакете R, но после интенсивного поиска в Google я, кажется, нигде не могу ее найти. Функция, о которой я думаю, создала графическое резюме для заданной ей переменной, создавая вывод с некоторыми графиками (гистограммой и, возможно, графиком с...

36
Почему знаменатель оценки ковариации не должен быть n-2, а не n-1?

Знаменатель (несмещенной) оценки дисперсии равен поскольку имеется наблюдений и оценивается только один параметр.n−1n−1n-1nnn V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} Кроме того, мне интересно, почему...

34
Почему существует разница между ручным вычислением 95-процентного доверительного интервала и использованием функции confint () в R?

Дорогие, я заметил нечто странное, что не могу объяснить, не так ли? В итоге: ручной подход к вычислению доверительного интервала в модели логистической регрессии и функция R confint()дают разные результаты. Я проходил Прикладную логистическую регрессию Хосмера и Лемешоу (2-е издание). В 3-й главе...

33
Как интерпретировать коэффициент вариации?

Я пытаюсь понять Коэффициент Вариации . Когда я пытаюсь применить его к следующим двум образцам данных, я не могу понять, как интерпретировать результаты. Допустим, образец 1 равен а образец 2 - . Здесь образец 2 образец 1 как вы можете видеть.10 , 15 , 17 , 22 , 21 , 27 = +...

29
Как работать с иерархическими / вложенными данными в машинном обучении

Я объясню мою проблему на примере. Предположим, вы хотите предсказать доход человека с учетом некоторых атрибутов: {Возраст, Пол, Страна, Регион, Город}. У вас есть тренировочный набор данных, как так train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4,...

27
Инструмент командной строки для расчета базовой статистики для потока значений [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто в прошлом году . Существует ли какой-либо инструмент командной строки, который принимает поток чисел (в формате ascii)...

27
Является ли вариация такой же, как дисперсия?

Это мой первый вопрос о перекрестной проверке здесь, поэтому, пожалуйста, помогите мне, даже если это кажется тривиальным :-) Прежде всего, вопрос может быть результатом языковых различий или, возможно, у меня есть реальные недостатки в статистике. Тем не менее, вот оно: В статистике населения,...

24
Что можно сделать вывод о данных, когда среднее арифметическое очень близко к среднему геометрическому?

Есть ли что-то существенное в среднем геометрическом и среднем арифметическом значении, которое находится очень близко друг к другу, скажем, ~ 0,1%? Какие предположения можно сделать о таком наборе данных? Я работал над анализом набора данных и заметил, что по иронии судьбы значения очень и очень...

23
Важен ли исследовательский анализ данных при чисто прогностическом моделировании?

При построении прогностической модели с использованием методов машинного обучения, какой смысл проводить исследовательский анализ данных (EDA)? Можно ли сразу перейти к генерации объектов и созданию вашей модели? Как важна описательная статистика, используемая в...

22
Парадокс средней стоимости - как это называется?

У меня есть набор данных. Скажите наблюдений и переменные:3101010333 obs A B C 1 0 0 1 2 0 1 0 3 1 0 1 4 1 1 0 5 1 0 1 6 1 0 0 7 1 1 0 8 0 0 1 9 0 1 1 10 0 1 1 Скажем, это клиентов, которые купили ( ) или нет ( ) в каждой категории . Там их , поэтому эти покупателей покупают в среднем по товарным...

21
Что означает «беспристрастность»?

Что значит сказать, что «дисперсия является необъективной оценкой». Что означает преобразование смещенной оценки в несмещенную оценку с помощью простой формулы. Что именно делает это преобразование? Кроме того, какова практическая польза от этого преобразования? Вы конвертируете эти баллы при...