Вопросы с тегом «missing-data»

При наличии данных недостает информации (пробелы), т. Е. Не являются полными. Следовательно, важно учитывать эту особенность при выполнении анализа или теста.

78
Пример: регрессия LASSO с использованием glmnet для двоичного результата

Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91,...

34
Соответствие показателя склонности после многократного вменения

Я ссылаюсь на этот документ: Хейс JR, Groner JI. «Использование нескольких показателей вменения и склонности для проверки влияния автомобильных сидений и ремней безопасности на тяжесть травм на основании данных реестра травм». J Pediatr Surg. Май 2008 года; 43 (5): 924-7. В этом исследовании была...

32
Почему некоторые люди используют -999 или -9999 для замены пропущенных значений?

У меня есть набор данных. Есть много пропущенных значений. Для некоторых столбцов отсутствующее значение было заменено на -999, но для других столбцов отсутствующее значение было отмечено как «NA». Почему мы используем -999 для замены отсутствующего значения?...

32
Как R обрабатывает пропущенные значения в lm?

Я хотел бы регрессировать вектор B против каждого из столбцов в матрице A. Это тривиально, если нет пропущенных данных, но если матрица A содержит пропущенные значения, тогда моя регрессия против A ограничена включением только тех строк, где все значения присутствуют ( поведение na.omit по...

29
R: Случайный лес, выбрасывающий NaN / Inf в ошибке «вызова сторонней функции», несмотря на отсутствие NaN в наборе данных [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Я использую каретку, чтобы запустить перекрестный проверенный случайный лес по набору данных. Переменная...

26
R карета и НС

Я очень предпочитаю каретку из-за ее способности к настройке параметров и унифицированного интерфейса, но я заметил, что для этого всегда требуются полные наборы данных (то есть без NA), даже если применяемая «голая» модель допускает NA. Это очень утомительно, так как нужно применять трудоемкие...

25
Алгоритмы машинного обучения для обработки недостающих данных

Я пытаюсь разработать прогностическую модель, используя многомерные клинические данные, включая лабораторные данные. Пространство данных невелико с 5 тыс. Выборок и 200 переменных. Идея состоит в том, чтобы ранжировать переменные, используя метод выбора признаков (IG, RF и т. Д.), И использовать...

24
Почему алгоритм максимизации ожидания гарантированно сходится к локальному оптимуму?

Я прочитал несколько объяснений алгоритма EM (например, из Бишопа «Распознавание образов и машинное обучение» и из «Первого курса по машинному обучению» Роджера и Джеролами). Вывод ЭМ в порядке, я понимаю это. Я также понимаю, почему алгоритм охватывает что-то: на каждом шаге мы улучшаем результат,...

24
Оценка максимального правдоподобия EM для распределения Вейбулла

Примечание: я отправляю вопрос от моего бывшего студента, который не может публиковать сообщения самостоятельно по техническим причинам. Для данного iid образца Икс1, … , ХNИкс1,...,ИксNx_1,\ldots,x_n из распределения Вейбулла pdf еК( х ) = к хк - 1е- хКх > 0еК(Икс)знак...

23
Вменение недостающих значений для PCA

Я использовал эту prcomp()функцию для выполнения PCA (анализа главных компонентов) в R. Однако в этой функции есть ошибка, из-за которой na.actionпараметр не работает. Я попросил помощи по stackoverflow ; два пользователя предложили два разных способа работы со NAзначениями. Однако проблема обоих...

21
Статистический подход для определения случайного отсутствия данных

У меня есть большой набор векторов признаков, которые я буду использовать для решения проблемы бинарной классификации (используя scikit learn в Python). Прежде чем я начну думать о вменении, мне интересно попытаться определить по оставшимся частям данных, пропущены ли данные «случайно» или «не...

21
Как алгоритмы обучения дерева решений справляются с отсутствующими значениями (под капотом)

Какие методы используют алгоритмы обучения дерева решений для обработки пропущенных значений. Они просто заполняют слот при использовании значения, называемого отсутствующим?...

20
Разница между отсутствующими данными и разреженными данными в алгоритмах машинного обучения

Каковы основные различия между разреженными данными и отсутствующими данными? И как это влияет на машинное обучение? В частности, как редкие и отсутствующие данные влияют на алгоритмы классификации и регрессионные (прогнозирующие числа) типы алгоритмов. Я говорю о ситуации, когда процент...

20
Как я могу объединить апостериорные средства и достоверные интервалы после многократного вменения?

Я использовал множественное вменение для получения ряда завершенных наборов данных. Я использовал байесовские методы на каждом из законченных наборов данных, чтобы получить апостериорные распределения для параметра (случайный эффект). Как я могу объединить / объединить результаты для этого...

19
Как обрабатываются значения NA в glm в R

У меня есть таблица данных T1, которая содержит почти тысячу переменных (V1) и около 200 миллионов точек данных. Данные редки, и большинство записей - NA. Каждый пункт данных имеет уникальный идентификатор и пару дат, чтобы отличить его от другого. У меня есть другая таблица T2, которая содержит...

18
Полная информация о максимальной вероятности пропущенных данных в R

Контекст : иерархическая регрессия с некоторыми отсутствующими данными. Вопрос : Как использовать оценку максимальной вероятности полной информации (FIML) для устранения пропущенных данных в R? Есть ли пакет, который вы бы порекомендовали, и каковы типичные шаги? Онлайн-ресурсы и примеры также...

18
Множественное вложение для исходных переменных

У меня есть набор данных по сельскохозяйственным испытаниям. Моя переменная ответа - это соотношение ответов: log (лечение / контроль). Меня интересует, что опосредует разницу, поэтому я использую мета-регрессии RE (невзвешенные, потому что кажется довольно ясным, что величина эффекта не связана с...

17
Как запустить анализ Порядковой Логистической Регрессии в R с обоими числовыми / категориальными значениями?

Базовые данные : у меня ~ 1000 человек помечены оценками: «1», «хорошо», «2», «средний» или «3» [плохо »- это те значения, которые я пытаюсь предсказать для людей в будущем , В дополнение к этому, у меня есть некоторая демографическая информация: пол (категориальный: M / F), возраст (числовой:...

16
Как заполнить недостающие данные во временных рядах?

У меня есть большой набор данных о загрязнении, который регистрируется каждые 10 минут в течение двух лет, однако в этих данных есть ряд пробелов (в том числе некоторые, которые проводятся по несколько недель за раз). Данные кажутся довольно сезонными, и в течение дня наблюдаются большие различия...