Вопросы с тегом «data-imputation»

Относится к общему классу методов, используемых для «заполнения» отсутствующих данных. Методы, используемые для этого, обычно связаны с интерполяцией (http://en.wikipedia.org/wiki/Interpolation) и требуют предположений о том, почему данные отсутствуют (например, «отсутствуют случайно»).

78
Пример: регрессия LASSO с использованием glmnet для двоичного результата

Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91,...

26
R карета и НС

Я очень предпочитаю каретку из-за ее способности к настройке параметров и унифицированного интерфейса, но я заметил, что для этого всегда требуются полные наборы данных (то есть без NA), даже если применяемая «голая» модель допускает NA. Это очень утомительно, так как нужно применять трудоемкие...

23
Вменение недостающих значений для PCA

Я использовал эту prcomp()функцию для выполнения PCA (анализа главных компонентов) в R. Однако в этой функции есть ошибка, из-за которой na.actionпараметр не работает. Я попросил помощи по stackoverflow ; два пользователя предложили два разных способа работы со NAзначениями. Однако проблема обоих...

20
Как объединить доверительные интервалы для дисперсионного компонента модели смешанных эффектов при использовании множественного вменения

Логика множественного вменения (МИ) состоит в том, чтобы вменять пропущенные значения не один раз, а несколько (обычно М = 5) раз, что приводит к М завершенным наборам данных. Затем M завершенных наборов данных анализируются с использованием методов полных данных, на которых M оценок и их...

16
Как заполнить недостающие данные во временных рядах?

У меня есть большой набор данных о загрязнении, который регистрируется каждые 10 минут в течение двух лет, однако в этих данных есть ряд пробелов (в том числе некоторые, которые проводятся по несколько недель за раз). Данные кажутся довольно сезонными, и в течение дня наблюдаются большие различия...

16
Шестой вариант ответа («Я не знаю») был добавлен к 5-балльной шкале Лайкерта. Данные потеряны?

Мне нужна небольшая помощь в сборе данных из вопросника. Один из моих коллег применил вопросник, но по неосторожности, вместо того, чтобы использовать оригинальную 5-балльную шкалу Лайкерта (категорически не согласен, чтобы полностью согласиться), он вставил 6-й ответ в шкалу. И, что еще хуже, 6-й...

15
Методы решения проблемы пропущенных данных в машинном обучении

Практически в любой базе данных, в которой мы хотим делать прогнозы с использованием алгоритмов машинного обучения, найдутся пропущенные значения для некоторых характеристик. Существует несколько подходов к решению этой проблемы, чтобы исключить строки с пропущенными значениями, пока они не...

15
Объединение калибровочных участков после многократного вменения

Я хотел бы получить совет по объединению калибровочных графиков / статистики после многократного вменения. В условиях разработки статистических моделей для прогнозирования будущего события (например, с использованием данных из больничных записей для прогнозирования выживаемости или событий после...

14
КНН импутации R пакетов

Я ищу пакет вменения KNN. Я искал пакет вменения ( http://cran.r-project.org/web/packages/imputation/imputation.pdf ), но по какой-то причине вменяемая функция KNN (даже если следовать примеру из описания) только кажется вменять нулевые значения (согласно ниже). Я оглядывался по сторонам, но пока...

13
используя информацию о соседях при вменении данных или находке вне данных (в R)

У меня есть набор данных с предположением, что ближайшие соседи являются лучшими предикторами. Просто прекрасный пример визуализации двухстороннего градиента Предположим, у нас есть случай, когда несколько значений отсутствуют, мы можем легко предсказать на основе соседей и тренда. Соответствующая...

12
Использование фильтров Калмана для расчета недостающих значений во временных рядах

Меня интересует, как фильтры Калмана могут использоваться для расчета отсутствующих значений в данных временных рядов. Это также применимо, если отсутствуют некоторые последовательные моменты времени? Я не могу найти много по этой теме. Любые объяснения, комментарии и ссылки приветствуются и...

12
Как выполнить вменение значений в очень большом количестве точек данных?

У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000,...

12
XGBoost может обрабатывать недостающие данные на этапе прогнозирования

Недавно я рассмотрел алгоритм XGBoost и заметил, что этот алгоритм может обрабатывать недостающие данные (не требуя вменения) на этапе обучения. Мне было интересно, может ли XGboost обрабатывать недостающие данные (не требуя вменения), когда он используется для прогнозирования новых наблюдений или...

11
Как справиться с отсутствующими значениями, чтобы подготовить данные для выбора функции с помощью LASSO?

Моя ситуация: небольшой размер выборки: 116 двоичная переменная результата длинный список объясняющих переменных: 44 объясняющие переменные не исходили из головы; их выбор был основан на литературе. В большинстве случаев в выборке и в большинстве переменных отсутствуют значения. Подход к выбору...

10
В чем преимущество вменения перед построением нескольких моделей в регрессии?

Интересно, может ли кто-нибудь дать некоторое представление о том, является ли лучше объяснение почему отсутствующие данные, чем простое построение различных моделей для случаев с отсутствующими данными. Особенно в случае [обобщенных] линейных моделей (возможно, я вижу, что в нелинейных случаях все...

10
Объединение двух временных рядов путем усреднения точек данных

Я хотел бы объединить прогнозируемые и обратные (то есть прогнозируемые прошлые значения) данных временного ряда в один временной ряд, сводя к минимуму среднеквадратичную ошибку прогноза. Скажем, у меня есть временные ряды 2001–2010 годов с разрывом на 2007 год. Я смог прогнозировать 2007 год с...

9
Импутация для учета систематической ошибки в ответах на опрос

У меня есть большой опрос, в котором ученикам задали, среди прочего, уровень образования их матери. Некоторые пропустили это, а некоторые ответили неправильно. Я знаю это, потому что там была проведена беседа с подвыборкой из первых респондентов матери, которые задали тот же вопрос. (Я уверен, что...

9
Множественное вложение для пропущенных данных подсчета во временном ряду из группового исследования

Я пытаюсь решить проблему, связанную с вменением недостающих данных из исследования данных панели (не уверен, правильно ли я использую «исследование данных панели» - как я узнал это сегодня.) У меня есть данные общего количества смертей за 2003 год до 2009 года, все месяцы, мужчины и женщины, для 8...