Вопросы с тегом «missing-data»

11
Как обрабатывать несуществующие (не пропущенные) данные?

Я никогда не нашел ни одного хорошего текста или примеров того, как обрабатывать «несуществующие» данные для входов в какой-либо классификатор. Я много читал о пропущенных данных, но что можно сделать с данными, которые не могут или не существуют в отношении многомерных входных данных. Я понимаю,...

10
В чем преимущество вменения перед построением нескольких моделей в регрессии?

Интересно, может ли кто-нибудь дать некоторое представление о том, является ли лучше объяснение почему отсутствующие данные, чем простое построение различных моделей для случаев с отсутствующими данными. Особенно в случае [обобщенных] линейных моделей (возможно, я вижу, что в нелинейных случаях все...

10
Почему Anova () и drop1 () предоставили разные ответы для GLMM?

У меня есть GLMM формы: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Когда я использую drop1(model, test="Chi"), я получаю другие результаты, чем если бы я использовал Anova(model, type="III")из пакета автомобиля или summary(model). Последние...

10
Является ли взвешивание, основанное на точности (т.е. обратная дисперсия), неотъемлемой частью мета-анализа?

Является ли основанное на точности взвешивание центральным для мета-анализа? Боренштейн и соавт. (2009) пишут, что для мета-анализа все, что необходимо, это то, что: Исследования сообщают о точечной оценке, которая может быть выражена одним числом. Дисперсия может быть вычислена для этой точечной...

10
Отсутствующие значения в переменной ответа в JAGS

Гельман и Хилл (2006) говорят: В ошибках, пропущенные результаты в регрессии могут быть легко обработаны, просто включив вектор данных, NA и все. Ошибка явно моделирует выходную переменную, и поэтому тривиально использовать эту модель, чтобы влиять на пропущенные значения на каждой итерации. Это...

9
Как определить, подходит ли модель выживания с отсутствующими данными?

Проще говоря, у меня есть около миллиона записей, которые записывают время входа и выхода людей в системе, охватывающей около десяти лет. У каждой записи есть время входа, но не у каждой записи есть время выхода. Среднее время в системе составляет ~ 1 год. Отсутствующие времена выхода происходят по...

9
Включение более подробных объяснительных переменных с течением времени

Я пытаюсь понять, как мне лучше всего смоделировать переменную, где со временем я получаю все более детальные предсказатели. Например, рассмотрим моделирование ставок восстановления по просроченным кредитам. Предположим, у нас есть набор данных с данными за 20 лет, и за первые 15 из этих лет мы...

9
Как определить, существенно ли отличаются две корреляции?

Я хочу определить, какой из двух наборов данных (B1, B2) лучше соотносит (Pearsons r) с другим набором (A). Во всех наборах данных отсутствуют данные. Как я могу определить, существенно ли отличается результирующая корреляция или нет? Например, значения 8426 присутствуют как в A, так и в B1, r =...

9
Корреляция между двумя переменными неравного размера

В проблеме, над которой я работаю, у меня есть две случайные переменные, X и Y. Мне нужно выяснить, насколько тесно коррелированы две из них, но они имеют разные измерения. Ранг пространства строк X равен 4350, а ранг пространства строк Y существенно больше, в десятки тысяч. И X, и Y имеют...

9
Обработка уровней «Не знаю / Отказ» категориальных переменных

Я моделирую прогнозирование диабета с помощью логистической регрессии. Используемый набор данных представляет собой систему наблюдения за поведенческим фактором риска (BRFSS) Центра контроля заболеваний (CDC). Одной из независимых переменных является высокое кровяное давление. Он категорически со...

9
Как бороться с пробелами / NaN в данных временных рядов при использовании Matlab для автокорреляции и нейронных сетей?

У меня есть временной ряд измерений (высота-одномерный ряд). В период наблюдения процесс измерения замедлился на несколько моментов времени. Таким образом, полученные данные представляют собой вектор с NaN, где в данных были пробелы. Используя MATLAB, это вызывает у меня проблему при вычислении...

9
Множественная регрессия с отсутствующей переменной-предиктором

Предположим, нам дан набор данных в форме и . Нам дана задача прогнозирования на основе значений . Мы оцениваем две регрессии, где: ( y , x 1 , x 2 , ⋯ , x n - 1 ) y x y( у, х1, х2, ⋯ , хN)(Y,Икс1,Икс2,⋯,ИксN)(y,x_{1},x_{2},\cdots, x_{n})( у, х1, х2, ⋯ , хn -...

9
Схемы альтернативного взвешивания для мета-анализа случайных эффектов: отсутствуют стандартные отклонения

Я работаю над метаанализом случайных эффектов, охватывающим ряд исследований, в которых не сообщается о стандартных отклонениях; все исследования указывают размер выборки. Я не верю, что можно приблизить или приписать отсутствующие данные SD. Как метаанализ, который использует сырые (нестандартные)...

9
Как сравнить наблюдаемые и ожидаемые события?

Предположим, у меня есть одна выборка частот из 4 возможных событий: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 и у меня есть ожидаемые вероятности того, что мои события произойдут: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 С суммой наблюдаемых частот моих четырех событий (18) я могу рассчитать ожидаемые частоты...

9
Прогнозирование с помощью randomForest (R), когда некоторые входные данные имеют пропущенные значения (NA)

У меня есть прекрасная randomForestклассификационная модель, которую я хотел бы использовать в приложении, которое предсказывает класс нового случая. В новом случае неизбежно отсутствуют значения. Прогноз не будет работать как таковой для АН. Как мне тогда это сделать? data(iris) # create first the...