Вопросы с тегом «missing-data»

16
Как заполнить недостающие данные во временных рядах?

У меня есть большой набор данных о загрязнении, который регистрируется каждые 10 минут в течение двух лет, однако в этих данных есть ряд пробелов (в том числе некоторые, которые проводятся по несколько недель за раз). Данные кажутся довольно сезонными, и в течение дня наблюдаются большие различия...

16
Как рассчитать среднюю продолжительность приверженности вегетарианству, когда у нас есть только данные опросов о текущих вегетарианцах?

Была обследована случайная выборка населения. Их спросили, придерживаются ли они вегетарианской диеты. Если они ответили «да», их также попросили указать, как долго они питались вегетарианской диетой без перерыва. Я хочу использовать эти данные для расчета средней продолжительности приверженности...

15
Точность градиентной машины уменьшается с увеличением числа итераций

Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create...

15
Какова интуиция за сменными образцами при нулевой гипотезе?

Тесты перестановки (также называемые тестом рандомизации, тестом повторной рандомизации или точным тестом) очень полезны и оказываются полезными, когда предположение о нормальном распределении, требуемое, например, t-testне выполняется, и когда преобразование значений путем ранжирования...

14
Работа с наборами данных с переменным количеством функций

Каковы некоторые подходы для классификации данных с переменным количеством признаков? В качестве примера рассмотрим проблему, в которой каждая точка данных представляет собой вектор точек x и y, и у нас не одинаковое количество точек для каждого экземпляра. Можем ли мы рассматривать каждую пару...

14
Работа с отсутствующими данными в модели экспоненциального сглаживания

Похоже, не существует стандартного способа справиться с отсутствующими данными в контексте семейства моделей экспоненциального сглаживания. В частности, реализация R, называемая ets в пакете прогноза , кажется, просто берет самую длинную подпоследовательность без пропущенных данных, и книга...

14
Можно ли восстановить нормальное распределение по размеру выборки, а также по минимальным и максимальным значениям? Я могу использовать среднюю точку для прокси среднего

Я знаю, что это может быть немного странно, статистически, но это моя проблема. У меня много данных о диапазоне, то есть минимальный, максимальный и размер выборки переменной. Для некоторых из этих данных у меня также есть среднее, но не много. Я хочу сравнить эти диапазоны друг с другом, чтобы...

13
Различение отсутствующих наугад (MAR) от отсутствующих наугад (MCAR)

Мне эти два объяснили несколько раз. Они продолжают готовить мой мозг. Пропустить не случайно имеет смысл быть, а Пропустить совершенно случайно имеет смысл ... это Пропадает случайно, что не так много. Что дает данные, которые будут MAR, но не...

13
Множественное вменение для пропущенных значений

Я хотел бы использовать вменение для замены отсутствующих значений в моем наборе данных при определенных ограничениях. Например, я бы хотел, чтобы вмененная переменная x1была больше или равна сумме двух других моих переменных, скажем, x2и x3. Я также хочу x3быть вмененным либо 0или, >= 14и я...

12
Как выполнить вменение значений в очень большом количестве точек данных?

У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000,...

12
Как мне справиться с несуществующими или отсутствующими данными?

Я попробовал метод прогнозирования и хочу проверить, является ли мой метод правильным или нет. Мое исследование сравнивает различные виды взаимных фондов. Я хочу использовать индекс GCC в качестве ориентира для одного из них, но проблема в том, что индекс GCC остановился в сентябре 2011 года, а мое...

12
Как обрабатывать значения NA в методе усадки (лассо) с использованием glmnet

Я использую "glmnet" для регрессии лассо в GWAS. Некоторые варианты и отдельные лица имеют пропущенные значения, и кажется, что glmnet не может обработать пропущенные значения. Есть ли решение для этого? или есть другой пакет, который может обрабатывать пропущенные значения в регрессии Лассо? Вот...

12
Есть ли серьезная проблема с отбрасыванием наблюдений с пропущенными значениями при расчете матрицы корреляции?

У меня есть этот огромный набор данных с примерно 2500 переменными и примерно 142 наблюдениями. Я хочу запустить корреляцию между переменной X и остальными переменными. Но для многих столбцов пропущены записи. Я попытался сделать это в R, используя аргумент "pairple-complete" (...

12
Как можно справиться с отсутствующими данными при использовании сплайнов или дробных полиномов?

Я читаю построение многомерной модели: прагматический подход к регрессионному анализу, основанный на дробных полиномах для моделирования непрерывных переменных, автор Патрик Ройстон и Вилли Сауэрбрей. Пока что я впечатлен, и это интересный подход, который я раньше не рассматривал. Но авторы не...

12
STL на временных рядах с пропущенными значениями для обнаружения аномалий

Я пытаюсь обнаружить аномальные значения во временном ряду климатических данных с некоторыми отсутствующими наблюдениями. При поиске в Интернете я нашел много доступных подходов. Из них stl разложение кажется привлекательным в смысле удаления трендовых и сезонных компонентов и изучения остатка....

12
80% пропущенных данных в одной переменной

Есть одна переменная в моих данных, 80% из которых отсутствуют. Данные отсутствуют из-за отсутствия (то есть, сколько банковского кредита компания должна). Я наткнулся на статью, в которой говорится, что метод корректировки фиктивной переменной является решением этой проблемы. То есть мне нужно...

12
XGBoost может обрабатывать недостающие данные на этапе прогнозирования

Недавно я рассмотрел алгоритм XGBoost и заметил, что этот алгоритм может обрабатывать недостающие данные (не требуя вменения) на этапе обучения. Мне было интересно, может ли XGboost обрабатывать недостающие данные (не требуя вменения), когда он используется для прогнозирования новых наблюдений или...

12
Методы обработки неполных / отсутствующих данных

Мой вопрос направлен на методы работы с неполными данными во время обучения / подгонки классификатора / модели. Например, в наборе данных с несколькими сотнями строк, каждая строка, скажем, пять измерений и метка класса в качестве последнего элемента, большинство точек данных будут выглядеть так:...

11
R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и...

11
Как обрабатывать несуществующие (не пропущенные) данные?

Я никогда не нашел ни одного хорошего текста или примеров того, как обрабатывать «несуществующие» данные для входов в какой-либо классификатор. Я много читал о пропущенных данных, но что можно сделать с данными, которые не могут или не существуют в отношении многомерных входных данных. Я понимаю,...