Каковы основные различия между разреженными данными и отсутствующими данными? И как это влияет на машинное обучение? В частности, как редкие и отсутствующие данные влияют на алгоритмы классификации и регрессионные (прогнозирующие числа) типы алгоритмов. Я говорю о ситуации, когда процент пропущенных данных значителен, и мы не можем удалить строки, содержащие пропущенные данные.
machine-learning
dataset
missing-data
sparse
уставший и скучающий разработчик
источник
источник
Ответы:
Для простоты понимания я опишу это на примере. Допустим, вы собираете данные с устройства, которое имеет 12 датчиков. И вы собрали данные за 10 дней.
Данные, которые вы собрали, следующие:
Это называется разреженными данными, потому что большинство выходных сигналов датчика равно нулю. Это означает, что эти датчики работают нормально, но фактические показания равны нулю. Хотя эта матрица имеет данные большого размера (12 осей), можно сказать, что она содержит меньше информации.
Допустим, 2 датчика вашего устройства неисправны.
Тогда ваши данные будут такими:
В этом случае вы можете видеть, что вы не можете использовать данные от Sensor1 и Sensor6. Либо вы должны заполнить данные вручную, не влияя на результаты, либо вам придется повторить эксперимент.
источник