Вопросы с тегом «data-cleaning»

16
Очистка данных несовместимого формата в R?

Я часто имею дело с грязными данными опросов, которые требуют большой очистки, прежде чем можно будет сделать какую-либо статистику. Я делал это вручную в Excel, иногда используя формулы Excel, а иногда проверял записи по одному. Я начал выполнять все больше и больше этих задач, написав сценарии...

13
Современное состояние дедупликации

Каковы современные методы дедупликации записей? Дедупликацию также иногда называют: связывание записи, разрешение объекта, разрешение идентификатора, объединение / очистка. Я знаю, например, о CBLOCK [1]. Я был бы признателен, если бы ответы также включали ссылки на существующее программное...

12
Каков наилучший способ изменить / реструктурировать данные?

Я научный сотрудник лаборатории (волонтер). Мне и небольшой группе было поручено провести анализ данных для набора данных, извлеченных из большого исследования. К сожалению, данные были собраны с помощью какого-то онлайн-приложения, и оно не было запрограммировано на вывод данных в наиболее удобной...

10
Автоматическая очистка данных

Общей проблемой является ML низкого качества данных: ошибки в значениях признаков, неправильно классифицированные экземпляры и т. Д. Один из способов решения этой проблемы - вручную просмотреть данные и проверить, но есть ли другие способы? (Бьюсь об заклад, есть!) Какие из них лучше и...

9
Создание «демо» данных из реальных данных: маскировка без уродства

(Я понятия не имею, с чем это пометить, потому что я не статистик и не знаю, к какому полю это относится. Не стесняйтесь добавлять более подходящие теги.) Я работаю в компании, которая производит программное обеспечение для анализа данных, и нам нужен приличный набор данных для тестирования и...