Вопросы с тегом «data-cleaning»

Очистка данных - это предварительный этап статистического анализа, при котором набор данных редактируется для исправления ошибок и преобразования его в форму, пригодную для обработки статистическим программным обеспечением.

42
Как я могу преобразовать имена в конфиденциальный набор данных, чтобы сделать его анонимным, но сохранить некоторые характеристики имен?

мотивация Я работаю с наборами данных, которые содержат информацию, позволяющую установить личность (PII), и иногда мне приходится делиться частью набора данных с третьими сторонами таким образом, чтобы не подвергать PII и не подвергать моего работодателя ответственности. Наш обычный подход -...

34
Организованные процессы для очистки данных

Из моего ограниченного увлечения наукой данных с использованием R я понял, что очистка плохих данных является очень важной частью подготовки данных для анализа. Существуют ли передовые практики или процессы для очистки данных перед их обработкой? Если да, существуют ли какие-либо автоматизированные...

29
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?

Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал...

18
Как аннотировать текстовые документы с метаданными?

Имея много текстовых документов (на естественном языке, неструктурированных), каковы возможные способы аннотирования их некоторыми семантическими метаданными? Например, рассмотрим короткий документ: I saw the company's manager last day. Чтобы иметь возможность извлекать информацию из нее, она...

18
есть ли инструмент для очистки данных для python / pandas, похожий на инструмент R tidyr?

Я работаю над проблемой Kaggle, где некоторые переменные представлены строками, а не столбцами (разрушение сети Telstra). В настоящее время я ищу эквивалент функции collect (), separa (() и spread (), который можно найти в инструменте R...

15
удаление строк после определенного символа в данном тексте

У меня есть набор данных, как показано ниже. Я хочу удалить все символы после символа ©. Как я могу сделать это в R? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <- as.data.frame(data_clean_phrase)...

14
Как сделать нечеткое совпадение почтовых адресов?

Я хотел бы знать, как сопоставить почтовые адреса, когда их формат отличается или когда один из них введен неправильно. Пока я нашел разные решения, но думаю, что они довольно старые и не очень эффективные. Я уверен, что существуют лучшие методы, так что если у вас есть ссылки для чтения, я уверен,...

14
Делают ли современные библиотеки R и / или Python SQL устаревшим?

Я работаю в офисе, где SQL Server является основой всего, что мы делаем, от обработки данных до очистки. Мой коллега специализируется на написании сложных функций и хранимых процедур для методической обработки входящих данных, чтобы их можно было стандартизировать и использовать в проектах отчетов,...

13
Преобразование столбца панд int в тип данных timestamp

У меня есть датафрейм, который среди прочего содержит столбец количества миллисекунд, прошедших с 1970-1-1. Мне нужно преобразовать этот столбец целых чисел в данные метки времени, чтобы затем я мог в конечном итоге преобразовать его в столбец данных даты и времени, добавив серию столбцов метки...

11
Сколько данных достаточно для обучения моей модели машинного обучения?

Я некоторое время работал над машинным обучением и биоинформатикой, и сегодня у меня был разговор с коллегой по основным общим вопросам интеллектуального анализа данных. Мой коллега (который является экспертом по машинному обучению) сказал, что, по его мнению, возможно, наиболее важный практический...

11
Существуют ли хорошие готовые языковые модели для Python?

Я создаю прототип приложения и мне нужна языковая модель для вычисления недоумения в некоторых сгенерированных предложениях. Есть ли в Python обученная языковая модель, которую я могу легко использовать? Что-то простое, как model = LanguageModel('en') p1 = model.perplexity('This is a well...

10
Лучшие языки для научных вычислений [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 5 лет назад . Похоже, что большинство языков имеют некоторое...

10
Создание новых столбцов путем перебора строк в панде.

У меня есть фрейм данных панд (X11), как это: На самом деле у меня есть 99 столбцов до dx99 dx1 dx2 dx3 dx4 0 25041 40391 5856 0 1 25041 40391 25081 5856 2 25041 40391 42822 0 3 25061 40391 0 0 4 25041 40391 0 5856 5 40391 25002 5856 3569 Я хочу создать дополнительный столбец (столбцы) для значений...