Вопросы с тегом «dataset»

14
Быстрые способы в R получить первую строку фрейма данных, сгруппированного по идентификатору [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Иногда мне нужно получить только первую строку набора данных, сгруппированную по идентификатору, как...

13
Лучшие способы агрегирования и анализа данных

Совсем недавно начав учить себя машинному обучению и анализу данных, я сталкиваюсь с необходимостью создавать и запрашивать большие наборы данных. Я хотел бы взять данные, которые я собирал в своей профессиональной и личной жизни, и проанализировать их, но я не уверен, как лучше сделать следующее:...

13
Отделение двух популяций от образца

Я пытаюсь отделить две группы значений из одного набора данных. Я могу предположить, что одна из популяций обычно распределена и составляет не менее половины размера выборки. Значения второго значения ниже или выше значений первого (распределение неизвестно). То, что я пытаюсь сделать, - это найти...

13
Где найти необработанные данные о клинических испытаниях? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Я хочу использовать необработанные данные о клинических испытаниях для сдачи экзаменов в магистратуру...

12
Примеры дорогостоящих последствий неправильного использования статистических инструментов

Я подозреваю, что большинство пользователей статистических инструментов являются вспомогательными пользователями (люди, которые практически не имели формального обучения статистике). Для исследователей и других специалистов очень заманчиво применять статистические методы к своим данным просто...

12
Идея сделать данные имеют среднее значение

Я часто вижу людей, делающих измерение / особенность набора данных нулевым средним, удаляя среднее из всех элементов. Но я так и не понял, зачем это делать? Каков эффект от этого в качестве шага предварительной обработки? Улучшает ли это эффективность классификации? Помогает ли это что-то ответить...

12
Лучшие практики для создания «аккуратных данных»

В прошлом году Хэдли Уикхем написала в JSS звездную статью под названием «Tidy Data» ( ссылка ) о манипулировании данными и приведении данных в «оптимальное» состояние для выполнения анализа. Однако мне было интересно, каковы наилучшие методы представления табличных данных в рабочих условиях?...

12
Почему некоторые люди проверяют допущения регрессионных моделей на своих необработанных данных, а другие проверяют их на остаточных данных?

Я аспирант в области экспериментальной психологии, и я стараюсь улучшить свои навыки и знания о том, как анализировать мои данные. До пятого курса психологии я думал, что регрессионные модели (например, ANOVA) предполагают следующее: нормальность данных однородность дисперсии для данных и так далее...

12
Лучший способ просто хранить данные для статистического анализа в R [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 6 лет назад . Я уже некоторое время использую текстовые файлы для хранения своих данных для R без каких-либо...

12
Различия между PROC Mixed и lme / lmer в R - степени свободы

Примечание: этот вопрос является репостом, так как мой предыдущий вопрос пришлось удалить по юридическим причинам. Сравнивая PROC MIXED из SAS с функцией lmeиз nlmeпакета в R, я наткнулся на некоторые довольно запутанные различия. Более конкретно, степени свободы в разных тестах различаются между...

11
Как много информации вы можете извлечь из имени?

Имя: имя, отчество, фамилия. Мне интересно, сколько информации вы можете извлечь из имени, используя общедоступные наборы данных. Я знаю, что вы можете получить следующее с любой низкой вероятностью (в зависимости от входных данных), используя данные переписи США: 1) Пол. 2) Гонка. Например,...

11
Какой алгоритм я должен использовать, чтобы разбить огромный набор двоичных данных на несколько категорий?

У меня есть большая (650K строк * 62 столбцов) матрица двоичных данных (только 0-1 записей). Матрица в основном скудная: около 8% заполнено. Я хотел бы разбить его на 5 групп, скажем, с именами от 1 до 5. Я пробовал иерархическую кластеризацию, и она не смогла обработать размер. Я также использовал...

11
Практическое пособие по PCA с данными

Поиск в Интернете учебника PCA дает тысячи результатов (даже видео). Многие учебники очень хороши. Но я не могу найти практического примера, где PCA объясняется с использованием некоторых наборов данных, которые я могу использовать для демонстрации. Мне нужен учебник, который предоставляет...

11
Хорошие книги, посвященные методам предварительной обработки данных и обнаружения выбросов

Как гласит заголовок, знает ли кто-нибудь хорошую, современную книгу, которая описывает предварительную обработку данных в целом и особенно методы обнаружения выбросов? Книга не должна быть сосредоточена исключительно на этом, но она должна быть исчерпывающе затронута вышеупомянутыми темами - я не...

11
Оптимальное биннинг по отношению к заданной переменной отклика

Я ищу оптимальный метод биннинга (дискретизации) непрерывной переменной по отношению к заданной ответной (целевой) двоичной переменной и с максимальным количеством интервалов в качестве параметра. пример: у меня есть набор наблюдений за людьми с переменными "высота" (цифра непрерывная) и...

11
Является ли разделение данных на тестовые и обучающие наборы чисто статистическими данными?

Я студент-физик, изучающий машинное обучение / науку о данных, поэтому я не хочу, чтобы этот вопрос вызвал какие-либо конфликты :) Однако большая часть любой программы по физике для студентов-физиков - это проведение лабораторных работ / экспериментов, что означает много данных. обработка и...

10
Должны ли типы данных (номинальные / порядковые / интервалы / отношения) действительно рассматриваться как типы переменных?

Так, например, вот определения, которые я получаю из стандартных учебников Переменная - характеристика популяции или выборки. ех. Цена акции или оценки на тест Данные - фактические наблюдаемые значения Итак, для отчета из двух столбцов [Имя | Income] имена столбцов будут переменными и фактическими...

10
Ошибки обработки данных уже «учтены» в статистическом анализе?

Хорошо, честное предупреждение - это философский вопрос, в котором нет цифр. Я много размышлял о том, как ошибки проникают в наборы данных с течением времени и как это следует обрабатывать аналитикам - или это вообще должно иметь значение? Для справки, я делаю анализ долгосрочного исследования,...