Вопросы с тегом «eda»

EDA расшифровывается как «Исследовательский анализ данных». Разработано Tukey для сравнения с Confirmatory Data Analysis или CDA (формальное тестирование гипотез). EDA, как правило, занимается числовым и графическим описанием данных, чтобы их было легче понять и получить новое понимание.

85
Практические правила для «современной» статистики

Мне нравится книга Дж. Ван Белля о статистических правилах большого пальца и, в меньшей степени, распространенные ошибки в статистике (и как их избежать) от Филиппа Гуда и Джеймса У. Хардина. Они учитывают распространенные ошибки при интерпретации результатов экспериментальных и наблюдательных...

52
Современный преемник исследовательского анализа данных Тьюки?

Я читал книгу Тьюки "Исследовательский анализ данных". Книга, написанная в 1977 году, делает упор на бумажных / карандашных методах. Есть ли более «современный» преемник, который учитывает, что теперь мы можем мгновенно строить большие наборы данных?...

39
Функция графического обзора данных (сводная) в R

Я уверен, что раньше я сталкивался с подобной функцией в пакете R, но после интенсивного поиска в Google я, кажется, нигде не могу ее найти. Функция, о которой я думаю, создала графическое резюме для заданной ей переменной, создавая вывод с некоторыми графиками (гистограммой и, возможно, графиком с...

30
Данные «разведка» против данных «слежка» / «пытки»?

Много раз я сталкивался с неофициальными предупреждениями против «отслеживания данных» (вот один забавный пример ), и я думаю, что у меня есть интуитивное представление о том, что это значит, и почему это может быть проблемой. С другой стороны, «исследовательский анализ данных» представляется...

29
Поддержал ли журнал Science анализ анализов в Саду Форка?

Идея адаптивного анализа данных заключается в том, что вы меняете свой план анализа данных, когда узнаете о них больше. В случае исследовательского анализа данных (EDA) это, как правило, хорошая идея (вы часто ищете непредвиденные закономерности в данных), но для подтверждающего исследования это...

25
Как справиться с поисковым анализом данных и дноуглубительными работами в исследованиях малых выборок?

Исследовательский анализ данных (EDA) часто приводит к исследованию других «следов», которые не обязательно принадлежат исходному набору гипотез. Я сталкиваюсь с такой ситуацией в случае исследований с ограниченным размером выборки и большим количеством данных, собранных с помощью различных...

23
Важен ли исследовательский анализ данных при чисто прогностическом моделировании?

При построении прогностической модели с использованием методов машинного обучения, какой смысл проводить исследовательский анализ данных (EDA)? Можно ли сразу перейти к генерации объектов и созданию вашей модели? Как важна описательная статистика, используемая в...

23
Ошибка стрелка из Техаса в анализе поисковых данных

Я читал эту статью в Природе, в которой некоторые ошибки объясняются в контексте анализа данных. Я заметил, что ошибки техасского снайпера было особенно трудно избежать: Когнитивная ловушка, которая ожидает во время анализа данных, проиллюстрирована басней о техасском снайпере: неумелый меткий...

22
Что выучить после Casella & Berger?

Я чистый аспирант с небольшим опытом в прикладной математике. С прошлой осени я посещал занятия по книге Казеллы и Бергера, и я закончил сотни (более 230) страниц с упражнениями в книге. Прямо сейчас я нахожусь в главе 10. Однако, поскольку я не специализировался в статистике или планировал стать...

22
Как контролировать предварительные анализы больших наборов данных?

Когда я начинаю исследовательский анализ большого набора данных (много выборок, много переменных), я часто оказываюсь с сотнями производных переменных и тоннами разных графиков, и у меня нет реального способа отслеживать, что и где происходит. Код заканчивается как спагетти, потому что нет...

20
Идеи для «лабораторного ноутбука»?

Так что это странная подгонка, хотя на самом деле я думаю, что это странная подгонка для любого сайта, поэтому я решил попробовать это здесь, среди моих собратьев по обработке данных. Я пришел к эпидемиологии и биостатистике из биологии, и у меня все еще есть определенные привычки в этой области....

20
Что такое «эффект подковы» и / или «эффект арки» в PCA / анализе соответствия?

Существует много методов в экологической статистике для анализа разведочных данных многомерных данных. Это так называемые техники рукоположения. Многие из них совпадают или тесно связаны с общими методами в других областях статистики. Возможно, прототипным примером будет анализ основных компонентов...

16
Как провести исследовательский анализ данных, чтобы выбрать подходящий алгоритм машинного обучения

Мы изучаем машинное обучение с помощью машинного обучения: вероятностная перспектива (Кевин Мерфи). Хотя в тексте объясняется теоретическая основа каждого алгоритма, в нем редко говорится, в каком случае какой алгоритм лучше, а когда - нет, но не говорится, как определить, в каком случае я...

15
Лучше ли проводить анализ разведочных данных только на наборе обучающих данных?

Я делаю предварительный анализ данных (EDA) на наборе данных. Затем я выберу некоторые функции для прогнозирования зависимой переменной. Вопрос в том, должен ли я делать EDA только для своего набора данных для обучения? Или я должен объединить учебные и тестовые наборы данных, а затем выполнить EDA...

15
Хороший способ показать много данных в графическом виде

Я работаю над проектом, который включает 14 переменных и 345 000 наблюдений для данных о жилье (такие как год постройки, квадратные метры, проданная цена, округ проживания и т. Д.). Меня интересует попытка найти хорошие графические методы и библиотеки R, которые содержат хорошие методы построения...

14
Есть ли различия в байесовских и частых подходах к EDA?

Проще говоря: есть ли различия в байесовском и частом подходах к исследовательскому анализу данных? Я не знаю присущих методов EDA, поскольку гистограмма - это гистограмма, диаграмма рассеяния - это диаграмма рассеяния и т. Д., А также я не нашел примеров различий в том, как преподается или...

14
Блок-схемы, помогающие выбрать правильную методику анализа и тестирования

Как человек, который нуждается в статистических знаниях, но не является формально обученным статистиком, я бы счел полезным иметь блок-схему (или какое-то дерево решений), чтобы помочь мне выбрать правильный подход для решения конкретной проблемы (например, " нужно ли это и знать то и то и считать...

13
Лучшие способы агрегирования и анализа данных

Совсем недавно начав учить себя машинному обучению и анализу данных, я сталкиваюсь с необходимостью создавать и запрашивать большие наборы данных. Я хотел бы взять данные, которые я собирал в своей профессиональной и личной жизни, и проанализировать их, но я не уверен, как лучше сделать следующее:...

13
Пакет R для определения отношений между переменными [закрыт]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 4 года назад . Есть ли пакет R, который я могу использовать, чтобы выяснить, существуют ли отношения между...

12
Разница между поисковым и подтверждающим факторным анализом при определении независимости конструкции

Исследователи часто используют две меры, которые имеют очень похожие предметы, и утверждают, что они измеряют разные вещи (например, «я всегда волнуюсь, когда я рядом с машинами»; «я боюсь машин»). Назовем гипотетические меры «Мера страха перед автомобилем» и «Беспокойство от автомобильной шкалы»....