Я планирую что-то, чтобы подчеркнуть себя или кого-то еще. Обычно вопрос начинает этот процесс, и часто спрашивающий надеется на конкретный ответ.
Как я могу узнать интересные вещи о данных менее предвзятым способом?
Прямо сейчас я примерно следую этому методу:
- Сводные статистические данные.
- Stripchart.
- Разброс сюжета.
- Может быть, повторить с интересным подмножеством данных.
Но это не кажется методическим или научным.
Существуют ли руководящие принципы или процедуры, которые следует соблюдать, которые раскрывают информацию о данных, о которых я даже не подумал бы спросить? Как я узнаю, когда я сделал адекватный анализ?
Если у вас есть хронологические данные, то есть данные временного ряда, тогда существуют «известные» и ожидающие обнаружения «неизвестные». Например, если у вас есть последовательность точек данных для 10 периодов, таких как 1,9,1,9,1,5,1,9,1,9, то на основе этой выборки можно разумно ожидать 1,9,1,9 ... возникать в будущем. Анализ данных показывает, что существует «необычное» чтение в период 6, даже если оно находится в пределах + -3 сигма-пределов, предполагая, что DGF не сохранился. Разоблачение Inlier / Outlier позволяет нам раскрывать информацию о данных. Также отметим, что среднее значение не является ожидаемым. Эта идея легко распространяется на обнаружение средних сдвигов и / или трендов местного времени, которые могли быть неизвестны до анализа данных (генерация гипотез). Теперь вполне возможно, что следующие 10 чтений также 1,9,1,9, 1,5,1,9,1,9, предполагая, что «5» не обязательно является неблагоприятным. Если мы наблюдаем процесс ошибки из подходящей модели, которая демонстрирует доказуемую непостоянную дисперсию, мы можем обнаружить одно из следующих состояний: 1) параметры могли измениться в определенный момент времени; 2. Может потребоваться взвешенный анализ (GLS); 3. Может возникнуть необходимость в преобразовании данных с помощью степенного преобразования; 4. Может возникнуть необходимость смоделировать дисперсию ошибок. Если у вас есть ежедневные данные, то хороший анализ может выявить, что существует окно реакции (структура опережающего, современного и отставания) вокруг каждого праздника, отражающее последовательное / предсказуемое поведение. Вы также можете обнаружить, что определенные дни месяца оказывают существенное влияние или что пятницы перед выходными в понедельник имеют исключительную активность. 9, предполагая, что «5» не обязательно плохо. Если мы наблюдаем процесс ошибки из подходящей модели, которая демонстрирует доказуемую непостоянную дисперсию, мы можем обнаружить одно из следующих состояний: 1) параметры могли измениться в определенный момент времени; 2. Может потребоваться взвешенный анализ (GLS); 3. Может возникнуть необходимость в преобразовании данных с помощью степенного преобразования; 4. Может возникнуть необходимость смоделировать дисперсию ошибок. Если у вас есть ежедневные данные, то хороший анализ может выявить, что существует окно реакции (структура опережающего, современного и отставания) вокруг каждого праздника, отражающее последовательное / предсказуемое поведение. Вы также можете обнаружить, что определенные дни месяца оказывают существенное влияние или что пятницы перед выходными в понедельник имеют исключительную активность. 9, предполагая, что «5» не обязательно плохо. Если мы наблюдаем процесс ошибки из подходящей модели, которая демонстрирует доказуемую непостоянную дисперсию, мы можем обнаружить одно из следующих состояний: 1) параметры могли измениться в определенный момент времени; 2. Может потребоваться взвешенный анализ (GLS); 3. Может возникнуть необходимость в преобразовании данных с помощью степенного преобразования; 4. Может возникнуть необходимость смоделировать дисперсию ошибок. Если у вас есть ежедневные данные, то хороший анализ может выявить, что существует окно реакции (структура опережающего, современного и отставания) вокруг каждого праздника, отражающее последовательное / предсказуемое поведение. Вы также можете обнаружить, что определенные дни месяца оказывают существенное влияние или что пятницы перед выходными в понедельник имеют исключительную активность. не обязательно плохо. Если мы наблюдаем процесс ошибки из подходящей модели, которая демонстрирует доказуемую непостоянную дисперсию, мы можем обнаружить одно из следующих состояний: 1) параметры могли измениться в определенный момент времени; 2. Может потребоваться взвешенный анализ (GLS); 3. Может возникнуть необходимость в преобразовании данных с помощью степенного преобразования; 4. Может возникнуть необходимость смоделировать дисперсию ошибок. Если у вас есть ежедневные данные, то хороший анализ может выявить, что существует окно реакции (структура опережающего, современного и отставания) вокруг каждого праздника, отражающее последовательное / предсказуемое поведение. Вы также можете обнаружить, что определенные дни месяца оказывают существенное влияние или что пятницы перед выходными в понедельник имеют исключительную активность. не обязательно плохо. Если мы наблюдаем процесс ошибки из подходящей модели, которая демонстрирует доказуемую непостоянную дисперсию, мы можем обнаружить одно из следующих состояний: 1) параметры могли измениться в определенный момент времени; 2. Может потребоваться взвешенный анализ (GLS); 3. Может возникнуть необходимость в преобразовании данных с помощью степенного преобразования; 4. Может возникнуть необходимость смоделировать дисперсию ошибок. Если у вас есть ежедневные данные, то хороший анализ может выявить, что существует окно реакции (структура опережающего, современного и отставания) вокруг каждого праздника, отражающее последовательное / предсказуемое поведение. Вы также можете обнаружить, что определенные дни месяца оказывают существенное влияние или что пятницы перед выходными в понедельник имеют исключительную активность. Если мы наблюдаем процесс ошибки из подходящей модели, которая демонстрирует доказуемую непостоянную дисперсию, мы можем обнаружить одно из следующих состояний: 1) параметры могли измениться в определенный момент времени; 2. Может потребоваться взвешенный анализ (GLS); 3. Может возникнуть необходимость в преобразовании данных с помощью степенного преобразования; 4. Может возникнуть необходимость смоделировать дисперсию ошибок. Если у вас есть ежедневные данные, то хороший анализ может выявить, что существует окно реакции (структура опережающего, современного и отставания) вокруг каждого праздника, отражающее последовательное / предсказуемое поведение. Вы также можете обнаружить, что определенные дни месяца оказывают существенное влияние или что пятницы перед выходными в понедельник имеют исключительную активность. Если мы наблюдаем процесс ошибки из подходящей модели, которая демонстрирует доказуемую непостоянную дисперсию, мы можем обнаружить одно из следующих состояний: 1) параметры могли измениться в определенный момент времени; 2. Может потребоваться взвешенный анализ (GLS); 3. Может возникнуть необходимость в преобразовании данных с помощью степенного преобразования; 4. Может возникнуть необходимость смоделировать дисперсию ошибок. Если у вас есть ежедневные данные, то хороший анализ может выявить, что существует окно реакции (структура опережающего, современного и отставания) вокруг каждого праздника, отражающее последовательное / предсказуемое поведение. Вы также можете обнаружить, что определенные дни месяца оказывают существенное влияние или что пятницы перед выходными в понедельник имеют исключительную активность. Там может быть необходимость взвешенного анализа (GLS); 3. Может возникнуть необходимость в преобразовании данных с помощью степенного преобразования; 4. Может возникнуть необходимость смоделировать дисперсию ошибок. Если у вас есть ежедневные данные, то хороший анализ может выявить, что существует окно реакции (структура опережающего, современного и отставания) вокруг каждого праздника, отражающее последовательное / предсказуемое поведение. Вы также можете обнаружить, что определенные дни месяца оказывают существенное влияние или что пятницы перед выходными в понедельник имеют исключительную активность. Там может быть необходимость взвешенного анализа (GLS); 3. Может возникнуть необходимость в преобразовании данных с помощью степенного преобразования; 4. Может возникнуть необходимость смоделировать дисперсию ошибок. Если у вас есть ежедневные данные, то хороший анализ может выявить, что существует окно реакции (структура опережающего, современного и отставания) вокруг каждого праздника, отражающее последовательное / предсказуемое поведение. Вы также можете обнаружить, что определенные дни месяца оказывают существенное влияние или что пятницы перед выходными в понедельник имеют исключительную активность. современная и запаздывающая структура) вокруг каждого праздника, отражающая последовательное / предсказуемое поведение. Вы также можете обнаружить, что определенные дни месяца оказывают существенное влияние или что пятницы перед выходными в понедельник имеют исключительную активность. современная и запаздывающая структура) вокруг каждого праздника, отражающая последовательное / предсказуемое поведение. Вы также можете обнаружить, что определенные дни месяца оказывают существенное влияние или что пятницы перед выходными в понедельник имеют исключительную активность.
источник
Сбор данных может быть разбит на две категории. Если вы заинтересованы в измерении влияния набора данных / переменных на конкретную переменную, то это будет считаться контролируемым обучением. Для глубокого и исследовательского обучения без цели вы проходите обучение без учителя.
Графический и статистический анализ данных (понимание распределения и получение интуиции) являются первыми шагами.
источник