У меня есть четыре числовые переменные. Все они являются показателями качества почвы. Чем выше переменная, тем выше качество. Диапазон для всех них различен:
Вар1 от 1 до 10
Вар2 от 1000 до 2000
Вар3 от 150 до 300
Вар4 от 0 до 5
Мне нужно объединить четыре переменные в один показатель качества почвы, который будет успешно ранжировать порядок.
Моя идея очень проста. Стандартизируйте все четыре переменные, суммируйте их, и все, что вы получите, будет счетом, который должен быть ранжирован. Видите ли вы какие-либо проблемы с применением этого подхода. Есть ли другой (лучший) подход, который вы бы порекомендовали?
Благодарность
Редактировать:
Спасибо, парни. Много дискуссий было посвящено «экспертизе предметной области» ... Сельскохозяйственным вещам ... В то время как я ожидал больше статистики. С точки зрения техники, которую я буду использовать ... Это, вероятно, будет простое суммирование по z-шкале + логистическая регрессия в качестве эксперимента. Поскольку подавляющее большинство образцов имеет низкое качество 90%, я собираюсь объединить 3 категории качества в одну и, в основном, иметь двоичную проблему (некоторое качество против некачественного). Я убиваю двух зайцев одним выстрелом. Я увеличиваю свою выборку с точки зрения частоты событий и использую экспертов, заставляя их классифицировать мои образцы. Классифицированные образцы экспертов затем будут использованы для соответствия модели log-reg, чтобы максимизировать уровень согласованности / несогласованности с экспертами .... Как это звучит для вас?
Кто-нибудь смотрел на Рассел Дж. Конгальтон «Обзор оценки точности классификаций данных дистанционного зондирования» 1990 года. Он описывает технику, известную как матрица ошибок для изменяющихся матриц, также он использует термин «нормализация данных», при котором каждый получает все разные векторы и «нормализует» или устанавливает их равными от 0 до 1. Вы в основном меняете все векторы на равные диапазоны от 0 до 1.
источник
Еще одна вещь, которую вы не обсуждали, это масштаб измерений. V1 и V5 выглядят так, как будто они ранжируются, а другие - нет. Таким образом, стандартизация может исказить счет. Поэтому вам может быть лучше преобразовать все переменные в ранги и определить вес для каждой переменной, поскольку маловероятно, что они имеют одинаковый вес. Равное взвешивание больше по умолчанию «нет ничего». Возможно, вы захотите провести некоторый корреляционный или регрессионный анализ, чтобы получить некоторые априорные веса.
источник
В ответ на ответ Ральфа Уинтерса вы можете использовать PCA (анализ основных компонентов) в матрице соответственно стандартизированных баллов. Это даст вам «естественный» весовой вектор, который вы можете использовать для объединения будущих результатов.
Сделайте это также после того, как все оценки были преобразованы в ранги. Если результаты очень похожи, у вас есть веские причины для продолжения любого из этих методов. Если есть расхождения, это приведет к интересным вопросам и лучшему пониманию.
источник