Я оказываю статистическую поддержку отделу общественного здравоохранения. Как вы можете себе представить, мы собираем много карт на регулярной основе. Для меня карты - это просто другой вид визуализации данных, полезный для того, чтобы получить представление о данных, для генерации и проверки гипотез и т. Д. Но мы не часто выполняем фактическое моделирование и тестирование гипотез .
Как вы / ваша организация делаете это? Как выглядит рабочий процесс, который включает в себя вывод? Кто замешан? Какие инструменты вы используете? Как бы это выглядело идеально , если бы у вас был свой путь?
Спасибо!
РЕДАКТИРОВАТЬ
Чтобы было ясно, мне любопытно узнать о различных стратегиях перехода от пространственных данных к формальным статистическим проверкам гипотез о том, что происходит в мире. Например, скажем, я пытаюсь нацелить образовательную кампанию на повышение тестирования на туберкулез. Я (лично) планировал бы случаи заболевания туберкулезом по интересующим ковариатам (скажем, средний доход или процент жителей, родившихся за границей) и пытался выяснить, были ли какие-либо закономерности.
Я мог бы или не мог бы найти любой; но я бы в конечном итоге построил модель для оценки связи между этими ковариатами и количеством демографических показателей. Это критически важный шаг из-за того, насколько хороши люди в поиске паттернов, где их нет, или в поиске неинтересных. Я знаю, как сделать это самостоятельно, но мне любопытно, как различные организации институционализируют это (если вообще).
источник
Ответы:
Очень интересный вопрос!
Во-первых, ваш вопрос ссылается на то, что я называю «интеллектуальный анализ данных», и я думаю, что стоит переосмыслить проблему явно, поскольку некоторые люди здесь могут ее не получить: с любым набором данных (не обязательно должен быть пространственным) для достижения статистически достоверной В соответствии с соглашением это должно быть с вероятностью 95% или выше. Однако, если вы проведете 20 тестов, велика вероятность, что хотя бы один из «статистически достоверных» результатов, которые вы получите, обусловлен чистой случайностью. Так что не рекомендуется играть с набором данных (в ГИС это будет отображать его), чтобы визуализировать множество возможных связей между переменными, найти интересную и вставить статистику и процитировать результат, как если бы это был единственный тест, который вы сделал. Вы все еще можете использовать результат, но вы должны учитывать количество проведенных тестов.
Это то, что вы ехали?
Ваш вопрос, кажется, спрашивает, как люди формализуются, избегая этой проблемы. Мой ответ заключается в том, что упомянутый вами вариант «совсем нет» является обычным явлением. Медицинские статистики (например, моя подруга) по моему опыту применяют гораздо более строгие стандарты строгости к такого рода процессам, чем в других областях. Я подозреваю, что все виды картографирования данных вне общественного здравоохранения выполняются без какого-либо формального рассмотрения проблема в том, что формулы статистики применяются вслепую без должного понимания процесса. На ум приходит геологический пример:
Я прочитал рецензируемую статью, в которой авторы смотрели на то, как добыча в скважине (количество воды, которое может быть закачано) связана с геологическими и пространственными воздействиями в Африке, например, с толщиной слоя гравия, который был вырыт до того, как попала в пласт. Идея заключалась в том, чтобы помочь бурильщикам в скважинах, чтобы они могли выбирать лучшие места для скважин. Авторы явно добывают данные, объединяя все виды переменных, чтобы увидеть, какие из них достигли уровня достоверности 95%, и (я полагаю) ни один из рецензентов не усомнился в достоверности результатов. Поэтому их выводы были абсолютно ненадежными.
Надеюсь, что это интересно
источник