Мне интересно узнать, как разработать географическую аппроксимацию какого-то эпицентра на основе данных о вспышке болезни Джона Сноу Холера. Какое статистическое моделирование может быть использовано для решения такой проблемы без предварительного знания места расположения скважин.
Как общая проблема, у вас будет время, местоположение известных точек и пешеходная дорожка наблюдателя. Метод, который я ищу, будет использовать эти три вещи для оценки эпицентра «вспышки».
bayesian
spatial
epidemiology
gis
cylondude
источник
источник
Ответы:
Не для того, чтобы дать полный или авторитетный ответ, а просто для того, чтобы стимулировать идеи, я сообщу о быстром анализе, который я сделал для лабораторного упражнения в курсе пространственной статистики, который я преподавал десять лет назад. Цель состояла в том, чтобы увидеть, как точный учет вероятных путей прохождения (пешком) по сравнению с использованием евклидовых расстояний окажет влияние на относительно простой исследовательский метод: оценку плотности ядра. Где будет пик (или пики) плотности по отношению к насосу, рукоятка которого Снег удален?
Используя растровое представление с высоким разрешением (2946 строк на 3160 столбцов) карты Сноу (с должной географической привязкой), я оцифровал каждый из сотен маленьких черных гробов, показанных на карте (обнаружив 558 из них по 309 адресам), назначив каждому край улицы, соответствующий ее адресу, и суммирование по адресу в счетчик в каждом месте.
После некоторой обработки изображений, чтобы идентифицировать улицы и переулки, я провел простую диффузию Гаусса, ограниченную этими областями (используя многократные фокусные средства в ГИС). Это KDE.
Результат говорит сам за себя - ему едва ли нужна легенда, чтобы объяснить это. (На карте показано много других насосов, но все они находятся за пределами этого обзора, который фокусируется на областях с самой высокой плотностью.)
источник
В [1, §3.2] Дэвид Фридман предлагает существенно отрицательный ответ на ваш вопрос. То есть никакая (простая) статистическая модель или алгоритм не могут решить проблему Джона Сноу. Задача Сноу состояла в том, чтобы разработать критический аргумент в поддержку его теории о том, что холера является инфекционным заболеванием, передаваемым через воду, вопреки господствующей теории миазмов своего времени. (Глава 3 в [1], озаглавленная «Статистические модели и кожа для обуви», также доступна в ранее опубликованной форме [2] здесь .)
В этих нескольких коротких страницах [1, с.47–53], большая часть которых является расширенной цитатой самого Джона Сноу, Фридман утверждает, что «то, что на самом деле сделал Сноу в 1853–54 годах, даже более интересно, чем басня [Брод Уличный насос]. " Что касается сбора статистических данных (кроме того, обсуждаются другие предварительные данные, такие как идентификация случая индекса и т. Д.), Сноу использовал естественные вариации для проведения действительно замечательного квазиэксперимента.
Оказывается, в более ранние времена среди компаний водоснабжения в Лондоне была жесткая конкуренция, и это привело к пространственному смешиванию водоснабжения, которое было (по словам Сноу) «самым интимным видом».
Еще один критически важный элемент «естественного отклонения», использованный Джоном Сноу в этом квазиэксперименте, заключался в том, что одна компания по водоснабжению имела водозабор в Темзе ниже по течению от сброса сточных вод , тогда как другая несколько лет назад перенесла свое потребление в верхнем течении . Я позволю вам угадать, что именно из таблицы данных Джона Сноу!
Как отмечает Фридман,
Еще одна точка естественного изменения, использованного Сноу, произошла во временном измерении: вышеупомянутое перемещение водозабора произошло между двумя эпидемиями, что позволило Сноу сравнить воду той же компании с добавленными сточными водами и без них. (Спасибо Филипу Старку, одному из авторов [1], за эту информацию через Twitter . См. Его онлайн-лекцию .)
Этот вопрос также предоставляет поучительное исследование контраста между дедуктивизмом и индуктивизмом , как обсуждалось в этом ответе .
Фридман Д., Кольер Д., Сехон Ю.С., Старк П.Б. Статистические модели и причинно-следственные связи: диалог с общественными науками. Кембридж; Нью-Йорк: издательство Кембриджского университета; 2010.
Фридман Д.А. Статистические модели и обувная кожа. Социологическая методология . 1991; 21: 291-313. DOI: 10.2307 / 270939. Полный текст
источник