Que modelo estatístico ou algoritmo poderia ser usado para resolver o problema de John Snow Cholera?

23

Estou interessado em aprender como desenvolver uma aproximação geográfica de algum tipo de epicentro com base nos dados do surto de John Snow Cholera. Que modelagem estatística poderia ser usada para resolver esse problema sem o conhecimento prévio de onde os poços estão localizados.

Como um problema geral, você teria disponível a hora, a localização dos pontos conhecidos e o caminho a pé do observador. O método que estou procurando usaria essas três coisas para estimar o epicentro do "surto".

cylondude
fonte
2
Os modelos de krigagem são usados ​​para previsão geográfica. Esse pode ser o lugar para começar. Para incluir informações de tempo, você precisará dar um passo adiante e usar um modelo espaço-temporal (eu ainda não os usei).
precisa saber é o seguinte
4
O @Great Kriging seria difícil de aplicar aqui: não se destina a estimar extremos, nem é adequado para a geometria do tempo de caminhada ao longo das estradas que é relevante, nem é bem adaptado para controlar covariáveis ​​importantes, como densidade populacional ou número de trabalhadores em edifícios.
whuber
Este pacote R pode ser do seu interesse github.com/lindbrook/cholera .
David C. Norris

Respostas:

25

Não para dar uma resposta completa ou autoritária, mas apenas para estimular idéias, relatarei uma análise rápida que fiz para um exercício de laboratório em um curso de estatísticas espaciais que estava ministrando há dez anos. O objetivo era ver que efeito uma contabilidade precisa das possíveis rotas de viagem (a pé), em comparação com o uso das distâncias euclidianas, teria um método exploratório relativamente simples: uma estimativa da densidade do núcleo. Onde o pico (ou picos) da densidade seria relativo à bomba cuja manivela Snow removeu?

Usando uma representação rasterizada de alta resolução (2946 linhas por 3160 colunas) do mapa de Snow (devidamente georreferenciada), digitalizei cada uma das centenas de pequenos caixões pretos mostrados no mapa (encontrando 558 deles em 309 endereços), atribuindo cada um a a extremidade da rua correspondente ao seu endereço e resumindo por endereço em uma contagem em cada local.

Mapa de pontos dos dados de entrada

Após algum processamento de imagem para identificar as ruas e os becos, realizei uma difusão gaussiana simples, limitada a essas áreas (usando meios focais repetidos em um SIG). Este é o KDE.

O resultado fala por si - dificilmente precisa de uma lenda para explicá-lo. (O mapa mostra muitas outras bombas, mas todas ficam fora dessa visão, que se concentra nas áreas de maior densidade.)

Mapa de neve mostrando densidade com cores.

whuber
fonte
UAU. Então, para resumir; 1. linearize o caminho de viagem, 2. realize a suavização em uma dimensão, 3. estenda a suavização em duas dimensões, 4. calcule a média do kde nas viagens de caminho?
cylondude
1
A suavização foi realizada em 2D, mas restrita à região mostrada em cores. Também há outras maneiras de fazer isso, semelhantes à sua descrição. No entanto, não há necessidade de calcular a média das "viagens de caminho" (sejam elas quais forem). Este mapa é interessante em parte porque compartilha propriedades de geometrias uni e bidimensionais.
whuber
Para cada ponto A nas ruas, conte o número de etapas entre si no ponto B entre os locais dos endereços. Conecte esse número de etapas a uma densidade gaussiana e multiplique esse valor pelo número de mortes em B. Adicione todos esses produtos (ou seja, sobre todos os pontos de endereço B) para obter a densidade de kernel no ponto A. Faça isso para todos os pontos A nas ruas. Essa é a densidade que estamos vendo em cada ponto do mapa. Sim?
21417 Hatshepsut
2
B
2
@ Hat Não é o caso de o Gaussian ter uma unidade integral quando está restrito às estradas e passarelas! Assim, é truncado e precisa ser renormalizado.
whuber
19

Em [1, §3.2], David Freedman sugere uma resposta essencialmente negativa à sua pergunta. Ou seja, nenhum (mero) modelo estatístico ou algoritmo poderia resolver o problema de John Snow. O problema de Snow era desenvolver um argumento crítico que apóia sua teoria de que o cólera é uma doença infecciosa transmitida pela água, contra a teoria predominante do miasma de seus dias. (O capítulo 3 de [1], intitulado “Modelos estatísticos e couro de sapato”, também está disponível no formulário publicado anteriormente [2] aqui .)

Nestas poucas páginas curtas [1, pp.47-53], grande parte das quais é uma citação extensa do próprio John Snow, Freedman argumenta que "o que Snow realmente fez em 1853-54 é ainda mais interessante do que a fábula [do Broad Street Pump]. " No que se refere à coleta de evidências estatísticas (outras preliminares, como identificação de casos de índice etc.), Snow explorou a variação natural para efetuar um quase-experimento verdadeiramente notável.

Acontece que, em um período anterior, havia uma vigorosa competição entre as empresas de abastecimento de água em Londres, e isso resultou na mistura espacial do suprimento de água que era (nas palavras de Snow) "do tipo mais íntimo".

Os canos de cada empresa descem todas as ruas e quase todos os tribunais e becos. Algumas casas são fornecidas por uma empresa e outras pela outra, de acordo com a decisão do proprietário ou ocupante no momento em que as companhias de água estavam em competição ativa.

...

Como não há diferença alguma nas casas ou nas pessoas que recebem o suprimento das duas Companhias de Água, ou em qualquer uma das condições físicas com as quais estão cercadas, é óbvio que não poderia ter sido planejado nenhum experimento que testaria mais detalhadamente a situação. efeito do suprimento de água sobre o progresso da cólera, que circunstâncias colocadas prontas diante do observador.

- John Snow

Outra parte criticamente importante da "variação natural" que John Snow explorou nesse quase experimento foi que uma empresa de água teve sua ingestão de água no Tamisa a jusante das descargas de esgoto , enquanto a outra havia alguns anos antes de realocar sua ingestão a montante . Vou deixar você adivinhar qual era a tabela de dados de John Snow!

                     | Número de | Cólera Mortes por
Empresa | casas mortes | 10.000 casas
-------------------------------------------------- --------
Southwark e Vauxhall | 40,046 | 1263 315
Lambeth 26,107 | 98 37.
Resto de Londres | 256,423 | 1422 59.

Como Freedman observa secamente,

Como uma peça de tecnologia estatística, [a tabela acima] não é de forma alguma notável. Mas a história que conta é muito persuasiva. A força do argumento resulta da clareza do raciocínio anterior, da reunião de várias linhas de evidência diferentes e da quantidade de couro de sapato que Snow estava disposta a usar para obter os dados. [1, p.51]

Um outro ponto de variação natural explorada por Snow ocorreu na dimensão temporal : a referida mudança de ingestão de água ocorreu entre duas epidemias, permitindo à Snow comparar a água da mesma empresa com e sem adição de esgoto. (Obrigado a Philip B. Stark, um autor de [1], por esta informação via Twitter . Veja esta palestra on-line dele).


Esse assunto também fornece um estudo instrutivo sobre o contraste entre dedutivismo e indutivismo , conforme discutido nesta resposta .

  1. Freedman D, Collier D, Sekhon JS, Stark PB. Modelos estatísticos e inferência causal: um diálogo com as ciências sociais. Cambridge; Nova York: Cambridge University Press; 2010.

  2. Freedman DA. Modelos Estatísticos e Calçados de Couro. Metodologia Sociológica . 1991; 21: 291-313. doi: 10.2307 / 270939. Texto completo

David C. Norris
fonte
1
+1 por apontar que apenas identificar um epicentro seria insuficiente para resolver o "problema de John Snow", conforme declarado. A teoria do miasma era uma das teorias predominantes na época, como David aponta. Para falsificar a teoria do miasma, seria necessário mostrar que as taxas geográficas não aumentam com a proximidade do rio. Uma abordagem moderna para esse problema pode ter utilizado o kriging.
AdamO 23/08
Obrigado, @AdamO; mas me pergunto como Kriging acomodaria a mistura espacial "íntima" nesse caso, que quase parece uma afronta à continuidade necessária para aplicar uma técnica de interpolação (como eu entendo ser Kriging).
David C. Norris
Talvez eu tenha entendido mal as palavras de Snow: minha presunção era que a "mistura íntima [das fontes de suprimento das bombas de água]" se referia a um projeto de bloco quase perfeito, onde, estratificado pela distância do rio, cada estrato concêntrico de quarteirões da cidade tinha pelo menos alguns bombas dos fornecedores A, B, C ... isso tem a ver com apoiar a teoria de que a água contaminada causa cólera. Kriging rejeitaria a hipótese do miasma, mostrando que a proximidade ao rio não está associada ao aumento da incidência de cólera. Isso é suportado pelas pessoas que regam as bombas: o miasma não viaja de cano.
Adamo
2
@AdamO Na verdade, William Farr estudou as taxas de mortalidade por cólera (desde 1849) e as comparou com a elevação acima do rio Tamisa. A correspondência entre essas variáveis ​​é impressionante e quase perfeitamente alinhada com as previsões da teoria do miasma. Veja Langmuir AD. Bacteriological Review 25, 174, 1961 ( bmj.com/content/323/7327/1469.full#B4 ). Este artigo observa que, mesmo na época da morte do Dr. Snow em 1858, sua teoria "não era aceita em círculos oficiais".
whuber
1
Muito obrigado por essas referências, @whuber. A título de curadoria, observo que o artigo de Langmuir é de acesso aberto .
David C. Norris