Visualização para fluxo de trabalho de inferência

9

Presto apoio estatístico a um departamento de saúde pública. Como você pode imaginar, montamos muitos mapas regularmente. Para mim, os mapas são apenas outro tipo de visualização de dados - útil para ter uma ideia dos dados, gerar e verificar hipóteses etc. Mas, muitas vezes, não seguimos a modelagem real e o teste de hipóteses .

Como você / sua organização faz isso? Como é um fluxo de trabalho que inclui inferência? Quem está envolvido? Quais ferramentas você usa? O que seria ideal se parece, se você tivesse o seu caminho?

Obrigado!

EDITAR

Para deixar claro, estou curioso sobre diferentes estratégias para passar de dados espaciais a testes estatísticos formais e estatísticos de hipóteses sobre o que está acontecendo no mundo. Por exemplo, digamos que estou tentando direcionar uma campanha educacional para aumentar os testes de tuberculose. Eu (pessoalmente) mapeava os casos de tuberculose contra covariáveis ​​de interesse (digamos, renda mediana ou porcentagem de residentes estrangeiros) e tentava ver se havia algum padrão.

Eu posso ou não encontrar nenhum; mas acabaria construindo um modelo para estimar a associação entre essas covariáveis ​​e o número de dados demográficos. Este é um passo crítico devido à qualidade dos seres humanos em encontrar padrões onde não existem, ou encontrar padrões desinteressantes. Eu sei como fazer isso sozinho, mas estou curioso sobre como diferentes organizações o institucionalizam (se é que existem).

Matt Parker
fonte
Ótima pergunta!
whuber
Você está dizendo que precisa ter um fluxo de trabalho para que, se houver um surto de alguma doença para a qual haja um suprimento limitado de vacina, você precise mostrar que está distribuindo a vacina da melhor forma possível?
Kirk Kuykendall
Em geral, estou interessado apenas em como as pessoas incorporam inferência estatística em seus processos de mapeamento. O que você descreve é ​​certamente um cenário possível, mas existem muitos outros e nem sequer estou especialmente interessado em respostas da epidemiologia.
Matt Parker

Respostas:

2

Pergunta muito interessante!

Em primeiro lugar, sua pergunta se refere ao que eu chamo de 'mineração de dados' e acho que vale a pena reafirmar o problema explicitamente, já que algumas pessoas aqui podem não ter entendido: com qualquer conjunto de dados (não precisa ser espacial) para obter uma estatística válida relação a convenção é que ela deve ter uma probabilidade igual ou superior a 95%. No entanto, se você fizer 20 testes, há uma chance alta de que pelo menos um dos resultados 'estatisticamente válidos' que você obtém seja devido ao acaso. Portanto, é uma má prática brincar com um conjunto de dados (no GIS seria o mapeamento) para visualizar muitas relações possíveis entre variáveis, encontrar uma interessante e conectar as estatísticas e citar o resultado como se este fosse o único teste que você feito. Ainda é possível usar o resultado, mas é necessário levar em consideração o número de testes que você fez.

Era para isso que você estava dirigindo?

Sua pergunta parece perguntar como as pessoas se formalizam para evitar esse problema. Minha resposta é que a opção "nada" que você mencionou é comum. Os estatísticos médicos (por exemplo, minha namorada), em minha experiência, aplicam um padrão de rigor muito mais alto a esse tipo de processo do que o encontrado em outras áreas. Suspeito que todo tipo de mapeamento de dados fora da saúde pública seja feito sem qualquer consideração formal da problema com a aplicação cega das fórmulas estatísticas, sem entender o processo corretamente. Um exemplo geológico vem à mente:

Eu li um artigo revisado por pares, onde os autores analisaram como o rendimento do poço (quantidade de água que poderia ser bombeada) se relacionava com influências geológicas e espaciais na África, por exemplo, espessura da camada de cascalho que foi escavada antes da rocha ser atingida. A idéia era ajudar as perfuradoras de poços para que elas pudessem atingir os melhores locais para perfurações. Os autores minaram descaradamente os dados combinando todos os tipos de variáveis ​​para ver quais apresentaram um nível de confiança de 95% e (presumo) nenhum dos revisores questionou a validade dos resultados. Suas conclusões eram, portanto, completamente indignas de confiança.

Espero que seja de interesse

Trevesy
fonte
Você pode explicar um pouco mais por que o artigo que você descreve não é confiável? Não é óbvio para mim por que esse é o caso. Se o relacionamento existe estatisticamente, importa qual modelo mental você usou para identificá-lo? Entendo que ele não explica o mecanismo, mas isso é uma questão separada.
DJQ