Presto apoio estatístico a um departamento de saúde pública. Como você pode imaginar, montamos muitos mapas regularmente. Para mim, os mapas são apenas outro tipo de visualização de dados - útil para ter uma ideia dos dados, gerar e verificar hipóteses etc. Mas, muitas vezes, não seguimos a modelagem real e o teste de hipóteses .
Como você / sua organização faz isso? Como é um fluxo de trabalho que inclui inferência? Quem está envolvido? Quais ferramentas você usa? O que seria ideal se parece, se você tivesse o seu caminho?
Obrigado!
EDITAR
Para deixar claro, estou curioso sobre diferentes estratégias para passar de dados espaciais a testes estatísticos formais e estatísticos de hipóteses sobre o que está acontecendo no mundo. Por exemplo, digamos que estou tentando direcionar uma campanha educacional para aumentar os testes de tuberculose. Eu (pessoalmente) mapeava os casos de tuberculose contra covariáveis de interesse (digamos, renda mediana ou porcentagem de residentes estrangeiros) e tentava ver se havia algum padrão.
Eu posso ou não encontrar nenhum; mas acabaria construindo um modelo para estimar a associação entre essas covariáveis e o número de dados demográficos. Este é um passo crítico devido à qualidade dos seres humanos em encontrar padrões onde não existem, ou encontrar padrões desinteressantes. Eu sei como fazer isso sozinho, mas estou curioso sobre como diferentes organizações o institucionalizam (se é que existem).
fonte
Respostas:
Pergunta muito interessante!
Em primeiro lugar, sua pergunta se refere ao que eu chamo de 'mineração de dados' e acho que vale a pena reafirmar o problema explicitamente, já que algumas pessoas aqui podem não ter entendido: com qualquer conjunto de dados (não precisa ser espacial) para obter uma estatística válida relação a convenção é que ela deve ter uma probabilidade igual ou superior a 95%. No entanto, se você fizer 20 testes, há uma chance alta de que pelo menos um dos resultados 'estatisticamente válidos' que você obtém seja devido ao acaso. Portanto, é uma má prática brincar com um conjunto de dados (no GIS seria o mapeamento) para visualizar muitas relações possíveis entre variáveis, encontrar uma interessante e conectar as estatísticas e citar o resultado como se este fosse o único teste que você feito. Ainda é possível usar o resultado, mas é necessário levar em consideração o número de testes que você fez.
Era para isso que você estava dirigindo?
Sua pergunta parece perguntar como as pessoas se formalizam para evitar esse problema. Minha resposta é que a opção "nada" que você mencionou é comum. Os estatísticos médicos (por exemplo, minha namorada), em minha experiência, aplicam um padrão de rigor muito mais alto a esse tipo de processo do que o encontrado em outras áreas. Suspeito que todo tipo de mapeamento de dados fora da saúde pública seja feito sem qualquer consideração formal da problema com a aplicação cega das fórmulas estatísticas, sem entender o processo corretamente. Um exemplo geológico vem à mente:
Eu li um artigo revisado por pares, onde os autores analisaram como o rendimento do poço (quantidade de água que poderia ser bombeada) se relacionava com influências geológicas e espaciais na África, por exemplo, espessura da camada de cascalho que foi escavada antes da rocha ser atingida. A idéia era ajudar as perfuradoras de poços para que elas pudessem atingir os melhores locais para perfurações. Os autores minaram descaradamente os dados combinando todos os tipos de variáveis para ver quais apresentaram um nível de confiança de 95% e (presumo) nenhum dos revisores questionou a validade dos resultados. Suas conclusões eram, portanto, completamente indignas de confiança.
Espero que seja de interesse
fonte