Estatísticas e Big Data

77
Quando R ao quadrado é negativo?

Meu entendimento é que não pode ser negativo, pois é o quadrado de R. No entanto, executei uma regressão linear simples no SPSS com uma única variável independente e uma variável dependente. Minha saída do SPSS me fornece um valor negativo para . Se eu fosse calcular isso manualmente a partir de R,...

76
Seleção de recursos e validação cruzada

Recentemente, tenho lido muito neste site (@Aniko, @Dikran Marsupial, @Erik) e em outros lugares sobre o problema de sobreajuste que ocorre com a validação cruzada - (Smialowski et al. 2010 Bioinformatics, Hastie, Elements of statistics learning). A sugestão é que qualquer seleção de recurso...

75
Por favor, explique o paradoxo da espera

Alguns anos atrás, projetei um detector de radiação que funciona medindo o intervalo entre os eventos, em vez de contá-los. Minha suposição era que, ao medir amostras não contíguas, em média eu media metade do intervalo real. No entanto, quando testei o circuito com uma fonte calibrada, a leitura...

74
Exemplos de ensino: Correlação não significa causalidade

Há um velho ditado: "Correlação não significa causalidade". Quando ensino, costumo usar os seguintes exemplos padrão para ilustrar esse ponto: número de cegonhas e taxa de natalidade na Dinamarca; número de padres na América e alcoolismo; no início do século XX, observou-se que havia uma forte...

74
Diagnósticos para regressão logística?

Para regressão linear, podemos verificar os gráficos de diagnóstico (gráficos de resíduos, gráficos de QQ normal, etc.) para verificar se as suposições de regressão linear são violadas. Para regressão logística, estou tendo problemas para encontrar recursos que expliquem como diagnosticar o ajuste...

74
O que é regularização em inglês simples?

Ao contrário de outros artigos, achei a entrada da Wikipedia para este assunto ilegível para uma pessoa que não é matemática (como eu). Entendi a ideia básica de que você é a favor de modelos com menos regras. O que eu não entendo é como você passa de um conjunto de regras para uma 'pontuação de...

74
Métodos de reamostragem / simulação: monte carlo, bootstrapping, jackknifing, validação cruzada, testes de randomização e testes de permutação

Estou tentando entender a diferença entre diferentes métodos de reamostragem (simulação de Monte Carlo, inicialização paramétrica, inicialização não paramétrica, jackknifing, validação cruzada, validação cruzada, testes de randomização e testes de permutação) e sua implementação no meu próprio...