Se você pudesse voltar no tempo e pedir a si mesmo para ler um livro específico no início de sua carreira como estatístico, que livro
Se você pudesse voltar no tempo e pedir a si mesmo para ler um livro específico no início de sua carreira como estatístico, que livro
Meu entendimento é que não pode ser negativo, pois é o quadrado de R. No entanto, executei uma regressão linear simples no SPSS com uma única variável independente e uma variável dependente. Minha saída do SPSS me fornece um valor negativo para . Se eu fosse calcular isso manualmente a partir de R,...
Estou usando R para fazer cluster K-significa. Estou usando 14 variáveis para executar K-means Qual é uma maneira bonita de traçar os resultados dos meios K? Existem implementações existentes? Ter 14 variáveis complica a plotagem dos resultados? Encontrei algo chamado GGcluster que parece...
Há muito tempo, aprendi que a distribuição normal era necessária para o teste T de duas amostras. Hoje, uma colega me disse que aprendeu que para N> 50 a distribuição normal não era necessária. Isso é verdade? Se verdadeiro, é por causa do teorema do limite
Como você descreveria a validação cruzada para alguém sem experiência em análise de
Eu sei que as pessoas gostam de fechar duplicatas por isso estou não pedir uma referência para iniciar as estatísticas de aprendizagem (como aqui ). Tenho doutorado em matemática, mas nunca aprendi estatística. Qual é o caminho mais curto para o conhecimento equivalente a um nível superior de...
Entendo o básico do objetivo de um Support Vector Machines em termos de classificação de um conjunto de entradas em várias classes diferentes, mas o que não entendo são alguns detalhes minuciosos. Para começar, estou um pouco confuso com o uso de Slack Variables. Qual é o seu propósito? Estou com...
Eu tenho um conjunto de dados com cerca de 30 variáveis independentes e gostaria de construir um modelo linear generalizado (GLM) para explorar o relacionamento entre elas e a variável dependente. Estou ciente de que o método que me foi ensinado para essa situação, a regressão gradual, agora é...
"Essencialmente, todos os modelos estão errados, mas alguns são úteis." --- Box, George EP; Norman R. Draper (1987). Superfícies empíricas de construção de modelos e resposta, p. 424, Wiley. ISBN 0471810339. Qual é exatamente o significado da frase acima?
Eu tenho lido Elements of Statistical Learning e gostaria de saber por que o Lasso fornece seleção de variáveis e regressão de crista não. Ambos os métodos minimizam a soma residual dos quadrados e têm uma restrição nos possíveis valores dos parâmetros . Para o Lasso, a restrição é , enquanto no...
Estou ficando um pouco confuso sobre a seleção de recursos e o aprendizado de máquina e fiquei imaginando se você poderia me ajudar. Eu tenho um conjunto de dados de microarray que é classificado em dois grupos e possui milhares de recursos. Meu objetivo é obter um pequeno número de genes (meus...
Recentemente, tenho lido muito neste site (@Aniko, @Dikran Marsupial, @Erik) e em outros lugares sobre o problema de sobreajuste que ocorre com a validação cruzada - (Smialowski et al. 2010 Bioinformatics, Hastie, Elements of statistics learning). A sugestão é que qualquer seleção de recurso...
Estou usando o algoritmo de floresta aleatória como um classificador robusto de dois grupos em um estudo de microarray com milhares de recursos. Qual é a melhor maneira de apresentar a floresta aleatória para que haja informações suficientes para torná-la reproduzível em um artigo? Existe um...
Alguns anos atrás, projetei um detector de radiação que funciona medindo o intervalo entre os eventos, em vez de contá-los. Minha suposição era que, ao medir amostras não contíguas, em média eu media metade do intervalo real. No entanto, quando testei o circuito com uma fonte calibrada, a leitura...
Como a Regressão Logística é um modelo de classificação estatística que lida com variáveis dependentes categóricas, por que não é chamado de Classificação Logística ? O nome "Regressão" não deve ser reservado aos modelos que lidam com variáveis dependentes...
Há um velho ditado: "Correlação não significa causalidade". Quando ensino, costumo usar os seguintes exemplos padrão para ilustrar esse ponto: número de cegonhas e taxa de natalidade na Dinamarca; número de padres na América e alcoolismo; no início do século XX, observou-se que havia uma forte...
Para regressão linear, podemos verificar os gráficos de diagnóstico (gráficos de resíduos, gráficos de QQ normal, etc.) para verificar se as suposições de regressão linear são violadas. Para regressão logística, estou tendo problemas para encontrar recursos que expliquem como diagnosticar o ajuste...
Estou participando dos cursos de aprendizado de máquina on-line e aprendi sobre a descida do gradiente para calcular os valores ideais da hipótese. h(x) = B0 + B1X por que precisamos usar a descida do gradiente se podemos encontrar facilmente os valores com a fórmula abaixo? Isso parece direto e...
Ao contrário de outros artigos, achei a entrada da Wikipedia para este assunto ilegível para uma pessoa que não é matemática (como eu). Entendi a ideia básica de que você é a favor de modelos com menos regras. O que eu não entendo é como você passa de um conjunto de regras para uma 'pontuação de...
Estou tentando entender a diferença entre diferentes métodos de reamostragem (simulação de Monte Carlo, inicialização paramétrica, inicialização não paramétrica, jackknifing, validação cruzada, validação cruzada, testes de randomização e testes de permutação) e sua implementação no meu próprio...