Transição do uso de software estatístico para a compreensão de equações matemáticas?

12

Contexto:

Eu sou um estudante de doutorado em psicologia. Como em muitos estudantes de doutorado em psicologia, eu sei executar várias análises estatísticas usando software estatístico, até técnicas como PCA, árvores de classificação e análise de agrupamentos. Mas não é realmente satisfatório porque, embora eu possa explicar por que fiz uma análise e o que os indicadores significam, não posso explicar como a técnica funciona.

O verdadeiro problema é que dominar o software estatístico é fácil, mas é limitado. Para aprender novas técnicas nos artigos, eu preciso entender como ler equações matemáticas. No momento, eu não conseguia calcular valores próprios ou médias K. As equações são como uma língua estrangeira para mim.

Questão:

  • Existe um guia abrangente que ajude a entender as equações nos artigos de periódicos?

Editar:

Eu pensei que a pergunta seria mais autoexplicativa: acima de uma certa complexidade, a notação estatística se torna sem sentido para mim; digamos que eu gostaria de codificar minhas próprias funções em R ou C ++ para entender uma técnica, mas há uma barreira. Não consigo transformar uma equação em um programa. E sério: não conheço a situação nas escolas de doutorado dos EUA, mas na minha (França), os únicos cursos que posso seguir são sobre algum movimento literário do século XVI ...

Coronier
fonte
@ Coronier Desculpe, duvido que exista um guia abrangente para entender artigos de psicologia que usam modelagem estatística. Mas todos os antecedentes necessários devem estar no nível de um mestrado em estatística. Se o seu programa pagar, considere obter um mestrado em estatísticas. A próxima melhor opção para seus propósitos pode ser refazer a versão das estatísticas multivariadas do departamento de estatísticas - geralmente elas fornecem notas com o fundo matemático para PCA, clustering, árvores etc. Você precisará de um background em álgebra linear e matemática básica estatísticas independentemente.
BloqueadoMar
Por favor, faça perguntas mais específicas.
4
Também sou estudante de doutorado em psicologia e fiz uma escolha significativa em matemática nos meus anos de graduação, porque havia muitos doutores em psicologia que não têm idéia de como um PCA (por exemplo) foi computado. A primeira coisa que você precisa fazer é trabalhar com qualquer livro de álgebra linear decente. O que é um livro de álgebra linear decente? A bomba de Gilbert Strang é, e ele tem palestras em vídeo de seu curso de álgebra linear no site do MIT. Você pode até obtê-los no iTunes.
Phillip Cloud
1
A questão é tão ampla que não receberá uma resposta satisfatória em alguns parágrafos. As estatísticas são como perguntas: fica mais fácil se você dividir em vários componentes gerenciáveis.
pe.
Só posso concordar com os comentários acima. Ou você terá que se concentrar em um problema específico ou apenas precisará trabalhar primeiro com alguns livros didáticos ou folhetos on-line. Um livro decente que aborda conceitos básicos de estatística multivariada com ilustrações é o Mathematics Tools for Applied Multivariate Analysis , de Carroll e Green (AP, 1997, Rev. Ed.). Outro é Estatística Multivariada Aplicada e Modelagem Matemática , de Tinsley e Brown (AP, 2000).
chl

Respostas:

9

Visão geral:

  • Minha impressão é que sua experiência é comum a muitos estudantes de ciências sociais.
  • O ponto de partida é uma motivação para aprender.
  • Você pode seguir as rotas de instrução autodidata ou formal .

Instrução formal:

Existem muitas opções nesse sentido. Você pode considerar um mestrado em estatística ou apenas cursar algumas disciplinas em um departamento de estatística. No entanto, você provavelmente deseja verificar se possui o conhecimento matemático necessário. Dependendo do curso, você pode precisar revisitar a matemática pré-cálculo e, talvez, algum material como cálculo e álgebra linear antes de abordar assuntos estatísticos matematicamente rigorosos no nível universitário.

Autodidata

Como alternativa, você pode seguir o caminho autodidata. Existem muitos bons recursos na internet. Em particular, ler e fazer exercícios em livros didáticos de matemática é importante, mas provavelmente não é suficiente. É importante ouvir os instrutores falando sobre matemática e vê-los resolver problemas.

Também é importante pensar em seus objetivos matemáticos e nos pré-requisitos matemáticos necessários para atingir esses objetivos. Se as equações são como uma língua estrangeira para você, então você pode achar que precisa primeiro estudar matemática elementar.

Eu preparei alguns recursos destinados a ajudar as pessoas que estão fazendo a transição do uso de software estatístico para entender a matemática subjacente.

Jeromy Anglim
fonte
Obrigado, os recursos que você fornece são ótimos. Btw, seu blog é totalmente absorvente (eu sou um estudante de I / OP e useR, é como uma revelação para mim).
Coronier 22/03
@Coronier É ótimo conhecer outra pessoa combinando R com I / O Psych.
Jeromy Anglim
3

Tenho a impressão de que você acha que pode obter informações sobre uma equação estatística programando-a em R ou C ++; você não pode. Para entender uma equação estatística, encontre um livro de "graduação" com muitos problemas de lição de casa no final de cada capítulo que contém a equação e faça a lição de casa no final do capítulo que contém a equação.

Por exemplo, para entender o PCA, você precisa de um bom entendimento da álgebra linear e, em particular, da decomposição de valores singulares. Enquanto aprendia a computação quântica através do livro de Michael Nielsen, ficou claro para mim que eu precisava revisar a álgebra linear. Me deparei com os vídeos de Gilbert Strang, eles foram extremamente úteis para estabelecer uma compreensão fundamental dos conceitos. No entanto, as nuances do material não foram reveladas até que encontrei um livro de álgebra linear contendo muitos problemas de lição de casa, e então precisei fazê-los.

schenectady
fonte
4
@ schenectady Enquanto eu simpatizo com o seu ponto de vista, pelo menos para mim, o código R fornece uma ponte que eu posso usar para melhorar minha compreensão das equações e da matemática em questão. Dito isto, concordo plenamente com a necessidade de problemas, estatística e matemática em geral, é algo que só se pode aprender fazendo.
richiemorrisroe
2

Entendo sua dificuldade, pois tenho um problema semelhante ao tentar fazer algo novo em estatística (também sou estudante de graduação, mas em outro campo). Eu achei o exame do código R bastante útil para ter uma idéia de como algo é calculado. Por exemplo, aprendi recentemente como usar o kmeansclustering e tenho muitas perguntas básicas, conceituais e como ele é implementado. Usando uma Rinstalação (eu recomendo R Studio, http://www.rstudio.org/ , mas qualquer instalação funciona), basta digitar kmeansna linha de comando. Aqui está um exemplo de parte da saída:

x <- as.matrix(x)
    m <- nrow(x)
    if (missing(centers)) 
        stop("'centers' must be a number or a matrix")
    nmeth <- switch(match.arg(algorithm), `Hartigan-Wong` = 1, 
        Lloyd = 2, Forgy = 2, MacQueen = 3)
    if (length(centers) == 1L) {
        if (centers == 1) 
            nmeth <- 3
        k <- centers
        if (nstart == 1) 
            centers <- x[sample.int(m, k), , drop = FALSE]
        if (nstart >= 2 || any(duplicated(centers))) {
            cn <- unique(x)
            mm <- nrow(cn)
            if (mm < k) 
                stop("more cluster centers than distinct data points.")
            centers <- cn[sample.int(mm, k), , drop = FALSE]
        }
    } 

Não sei ao certo como é prático examinar a fonte todas as vezes, mas isso realmente me ajuda a ter uma idéia do que está acontecendo, supondo que você tenha alguma familiaridade com a sintaxe.

Uma pergunta anterior que eu fiz no stackoverflow me apontou nessa direção, mas também me disse que os comentários sobre o código às vezes são incluídos aqui .


De maneira mais geral, o Journal of Statistical Software ilustra esse vínculo entre teoria e implementação, mas freqüentemente trata de tópicos avançados (que eu pessoalmente tenho dificuldade em entender), mas é útil como exemplo.

celenius
fonte