Quais são os ramos das estatísticas?

30

Em matemática, existem ramos como álgebra, análise, topologia, etc. No aprendizado de máquina, há aprendizado supervisionado, não supervisionado e de reforço. Dentro de cada uma dessas ramificações, existem ramificações mais refinadas que dividem ainda mais os métodos.

Estou tendo problemas para traçar um paralelo com as estatísticas. Quais seriam os principais ramos da estatística (e sub-ramos)? Uma partição perfeita provavelmente não é possível, mas qualquer coisa é melhor do que um grande mapa em branco.

Exemplos visuais: insira a descrição da imagem aqui insira a descrição da imagem aqui

silly.deer
fonte
6
Para oferecer ainda outra razão pela qual essa pergunta não pode ser respondida (e por que, talvez, a premissa seja extraviada): é pouco compreendido que o objetivo da ciência teórica (como a matemática) é generalizar e não se especializar . Portanto, se visualizássemos a trajetória de uma investigação bem-sucedida no campo, não a veríamos como se ramificando para ramos menores e mais refinados, mas como uma lente cada vez mais ampla para conceitos e pensamentos mais abstratos.
AdamO
A resposta de @Rob Hyndman ainda me parece positiva. Eu sou altamente cético em relação a qualquer classificação aqui. Além disso, esse é um lugar tão bom quanto qualquer outro para sinalizar que uma lista de tópicos que ocorre a alguém fica muito aquém de uma classificação baseada em árvore. E, embora os dendrogramas ou as representações de bolas de pêlo sejam levemente intrigantes, que utilidade ou interesse real eles servem além de demonstrar a natureza múltipla do campo?
Nick Cox

Respostas:

52

Acho esses sistemas de classificação extremamente inúteis e contraditórios. Por exemplo:

  • redes neurais é uma forma de aprendizado supervisionado
  • O cálculo é usado em geometria diferencial
  • A teoria da probabilidade pode ser formalizada como parte da teoria dos conjuntos

e assim por diante. Não existem "ramificações" inequívocas da matemática, e nem deveria haver estatísticas.

Rob Hyndman
fonte
11
"redes neurais é uma forma de aprendizado supervisionado". Isso também não é totalmente verdade, é? Quero dizer, alguém poderia usar (e usa) NNs na aprendizagem supervisionada, na aprendizagem não supervisionada e até na aprendizagem por reforço! Bem, pelo menos, o conceito de redes neurais (é apenas uma enorme função não-linear que pode ser otimizada através de vários métodos de otimização, entre eles SL, UL e RL). Mas talvez a terminologia seja simplesmente usada da maneira que você a está usando; nesse caso, qualquer pessoa pode estar certa.
BlueRine S
7
Claro, não há verdade, mas isso não é realmente útil. Existe um modelo que satisfaça as necessidades do OP?
Jay Schyler Raadt
3
Rob está certo. As árvores de decisão são usadas na regressão e o AdaBoost é um método de classificação, mas o mapa não mostra isso.
Zen
4
Confesso que realmente não entendo essa perspectiva. Um livro de estatística também deve ter a sequência de seus capítulos organizada de alguma maneira, e sua página de conteúdo reflete essa organização. A estrutura da página de conteúdo transmite pelo menos algumas informações sobre como os conceitos do campo são organizados e o faz de uma maneira muito mais limitada do que a visualização permitiria. Se ninguém tem problemas com a existência de páginas de conteúdo de livros didáticos, mesmo que não capturem a complexidade do campo, não vejo por que alguém se oporia a uma visualização como a que o OP está esperando.
mkt - Restabelece Monica
4
Os livros didáticos não são estruturados hierarquicamente, eles são estruturados linearmente. Mais adiante neste livro, os links entre os primeiros capítulos são freqüentemente desenvolvidos, mostrando que os tópicos introduzidos separadamente anteriormente estão realmente vinculados. Para dar um exemplo, meu próprio livro sobre previsão, onde introduzimos modelos de regressão dinâmica em um capítulo posterior, vinculando modelos de regressão e ARIMA introduzidos anteriormente.
Rob Hyndman em
29

Este é um contraponto menor à resposta de Rob Hyndman. Começou como um comentário e depois ficou complexo demais para um. Se isso estiver muito longe de abordar a questão principal, peço desculpas e a excluirei.


A biologia descreve relações hierárquicas desde muito antes do primeiro doodle de Darwin (veja o comentário de Nick Cox para obter um link). A maioria das relações evolutivas ainda é mostrada com esse tipo de 'árvore filogenética' agradável, limpa e ramificada:

insira a descrição da imagem aqui No entanto, acabamos percebendo que a biologia é mais confusa do que isso. Ocasionalmente, há trocas genéticas (através de cruzamentos e outros processos) entre espécies e genes distintos presentes em uma parte do 'salto' da árvore para uma parte diferente da árvore. A transferência horizontal de genes move os genes de uma maneira que torna imprecisa a simples representação das árvores. No entanto, não abandonamos as árvores, apenas criamos modificações para este tipo de visualização:

Igual à figura anterior, mas com transferência de genes entre os ramos mostrados

É mais difícil de seguir, mas transmite uma imagem mais precisa da realidade.

Outro exemplo:

insira a descrição da imagem aqui

No entanto, nunca apresentamos essas figuras mais complexas para começar, porque são difíceis de entender sem entender os conceitos básicos. Em vez disso, ensinamos a idéia básica com a figura simples e, em seguida, apresentamos a figura mais complexa e as complicações mais recentes da história.

Qualquer "mapa" estatístico seria igualmente impreciso e uma ferramenta de ensino valiosa. As visualizações da forma que o OP sugere são muito úteis para os alunos e não devem ser ignoradas apenas porque não conseguem capturar a realidade no total. Podemos adicionar mais complexidade à imagem uma vez que eles tenham uma estrutura básica em vigor.

mkt - Restabelecer Monica
fonte
4
FWIW, representações em árvore das relações entre organismos são anteriores a Darwin. Vou adicionar uma referência mais tarde.
Nick Cox
2
jhupbooks.press.jhu.edu/title/trees-life é acadêmico, mas atraente.
Nick Cox
3
Não é mais um contraponto do que um argumento de apoio: questionar a validade das árvores. Pelo menos, com a filogenia, usamos dados para criar essa estrutura, seja registro fóssil, expressão gênica, qualquer coisa. Sem dados, perguntamos seriamente quem tem autoridade para escolher os blocos e flechas que espalham informações erradas.,
AdamO 7/10
2
@AdamO Não espero que exista um único 'mapa' de estatísticas universais. É perfeitamente razoável que duas pessoas usem estruturas diferentes e conjuntos diferentes de links, embora se espere que a estrutura ampla seja razoavelmente robusta (diferenças de baixo nível também ocorrem entre árvores filogenéticas construídas a partir do mesmo conjunto de dados, embora neste momento estamos estendendo a metáfora muito longe). Eu diria que a experiência (deixando de lado as noções de autoridade no momento) existe entre as muitas pessoas que escreveram livros de estatística geral ou mesmo ensinaram estatísticas gerais.
mkt - Restabelece Monica
2
Gostei dos diagramas aqui o suficiente para aprovar isso, mas isso realmente não responde à pergunta.
Nick Cox
24

Você pode procurar nas palavras-chave / tags do site Cross Validated.


Ramos como uma rede

Uma maneira de fazer isso é plotá-lo como uma rede com base nos relacionamentos entre as palavras-chave (com que frequência coincidem no mesmo post).

Quando você usa esse script sql para obter os dados do site em (data.stackexchange.com/stats/query/edit/1122036)

select Tags from Posts where PostTypeId = 1 and Score >2

Em seguida, você obtém uma lista de palavras-chave para todas as perguntas com pontuação 2 ou superior.

Você pode explorar essa lista plotando algo como o seguinte:

relações entre tags

Atualização: o mesmo com cor (com base nos vetores próprios da matriz de relação) e sem a etiqueta de auto-estudo

relações entre tags

Você poderia limpar esse gráfico um pouco mais (por exemplo, retire as tags que não se relacionam a conceitos estatísticos, como tags de software, no gráfico acima isso já foi feito para a tag 'r') e melhore a representação visual, mas acho que esta imagem acima já mostra um bom ponto de partida.

Código R:

#the sql-script saved like an sql file
network <- read.csv("~/../Desktop/network.csv", stringsAsFactors = 0)
#it looks like this:
> network[1][1:5,]
 [1] "<r><biostatistics><bioinformatics>"                                 
 [2] "<hypothesis-testing><nonlinear-regression><regression-coefficients>"
 [3] "<aic>"                                                              
 [4] "<regression><nonparametric><kernel-smoothing>"                      
 [5] "<r><regression><experiment-design><simulation><random-generation>"  

l <- length(network[,1])
nk <- 1
keywords <- c("<r>")
M <- matrix(0,1)

for (j in 1:l) {                              # loop all lines in the text file
  s <- stringr::str_match_all(network[j,],"<.*?>")           # extract keywords
  m <- c(0)                                             
  for (is in s[[1]]) {
    if (sum(keywords == is) == 0) {           # check if there is a new keyword
      keywords <- c(keywords,is)              # add to the keywords table
      nk<-nk+1
      M <- cbind(M,rep(0,nk-1))               # expand the relation matrix with zero's
      M <- rbind(M,rep(0,nk))
    }
    m <- c(m, which(keywords == is))
    lm <- length(m)
    if (lm>2) {                               # for keywords >2 add +1 to the relations
      for (mi in m[-c(1,lm)]) {
        M[mi,m[lm]] <- M[mi,m[lm]]+1
        M[m[lm],mi] <- M[m[lm],mi]+1
      }
    }
  }
}


#getting rid of <  >
skeywords <- sub(c("<"),"",keywords)
skeywords <- sub(c(">"),"",skeywords) 


# plotting connections 

library(igraph)
library("visNetwork")

# reduces nodes and edges
Ms<-M[-1,-1]             # -1,-1 elliminates the 'r' tag which offsets the graph
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

# convert to data object for VisNetwork function
g <- graph.adjacency(Ms[-el,-el], weighted=TRUE, mode = "undirected")
data <- toVisNetworkData(g)

# adjust some plotting parameters some 
data$nodes['label'] <- skeywords[-1][-el]
data$nodes['title'] <- skeywords[-1][-el]
data$nodes['value'] <- colSums(Ms)[-el]
data$edges['width'] <- sqrt(data$edges['weight'])*1
data$nodes['font.size'] <- 20+log(ww[-el])*6
data$edges['color'] <- "#eeeeff"

#plot
visNetwork(nodes = data$nodes, edges = data$edges) %>%
visPhysics(solver = "forceAtlas2Based", stabilization = TRUE,
           forceAtlas2Based = list(nodeDistance=70, springConstant = 0.04,
                                   springLength = 50,
                                   avoidOverlap =1)
           )

Ramos hierárquicos

Acredito que esse tipo de gráfico de rede acima esteja relacionado a algumas das críticas a uma estrutura hierárquica puramente ramificada. Se você preferir, acho que você pode executar um cluster hierárquico para forçá-lo a uma estrutura hierárquica.

Abaixo está um exemplo desse modelo hierárquico. Ainda seria necessário encontrar nomes de grupos adequados para os vários clusters (mas, não acho que esse cluster hierárquico seja a boa direção, deixo em aberto).

agrupamento hierárquico

A medida da distância para o agrupamento foi encontrada por tentativa e erro (fazendo ajustes até os clusters parecerem bons.

#####
#####  cluster

library(cluster)

Ms<-M[-1,-1]
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

Ms<-M[-1,-1]
R <- (keycount[-1]^-1) %*% t(keycount[-1]^-1)
Ms <- log(Ms*R+0.00000001)

Mc <- Ms[-el,-el]
colnames(Mc) <- skeywords[-1][-el]

cmod <- agnes(-Mc, diss = TRUE)

plot(as.hclust(cmod), cex = 0.65, hang=-1, xlab = "", ylab ="")

Escrito por StackExchangeStrike

Sextus Empiricus
fonte
2
Talvez eu trabalhe um pouco para tornar os gráficos mais organizados. Pode ser bom ter alguns gráficos claros que mapeiam os tópicos deste site.
Sextus Empiricus
1
Essa é uma ótima abordagem! Bem feito.
Andrew Brēza
No gráfico colorido, as três grandes áreas são probabilidade, regressão e aprendizado de máquina.
Matt F.
@MattF. o gráfico é realmente um pouco problemático e corresponde mais à frequência de uso. Tentei escalar a matriz pela frequência (como mudar da matriz de covariância para matriz de correlação), mas isso não mudou muito. O gráfico 2D não mostra a estrutura muito bem e o modelo físico, que trata os caminhos como cadeias, coloca os nós em uma forma hexagonal / triangular (o que é mais eficiente).
Sextus Empiricus 17/10
1
Eu diria que no stackoverflow existem cinco categorias principais: probabilidade, regressão, aprendizado de máquina, mas também testes de hipóteses e séries temporais.
Sextus Empiricus 17/10
9

Uma maneira fácil de responder sua pergunta é procurar as tabelas de classificação comuns. Por exemplo, 2010 Mathematics Subject Classification é usado por algumas publicações para classificar artigos. Isso é relevante porque é assim que muitos autores classificam seus próprios artigos. insira a descrição da imagem aqui

Existem muitos exemplos de classificações semelhantes, por exemplo, a classificação do arxiv ou o UDK (classificação decimal universal) do Ministério da Educação da Rússia, que é amplamente utilizado em todas as publicações e pesquisas.

insira a descrição da imagem aqui

Outro exemplo é o JEL Claasification System da American Economic Association. Artigo de Rob Hyndman " Previsão automática de séries temporais: o pacote de previsão para R. " É classificado como C53, C22, C52 de acordo com JEL. Hyndman tem razão em criticar as classificações das árvores. Uma abordagem melhor poderia ser a marcação, por exemplo, as palavras-chave em seu artigo são: "modelos ARIMA, previsão automática, suavização exponencial, intervalos de previsão, modelos de espaço de estados, séries temporais, R." Pode-se argumentar que essas são as melhores maneiras de classificar os trabalhos, pois não são hierárquicas e podem ser criadas várias hierarquias.

O @whuber enfatizou que alguns avanços mais recentes, como o aprendizado de máquina, não estarão nas estatísticas das classificações atuais. Por exemplo, dê uma olhada no artigo " Aprendizagem Profunda: Uma Introdução para Matemáticos Aplicados ", de Catherine F. Higham, Desmond J. Higham. Eles classificaram seu trabalho no MSC acima mencionado como 97R40, 68T01, 65K10, 62M45. estes estão sob ciência da computação, ensino de matemática e análise numérica, além de estatísticas

Aksakal
fonte
3
Eu acho que seria mais preciso dizer que é assim que muitos autores são solicitados a classificar seus trabalhos. Sei que nunca estou muito satisfeito quando me pedem para empregar categorias a priori no meu trabalho.
Alexis
6
Essa é uma boa base para identificar os ramos da estatística matemática. Saber isso nos ajuda a identificar o que foi deixado de fora, o que inclui muitas partes do aprendizado de máquina. De fato, pode ser justo caracterizar a classificação das disciplinas matemáticas de 2010 como descrevendo "estatísticas a partir de 1950" e, em seguida, incluir tudo o que surgiu mais tarde, como geoestatística, genômica, bootstrapping etc. (algumas das quais podem se enquadrar nas categorias, talvez).
whuber
4

Uma maneira de abordar o problema é examinar as redes de citação e coautoria em periódicos de estatística, como os Annals of Statistics, Biometrika, JASA e JRSS-B. Isso foi feito por:

Ji, P. & Jin, J. (2016). Redes de co-autoria e citação para estatísticos. The Annals of Applied Statistics, 10 (4), 1779-1812.

Eles identificaram comunidades de estatísticos e usaram seu domínio para rotular as comunidades como:

  • Análise de dados de alta dimensão (HDDA-Coau-A)
  • Aprendizado de Máquina Teórico
  • Redução de dimensão
  • Johns Hopkins
  • Duque
  • Stanford
  • Regressão quantílica
  • Design experimental
  • Objetivo Bayes
  • Bioestatística
  • Análise de dados de alta dimensão (HDDA-Coau-B)
  • Testes múltiplos em larga escala
  • Seleção de Variável
  • Estatísticas Espaciais e Semi-paramétricas / Não Paramétricas

O artigo inclui uma discussão detalhada das comunidades, juntamente com decomposições das maiores em subcomunidades adicionais.

Isso pode não responder inteiramente à pergunta, já que se refere aos campos de pesquisa de estatísticos, e não a todos os campos, incluindo aqueles que não estão mais ativos. Espero que seja útil. Obviamente, existem outras advertências (como considerar apenas essas quatro revistas) que são discutidas mais adiante neste artigo.

user257566
fonte
2
Eu estava pensando em fazer isso neste site. Definir "coautoria" como pessoas que respondem / respondem às mesmas perguntas.
Sextus Empiricus 10/10
@MartijnWeterings Sim, sua resposta parece estar em uma direção muito semelhante a essa abordagem!
user257566 10/10
2

Vejo muitas respostas surpreendentes e não sei como pode ser recebida uma humilde classificação pessoal, mas não conheço nenhum livro abrangente de todas as estatísticas para mostrar o resumo, e acho que, como @ Como comentou brilhantemente, uma classificação de um campo de estudo pode ser útil. Então, aqui está minha chance:

  • estatísticas descritivas
    • inferência simples
      • teste simples de hipóteses
    • plotagem / visualização de dados
  • projeto de amostragem
    • design experimental
    • projeto de pesquisa
  • estatísticas multivariadas (sem serviço)
    • agrupamento
    • análise de componentes
    • modelos de variáveis ​​latentes
  • modelos lineares (que também são realmente multivariados)
    • mínimos quadrados ordinários
    • modelos lineares generalizados
      • modelo logit
    • outros modelos lineares
      • Modelo Cox
      • regressão quantílica
    • inferência multivariada
      • teste de múltiplas hipóteses
      • teste de hipótese ajustado
    • modelos para dados estruturados
      • modelos de efeitos mistos
      • modelos espaciais
      • modelos de séries temporais
    • extensões não lineares
      • modelos de aditivos generalizados
  • estatísticas bayesianas (na verdade existem métodos bayesianos para muitas coisas que eu já listei)
  • regressão e classificação não paramétricas
    • muitos métodos de aprendizado de máquina se encaixam aqui

É claro que isso é simplista demais, serve apenas para levar uma idéia direta a alguém que mal conhece o campo. Cada um de nós aqui certamente sabe que existem muitos métodos entre as categorias aqui em cima, muitos outros que eu não conheci. lista porque são menos famosos ou porque simplesmente esqueci. Espero que você goste.

carlo
fonte
1

Uma maneira de organizar essas informações é encontrar um bom livro e consultar o índice. Isso é um paradoxo, porque você perguntou especificamente sobre estatística , enquanto a maioria dos textos introdutórios de pós-graduação sobre o tema é para estatística e teoria das probabilidades . Um livro que estou lendo sobre regressão agora tem o seguinte sumário:

  • Inferência Frequentista
  • Inferência Bayesiana
  • Teste de hipóteses e seleção de variáveis
  • Modelos lineares
  • Modelos de regressão geral
  • Modelos de Dados Binários

  • Modelos de regressão geral

  • Preliminares para regressão não paramétrica [um precursor para ...]
  • Métodos Spline e Kernel
  • Regressão não paramétrica com múltiplos preditores

(As seções restantes estão apoiando a matemática e a teoria das probabilidades)

  • Diferenciação de expressões matriciais
  • Resultados da matriz
  • Alguma Álgebra Linear
  • Distribuições de probabilidade e funções de geração
  • Funções das Variáveis ​​Aleatórias Normais
  • Alguns resultados da estatística clássica
  • Teoria básica de grandes amostras
AdamO
fonte
2
Pode-se considerar que esse livro transmite parte de um ramo de uma disciplina. A menos que pretenda ser uma pesquisa enciclopédica de todas as estatísticas, seus títulos de capítulo dificilmente podem ser considerados os principais ramos do campo!
whuber
3
@whuber concordou. Tive o cuidado de mencionar que o livro tratava de regressão e que não considero nenhum livro sobre o tópico "estatística" suficientemente geral ou no nível apropriado para um estatístico considerar os tópicos apresentados como suficientes. Este exemplo específico é do texto de Wakefield e é um tratamento notavelmente geral (o teste T com estimativa de variância desigual é discutido no contexto de regressão linear com covariável binária e estimativa de erro robusta, por exemplo).
AdamO 8/10