Estatísticas e Big Data

541

Como escolher o número de camadas e nós ocultos em uma rede neural feedforward?

Existe um método padrão e aceito para selecionar o número de camadas e o número de nós em cada camada em uma rede neural feed-forward? Estou interessado em maneiras automatizadas de construir redes

model-selection neural-networks

474

Qual é a diferença entre "probabilidade" e "probabilidade"?

A página da wikipedia afirma que probabilidade e probabilidade são conceitos distintos. Na linguagem não técnica, "probabilidade" é geralmente sinônimo de "probabilidade", mas no uso estatístico há uma clara distinção de perspectiva: o número que é a probabilidade de alguns resultados...

probability likelihood

438

Qual é a intuição por trás da distribuição beta?

Disclaimer: Eu não sou um estatístico, mas um engenheiro de software. A maior parte do meu conhecimento em estatística vem da auto-educação, portanto ainda tenho muitas lacunas na compreensão de conceitos que podem parecer triviais para outras pessoas aqui. Ficaria muito grato se as respostas...

distributions beta-distribution intuition beta-binomial

431

Qual é a diferença entre o conjunto de testes e o conjunto de validação?

Achei isso confuso quando uso a caixa de ferramentas de redes neurais no Matlab. Ele dividiu o conjunto de dados brutos em três partes: conjunto de treinamento conjunto de validação Conjunto de teste Percebo que em muitos algoritmos de treinamento ou aprendizado, os dados geralmente são...

machine-learning validation

420

As duas culturas: estatística versus aprendizado de máquina?

No ano passado, li uma postagem de Brendan O'Connor no blog intitulada "Estatística versus aprendizado de máquina, lute!" que discutiu algumas das diferenças entre os dois campos. Andrew Gelman respondeu favoravelmente a isso : Simon Blomberg: Do pacote da sorte de R: Parafraseando...

machine-learning pac-learning

408

Por que quadrado a diferença em vez de assumir o valor absoluto no desvio padrão?

Na definição do desvio padrão, por que nós temos que conciliar a diferença da média para obter a média (E) e tomar a raiz quadrada de volta no final? Não podemos simplesmente pegar o valor absoluto da diferença e obter o valor esperado (médio) desses, e isso também não mostraria a variação dos...

standard-deviation definition

365

Como entender as desvantagens do K-means

K-means é um método amplamente utilizado na análise de agrupamentos. No meu entendimento, esse método NÃO requer QUALQUER suposição, ou seja, me forneça um conjunto de dados e um número pré-especificado de clusters, k, e apenas aplico esse algoritmo que minimiza a soma dos erros ao quadrado (SSE),...

machine-learning clustering data-mining k-means

355

Python como um ambiente de trabalho de estatística

Muitas pessoas usam uma ferramenta principal como o Excel ou outra planilha, SPSS, Stata ou R para suas necessidades estatísticas. Eles podem recorrer a algum pacote específico para necessidades muito especiais, mas muitas coisas podem ser feitas com uma planilha simples ou um pacote geral de...

r spss stata python

352

Relação entre SVD e PCA. Como usar o SVD para executar o PCA?

A análise de componentes principais (PCA) é geralmente explicada por meio de uma decomposição por si própria da matriz de covariância. No entanto, também pode ser realizado via decomposição de valor singular (SVD) da matriz de dados XX\mathbf X . Como funciona? Qual é a conexão entre essas duas...

pca dimensionality-reduction matrix svd

343

Qual é o seu desenho animado favorito de "análise de dados"?

Este é um dos meus favoritos: Uma entrada por resposta. (Isso está na linha da pergunta Stack Overflow) Qual é o seu desenho animado favorito de “programador”?. ) PS Não vincule o desenho animado sem a permissão do

humor

340

Raciocínio bayesiano e freqüentista em inglês comum

Como você descreveria em inglês simples as características que distinguem o raciocínio Bayesiano do

bayesian frequentist

326

Explicando aos leigos por que o bootstrapping funciona

Recentemente, usei o bootstrap para estimar intervalos de confiança para um projeto. Alguém que não conhece muito de estatística recentemente me pediu para explicar por que o bootstrapping funciona, ou seja, por que é que reamostrar a mesma amostra repetidamente para obter bons resultados. Percebi...

bootstrap communication

302

O que acontece se as variáveis explicativas e de resposta são classificadas independentemente antes da regressão?

Suponha que tenhamos um conjunto de dados com pontos. Queremos realizar uma regressão linear, mas primeiro classificamos os valores e independentemente um do outro, formando um conjunto de dados . Existe alguma interpretação significativa da regressão no novo conjunto de dados? Isso tem um nome?n X...

regression correlation

299

Diferença entre os modelos logit e probit

Qual é a diferença entre o modelo Logit e Probit ? Estou mais interessado aqui em saber quando usar a regressão logística e quando usar o Probit. Se houver alguma literatura que o defina usando R , isso também seria

r generalized-linear-model logistic probit link-function

298

O teste de normalidade é 'essencialmente inútil'?

Um ex-colega uma vez me argumentou da seguinte maneira: Geralmente aplicamos testes de normalidade aos resultados de processos que, sob o nulo, geram variáveis aleatórias que são apenas assintoticamente ou quase normais (com a parte 'assintoticamente' dependente de alguma quantidade que não...

hypothesis-testing normality-assumption philosophical

281

Ao realizar uma regressão múltipla, quando você deve centralizar suas variáveis preditoras e quando deve padronizá-las?

Em alguma literatura, li que uma regressão com múltiplas variáveis explicativas, se em unidades diferentes, precisava ser padronizada. (A padronização consiste em subtrair a média e dividir pelo desvio padrão.) Em quais outros casos eu preciso padronizar meus dados? Existem casos em que eu...

multiple-regression standardization centering

268

Qual é a diferença entre os modelos de efeito fixo, efeito aleatório e efeito misto?

Em termos simples, como você explicaria (talvez com exemplos simples) a diferença entre modelos de efeito fixo, efeito aleatório e efeito misto?

mixed-model random-effects-model definition fixed-effects-model

266

Como normalizar os dados no intervalo 0-1?

Estou perdido na normalização, alguém poderia me guiar por favor. Eu tenho um valor mínimo e máximo, digamos -23.89 e 7.54990767, respectivamente. Se eu receber um valor de 5,6878, como posso escalar esse valor em uma escala de 0 a

normalization

248

Citações estatísticas famosas

Qual é a sua cotação estatística favorita? Este é um wiki da comunidade, portanto, faça uma citação por resposta.

references history

246

Qual é o significado dos valores de p nos valores estatísticos?

Depois de fazer um curso de estatística e depois tentar ajudar os colegas, notei que um assunto que inspira muita batida na mesa é a interpretação dos resultados dos testes estatísticos de hipóteses. Parece que os alunos aprendem facilmente como executar os cálculos exigidos por um determinado...

hypothesis-testing p-value interpretation intuition canonical-question