Estatísticas e Big Data

42

Por que reduzir a amostra?

Suponha que eu queira aprender um classificador que prevê se um email é spam. E suponha que apenas 1% dos e-mails sejam spam. A coisa mais fácil a fazer seria aprender o classificador trivial que diz que nenhum dos emails é spam. Esse classificador nos daria 99% de precisão, mas não aprenderia...

machine-learning classification

42

O que é maxout na rede neural?

Alguém pode explicar o que as unidades maxout em uma rede neural fazem? Como eles funcionam e como eles diferem das unidades convencionais? Tentei ler o artigo "Maxout Network" de 2013 de Goodfellow et al. (do grupo do professor Yoshua Bengio), mas não entendi

machine-learning neural-networks

42

Método da máxima verossimilhança vs. método dos mínimos quadrados

Qual é a principal diferença entre a estimativa de máxima verossimilhança (MLE) e a estimativa de mínimos quadrados (LSE)? Por que não podemos usar o MLE para prever valores de em regressão linear e vice-versa?yyy Qualquer ajuda sobre este tópico será muito

regression estimation maximum-likelihood least-squares

42

Métodos de regularização para regressão logística

A regularização usando métodos como Ridge, Lasso, ElasticNet é bastante comum para regressão linear. Eu queria saber o seguinte: Esses métodos são aplicáveis à regressão logística? Em caso afirmativo, existem diferenças na maneira como elas precisam ser usadas para a regressão logística? Se esses...

regression logistic regularization

41

Como posso testar se amostras são retiradas de uma distribuição de Poisson?

Conheço os testes de normalidade, mas como faço para testar o "Poisson-ness"? Eu tenho uma amostra de ~ 1000 números inteiros não negativos, que eu suspeito serem retirados de uma distribuição de Poisson, e eu gostaria de testar

hypothesis-testing distributions poisson-distribution goodness-of-fit

41

Quais referências devem ser citadas para apoiar o uso de 30 como um tamanho de amostra suficientemente grande?

Eu já li / ouvi muitas vezes que o tamanho da amostra de pelo menos 30 unidades é considerado como "amostra grande" (suposições de normalidade de médias geralmente se mantêm devido ao CLT, ...). Portanto, em meus experimentos, eu normalmente gero amostras de 30 unidades. Você pode me dar alguma...

references sample-size normality-assumption central-limit-theorem rule-of-thumb

41

Por que a idade mediana é uma estatística melhor do que a idade média?

Se você olhar para Wolfram Alpha Ou esta página da Wikipedia Lista de países por idade mediana Claramente, a mediana parece ser a estatística de escolha quando se trata de idades. Não sou capaz de explicar por que razão a média aritmética seria uma estatística pior. Por que é...

mean median

41

Alguém pode explicar o conceito de 'permutabilidade'?

Vejo o conceito de 'permutabilidade' sendo usado em diferentes contextos (por exemplo, modelos bayesianos), mas nunca entendi o termo muito bem. O que esse conceito significa? Em que circunstâncias esse conceito é invocado e por

bayesian intuition exchangeability

41

Regressão: transformando variáveis

Ao transformar variáveis, você precisa usar a mesma transformação? Por exemplo, posso escolher variáveis transformadas de maneira diferente, como em: Seja idade, duração do emprego, duração da residência e renda.x1, x2, x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) Ou você...

r regression logistic data-transformation

41

Qual é a diferença entre as pontuações de propensão e a adição de covariáveis em uma regressão e quando elas são preferidas a esta?

Admito que sou relativamente novo em escores de propensão e análise causal. Uma coisa que não é óbvia para mim como iniciante é como o "equilíbrio" usando escores de propensão é matematicamente diferente do que acontece quando adicionamos covariáveis em uma regressão? O que há de diferente na...

regression multivariate-analysis causality propensity-scores

41

Regressão logística em R (Odds Ratio)

Estou tentando realizar uma análise de regressão logística R. Eu participei de cursos que cobrem este material usando o STATA. Estou achando muito difícil replicar a funcionalidade no R. É maduro nesta área? Parece haver pouca documentação ou orientação disponível. A produção do odds ratio parece...

r logistic odds-ratio

41

OpenBugs vs. JAGS

Estou prestes a experimentar um ambiente de estilo BUGS para estimar modelos bayesianos. Existem vantagens importantes a serem consideradas na escolha entre OpenBugs ou JAGS? É provável que um substitua o outro em um futuro próximo? Usarei o Gibbs Sampler escolhido com R. Ainda não tenho uma...

r software bugs jags gibbs

41

Qual é a distribuição da distância euclidiana entre duas variáveis aleatórias normalmente distribuídas?

Assuma que são dadas dois objectos cujas localizações exacta é desconhecida, mas está distribuído de acordo com a distribuição normal com parâmetros conhecidos (por exemplo, e . Podemos assumir que ambos são normais bivariados, de modo que as posições são descritas por uma distribuição sobre...

normal-distribution distance-functions

41

Existem bons filmes envolvendo matemática ou probabilidade?

Você pode sugerir alguns bons filmes que envolvem matemática, probabilidades etc.? Um exemplo é 21 . Eu também estaria interessado em filmes que envolvem algoritmos (por exemplo, descriptografia de texto). Em geral, filmes "nerds" com teorias científicas famosas, mas nenhuma ficção científica ou...

probability references

41

Bons jogos para aprender o pensamento estatístico?

Existem jogos que fazem o jogador "pensar como um estatístico"? Por exemplo, o lightbot faz com que você "pense como um programador" (de uma maneira muito básica). Existem jogos - projetados para entretenimento ou ensino - que podem ajudar a se familiarizar com conceitos básicos como correlação,...

teaching games application

41

Pandas / Statsmodel / Scikit-learn

Os Pandas, Statsmodels e Scikit aprendem implementações diferentes de operações estatísticas / de aprendizado de máquina, ou são complementares entre si? Qual destes possui a funcionalidade mais abrangente? Qual deles é desenvolvido e / ou suportado ativamente? Eu tenho que implementar regressão...

machine-learning python scikit-learn statsmodels pandas

41

Quantas vezes você precisa rolar um dado de 6 lados para obter todos os números pelo menos uma vez?

Acabei de jogar um jogo com meus filhos que basicamente se resume a: quem joga todos os números pelo menos uma vez em um dado de 6 lados ganha. Ganhei, eventualmente, e os outros terminaram 1-2 turnos depois. Agora estou me perguntando: qual é a expectativa da duração do jogo? Eu sei que a...

probability dice coupon-collector-problem

41

Como interpretar os valores da medida F?

Eu gostaria de saber como interpretar uma diferença dos valores da medida f. Sei que f-measure é uma média equilibrada entre precisão e recordação, mas estou perguntando sobre o significado prático de uma diferença nas medidas f. Por exemplo, se um classificador C1 tem uma precisão de 0,4 e outro...

classification precision-recall

41

Qual é a diferença entre uma distribuição normal e uma distribuição gaussiana

Existe uma diferença profunda entre uma distribuição normal e uma gaussiana, eu já vi muitos trabalhos usando-os sem distinção e geralmente os refiro a eles como a mesma coisa. No entanto, meu IP recentemente me disse que normal é o caso específico do gaussiano com média = 0 e std = 1, que também...

normal-distribution terminology

41

Usando lmer para modelo de efeito misto linear de medidas repetidas

EDIÇÃO 2: Originalmente, pensei que precisava executar uma ANOVA de dois fatores com medidas repetidas em um fator, mas agora acho que um modelo linear de efeito misto funcionará melhor para meus dados. Acho que quase sei o que precisa acontecer, mas ainda estou confuso com alguns pontos. Os...

r anova mixed-model repeated-measures lme4-nlme