Estatísticas e Big Data

42
Por que reduzir a amostra?

Suponha que eu queira aprender um classificador que prevê se um email é spam. E suponha que apenas 1% dos e-mails sejam spam. A coisa mais fácil a fazer seria aprender o classificador trivial que diz que nenhum dos emails é spam. Esse classificador nos daria 99% de precisão, mas não aprenderia...

42
O que é maxout na rede neural?

Alguém pode explicar o que as unidades maxout em uma rede neural fazem? Como eles funcionam e como eles diferem das unidades convencionais? Tentei ler o artigo "Maxout Network" de 2013 de Goodfellow et al. (do grupo do professor Yoshua Bengio), mas não entendi

41
Quais referências devem ser citadas para apoiar o uso de 30 como um tamanho de amostra suficientemente grande?

Eu já li / ouvi muitas vezes que o tamanho da amostra de pelo menos 30 unidades é considerado como "amostra grande" (suposições de normalidade de médias geralmente se mantêm devido ao CLT, ...). Portanto, em meus experimentos, eu normalmente gero amostras de 30 unidades. Você pode me dar alguma...

41
Regressão: transformando variáveis

Ao transformar variáveis, você precisa usar a mesma transformação? Por exemplo, posso escolher variáveis ​​transformadas de maneira diferente, como em: Seja idade, duração do emprego, duração da residência e renda.x1, x2, x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) Ou você...

41
Qual é a diferença entre as pontuações de propensão e a adição de covariáveis ​​em uma regressão e quando elas são preferidas a esta?

Admito que sou relativamente novo em escores de propensão e análise causal. Uma coisa que não é óbvia para mim como iniciante é como o "equilíbrio" usando escores de propensão é matematicamente diferente do que acontece quando adicionamos covariáveis ​​em uma regressão? O que há de diferente na...

41
Regressão logística em R (Odds Ratio)

Estou tentando realizar uma análise de regressão logística R. Eu participei de cursos que cobrem este material usando o STATA. Estou achando muito difícil replicar a funcionalidade no R. É maduro nesta área? Parece haver pouca documentação ou orientação disponível. A produção do odds ratio parece...

41
OpenBugs vs. JAGS

Estou prestes a experimentar um ambiente de estilo BUGS para estimar modelos bayesianos. Existem vantagens importantes a serem consideradas na escolha entre OpenBugs ou JAGS? É provável que um substitua o outro em um futuro próximo? Usarei o Gibbs Sampler escolhido com R. Ainda não tenho uma...

41
Bons jogos para aprender o pensamento estatístico?

Existem jogos que fazem o jogador "pensar como um estatístico"? Por exemplo, o lightbot faz com que você "pense como um programador" (de uma maneira muito básica). Existem jogos - projetados para entretenimento ou ensino - que podem ajudar a se familiarizar com conceitos básicos como correlação,...

41
Como interpretar os valores da medida F?

Eu gostaria de saber como interpretar uma diferença dos valores da medida f. Sei que f-measure é uma média equilibrada entre precisão e recordação, mas estou perguntando sobre o significado prático de uma diferença nas medidas f. Por exemplo, se um classificador C1 tem uma precisão de 0,4 e outro...