Estatísticas e Big Data

50

Codificação one-hot vs dummy no Scikit-learn

Existem duas maneiras diferentes de codificar variáveis categóricas. Digamos, uma variável categórica tem n valores. A codificação one-hot converte-a em n variáveis, enquanto a codificação fictícia converte-a em n-1 variáveis. Se tivermos k variáveis categóricas, cada uma com n valores. Uma...

49

O que são variáveis aleatórias iid?

Como você explicaria o iid (independente e identicamente distribuído) a pessoas não

random-variable intuition

49

Bootstrap vs. jackknife

Os métodos bootstrap e jackknife podem ser usados para estimar o viés e o erro padrão de uma estimativa e os mecanismos de ambos os métodos de reamostragem não são muito diferentes: amostragem com substituição vs. deixar de fora uma observação de cada vez. No entanto, o canivete não é tão popular...

r confidence-interval bootstrap jackknife

49

Qual é a diferença entre efeitos aleatórios, efeitos fixos e modelo marginal?

Estou tentando expandir meu conhecimento de estatística. Eu venho de uma experiência em ciências físicas com uma abordagem "baseada em receita" para testes estatísticos, onde dizemos que é contínuo, é normalmente distribuído - regressão OLS . Na minha leitura, encontrei os termos: modelo de...

random-effects-model fixed-effects-model marginal

49

Como se deve interpretar a comparação de médias de diferentes tamanhos de amostra?

Veja o caso das classificações de livros em um site. O Livro A é avaliado por 10.000 pessoas, com uma classificação média de 4,25 e a variação . Da mesma forma, o Livro B é avaliado por 100 pessoas e tem uma classificação de 4,5 com σ = 0,25 .σ=0.5σ=0.5\sigma = 0.5σ=0.25σ=0.25\sigma = 0.25 Agora,...

t-test mean sample-size

49

A "classificação média" da Amazon é enganosa?

Se bem entendi, as classificações de livros em uma escala de 1 a 5 são pontuações do Likert. Ou seja, um 3 para mim pode não ser necessariamente um 3 para outra pessoa. É uma IMO em escala ordinal. Não se deve realmente medir escalas ordinais, mas definitivamente pode-se usar o modo, mediana e...

mean ordinal-data likert

49

Tempo aleatório de computação na floresta em R

Estou usando o pacote de festa no R com 10.000 linhas e 34 recursos, e alguns recursos de fator têm mais de 300 níveis. O tempo de computação é muito longo. (Demorou 3 horas até agora e ainda não terminou.) Quero saber quais elementos têm um grande efeito no tempo de computação de uma floresta...

r random-forest

49

Cálculo manual do valor P a partir do valor t no teste t

Eu tenho um conjunto de dados de amostra com 31 valores. Fiz um teste t bicaudal usando R para testar se a média verdadeira é igual a 10: t.test(x=data, mu=10, conf.level=0.95) Resultado: t = 11.244, df = 30, p-value = 2.786e-12 alternative hypothesis: true mean is not equal to 10 95 percent...

r statistical-significance t-test p-value

49

Por que o coeficiente de correlação entre variáveis aleatórias X e XY tende a ser 0,7

Extraído de Estatísticas Práticas para Pesquisa Médica, onde Douglas Altman escreve na página 285: ... para quaisquer duas quantidades X e Y, X será correlacionado com XY. De fato, mesmo que X e Y sejam amostras de números aleatórios, esperaríamos que a correlação de X e XY fosse 0,7 Eu tentei...

correlation random-variable intuition

49

Como a regressão, o teste t e a ANOVA são todas as versões do modelo linear geral?

Como são todas as versões do mesmo método estatístico

regression self-study anova generalized-linear-model t-test

49

Métricas de desempenho para avaliar o aprendizado não supervisionado

Com relação ao aprendizado não supervisionado (como cluster), existem métricas para avaliar o

machine-learning clustering data-mining unsupervised-learning

49

Por que a regressão logística é um classificador linear?

Como estamos usando a função logística para transformar uma combinação linear da entrada em uma saída não linear, como a regressão logística pode ser considerada um classificador linear? A regressão linear é como uma rede neural sem a camada oculta, então por que as redes neurais são consideradas...

logistic classification neural-networks

49

Qual é a melhor maneira de lembrar a diferença entre sensibilidade, especificidade, precisão, exatidão e recall?

Apesar de ter visto esses termos 502847894789 vezes, não consigo me lembrar da diferença entre sensibilidade, especificidade, precisão, exatidão e recordação. Eles são conceitos bastante simples, mas os nomes não são muito intuitivos para mim, então eu os confundi. Qual é uma boa maneira de pensar...

terminology accuracy sensitivity-specificity

49

Qual deve ser o tamanho do lote para a descida do gradiente estocástico?

Entendo que a descida do gradiente estocástico pode ser usada para otimizar uma rede neural usando retropropagação, atualizando cada iteração com uma amostra diferente do conjunto de dados de treinamento. Qual deve ser o tamanho do

machine-learning neural-networks gradient-descent backpropagation

49

Limite de probabilidade de classificação

Eu tenho uma pergunta sobre classificação em geral. Seja f um classificador, que produz um conjunto de probabilidades, com base em alguns dados D. Normalmente, alguém diria: bem, se P (c | D)> 0,5, atribuiremos uma classe 1, caso contrário, 0 (que seja binário classificação). Minha pergunta é:...

machine-learning classification binary-data threshold

48

Qual é o seu blog favorito de visualização de dados?

Qual é o melhor blog sobre visualização de dados? Estou fazendo desta pergunta um wiki da comunidade, pois é altamente subjetivo. Limite cada resposta a um link. Observe os seguintes critérios para as respostas propostas: [A] respostas aceitáveis para perguntas como essa ... precisam...

data-visualization references

48

Qual é um bom algoritmo para estimar a mediana de um enorme conjunto de dados de leitura única?

Estou procurando um bom algoritmo (que significa computação mínima, requisitos mínimos de armazenamento) para estimar a mediana de um conjunto de dados muito grande para armazenar, de modo que cada valor possa ser lido apenas uma vez (a menos que você armazene explicitamente esse valor). Não há...

algorithms median large-data

48

Qual é a diferença entre NaN e NA?

Gostaria de saber por que algumas línguas como R têm NA e NaN. Quais são as diferenças ou são igualmente iguais? É realmente necessário ter

r

48

Como identificar uma distribuição bimodal?

Entendo que, depois de traçarmos os valores como um gráfico, podemos identificar uma distribuição bimodal observando os picos duplos, mas como encontrá-la programaticamente? (Estou procurando um

distributions

48

O qui-quadrado é sempre um teste unilateral?

Um artigo publicado ( pdf ) contém estas 2 frases: Além disso, a declaração incorreta pode ser causada pela aplicação de regras incorretas ou pela falta de conhecimento do teste estatístico. Por exemplo, o df total em uma ANOVA pode ser considerado o erro df no relatório de um teste , ou o...

hypothesis-testing chi-squared