Estatísticas e Big Data

181
Como resumir dados por grupo em R? [fechadas]

Eu tenho R quadro de dados como este: age group 1 23.0883 1 2 25.8344 1 3 29.4648 1 4 32.7858 2 5 33.6372 1 6 34.9350 1 7 35.2115 2 8 35.2115 2 9 35.2115 2 10 36.7803 1 ... Preciso obter o quadro de dados no seguinte formato: group mean sd 1 34.5 5.6 2 32.3 4.2 ... O número do grupo pode...

181
O que é um cientista de dados?

Tendo me graduado recentemente em meu programa de doutorado em estatística, durante os últimos dois meses comecei a procurar trabalho no campo da estatística. Quase todas as empresas que eu considerei tinham um anúncio de emprego com o título de " Data Scientist ". De fato, parecia que estavam...

175
Qual é o tamanho do lote na rede neural?

Estou usando Python Keras packagepara rede neural. Este é o link . É batch_sizeigual ao número de amostras de teste? Da Wikipedia, temos esta informação: No entanto, em outros casos, a avaliação do gradiente de soma pode exigir avaliações dispendiosas dos gradientes de todas as funções de soma....

173
Como interpretar um gráfico QQ

Estou trabalhando com um pequeno conjunto de dados (21 observações) e tenho o seguinte gráfico QQ normal em R: Visto que o enredo não suporta a normalidade, o que eu poderia deduzir sobre a distribuição subjacente? Parece-me que uma distribuição mais inclinada para a direita seria mais...

167
Quando devo usar laço vs cume?

Digamos que eu queira estimar um grande número de parâmetros e quero penalizar alguns deles porque acredito que eles devem ter pouco efeito em comparação com os outros. Como decido qual esquema de penalização usar? Quando a regressão de crista é mais apropriada? Quando devo usar o...

159
ROC vs curvas de precisão e recuperação

Eu entendo as diferenças formais entre eles, o que eu quero saber é quando é mais relevante usar um vs. o outro. Eles sempre fornecem informações complementares sobre o desempenho de um determinado sistema de classificação / detecção? Quando é razoável fornecer os dois, digamos, em um artigo?...

153
Generativo x discriminativo

Eu sei que generativo significa "baseado em " e discriminativo significa "baseado em ", mas estou confuso em vários pontos:P( x , y)P(x,y)P(x,y)P( y| x)P(y|x)P(y|x) A Wikipedia (+ muitas outras ocorrências na web) classificam coisas como SVMs e árvores de decisão como discriminatórias. Mas estes...

147
A análise de componentes principais pode ser aplicada a conjuntos de dados que contêm uma mistura de variáveis ​​contínuas e categóricas?

Eu tenho um conjunto de dados que possui dados contínuos e categóricos. Estou analisando usando o PCA e estou me perguntando se é bom incluir as variáveis ​​categóricas como parte da análise. Meu entendimento é que o PCA só pode ser aplicado a variáveis ​​contínuas. Isso está correto? Se não puder...