Estatísticas e Big Data

54
Estamos exagerando a importância da suposição e avaliação do modelo em uma época em que as análises são frequentemente realizadas por leigos

Resumindo , quanto mais aprendo sobre estatística, menos confio em artigos publicados em meu campo; Simplesmente acredito que os pesquisadores não estão fazendo suas estatísticas suficientemente bem. Sou leigo, por assim dizer. Sou formado em biologia, mas não tenho educação formal em...

54
Qual é uma explicação intuitiva de como o PCA passa de um problema geométrico (com distâncias) para um problema de álgebra linear (com vetores próprios)?

Eu li muito sobre o PCA, incluindo vários tutoriais e perguntas (como este , este , este e este ). O problema geométrico que o PCA está tentando otimizar é claro para mim: o PCA tenta encontrar o primeiro componente principal minimizando o erro de reconstrução (projeção), que maximiza...

54
Como R e Python se complementam na ciência de dados?

Em muitos tutoriais ou manuais, a narrativa parece implicar que R e python coexistem como componentes complementares do processo de análise. Para meus olhos destreinados, no entanto, parece que os dois idiomas fazem o mesmo. Então, minha pergunta é se existem nichos realmente especializados para...

53
Regressão linear online eficiente

Estou analisando alguns dados nos quais gostaria de executar uma regressão linear comum, mas isso não é possível, pois estou lidando com uma configuração on-line com um fluxo contínuo de dados de entrada (que rapidamente se tornará muito grande para memória) e precisa para atualizar estimativas de...

53
Aprendizado de Máquina usando Python

Estou pensando em usar bibliotecas Python para fazer minhas experiências de Machine Learning. Até agora, eu confiava no WEKA, mas fiquei bastante insatisfeito. Isso ocorre principalmente porque achei que o WEKA não é tão bem suportado (muito poucos exemplos, a documentação é escassa e o apoio da...

53
APIs / feeds de dados disponíveis como pacotes em R

EDIT: A exibição da tarefa CRAN de Tecnologias e Serviços da Web contém uma lista muito mais abrangente de fontes de dados e APIs disponíveis no R. Você pode enviar uma solicitação pull no github se desejar adicionar um pacote à exibição da tarefa. Estou fazendo uma lista dos vários feeds de...

52
Clustering com uma matriz de distância

Eu tenho uma matriz (simétrica) Mque representa a distância entre cada par de nós. Por exemplo, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 80 80 120 140 140 140 D 20 20 20 0 60 80 80 80 120 140 140 140 E 40 60 60 60 0 20 20 20...