Como posso remover linhas duplicadas desse quadro de dados de exemplo? A 1 A 1 A 2 B 4 B 1 B 1 C 2 C 2 Gostaria de remover as duplicatas com base nas duas colunas: A 1 A 2 B 4 B 1 C 2 A ordem não é
Como posso remover linhas duplicadas desse quadro de dados de exemplo? A 1 A 1 A 2 B 4 B 1 B 1 C 2 C 2 Gostaria de remover as duplicatas com base nas duas colunas: A 1 A 2 B 4 B 1 C 2 A ordem não é
Para um estudo de simulação, eu tenho que gerar variáveis aleatórias que mostram uma correlação pré-definida (população) com uma variável existente YYY. Examinei os Rpacotes copulae CDVineque podem produzir distribuições multivariadas aleatórias com uma determinada estrutura de dependência. No...
Quais são as pontuações dos componentes principais (pontuações PC, pontuações
Parece que a mineração de dados e o aprendizado de máquina se tornaram tão populares que agora quase todo estudante de CS conhece classificadores, agrupamentos, PNL estatística ... etc. Portanto, parece que encontrar mineradores de dados não é algo difícil hoje em dia. Minha pergunta é: Quais são...
Atualmente, estou trabalhando em um trabalho de pesquisa quase experimental. Eu só tenho um tamanho de amostra de 15 devido à baixa população na área escolhida e que apenas 15 se enquadram nos meus critérios. 15 é o tamanho mínimo da amostra para calcular para o teste t e o teste F? Em caso...
No curso de aprendizado de máquina de Andrew Ng , ele introduz a regressão linear e a regressão logística e mostra como ajustar os parâmetros do modelo usando a descida do gradiente e o método de Newton. Eu sei que a descida gradiente pode ser útil em algumas aplicações de aprendizado de máquina...
Essa pergunta foi desencadeada por algo que li neste livro de estatística em nível de pós-graduação e também (independentemente) ouvi durante esta apresentação em um seminário de estatística. Nos dois casos, a declaração foi semelhante à "porque o tamanho da amostra é bem pequeno, decidimos...
A pergunta: existem bons exemplos de pesquisas reproduzíveis usando R disponíveis gratuitamente on-line? Exemplo ideal: Especificamente, os exemplos ideais forneceriam: Os dados brutos (e idealmente metadados explicando os dados), Todo o código R, incluindo importação, processamento, análise e...
Pergunta: Quero ter certeza de alguma coisa, o uso da validação cruzada k-fold com séries temporais é direto ou é necessário prestar atenção especial antes de usá-lo? Antecedentes: estou modelando uma série temporal de 6 anos (com cadeia semi-markov), com uma amostra de dados a cada 5 minutos....
Qual é a estratégia apropriada para dividir o conjunto de dados? I pedir feedback sobre a abordagem seguinte (não sobre os parâmetros individuais como test_sizeou n_iter, mas se eu usasse X, y, X_train, y_train, X_test, e y_testde forma adequada e se a sequência faz sentido): (estendendo este...
fundo Estou trabalhando no Network Operations Center, monitoramos os sistemas de computadores e seu desempenho. Uma das principais métricas a serem monitoradas é o número de visitantes \ clientes atualmente conectados aos nossos servidores. Para torná-lo visível, nós (equipe de operações)...
A análise de correlação canônica (CCA) é uma técnica relacionada à análise de componentes principais (PCA). Embora seja fácil ensinar PCA ou regressão linear usando um gráfico de dispersão (veja alguns milhares de exemplos na pesquisa de imagens do google), não vi um exemplo bidimensional intuitivo...
A econometria se sobrepõe substancialmente às estatísticas tradicionais, mas geralmente usa seu próprio jargão sobre uma variedade de tópicos ("identificação", "exógena" etc.). Certa vez, ouvi um professor de estatística aplicada em outro campo comentar que freqüentemente a terminologia é...
Estou curioso, para aqueles de vocês com vasta experiência em colaborar com outros pesquisadores, quais são alguns dos conceitos errôneos mais comuns sobre regressão linear que você encontra? Eu acho que pode ser um exercício útil pensar antecipadamente sobre equívocos comuns, a fim de...
Em abril, participei de uma palestra na série de seminários do grupo de Estatísticas do Departamento de Matemática da UMD denominada "Explicar ou prever?". A palestra foi proferida pelo Prof. Galit Shmueli, que leciona na Smith Business School da UMD. Sua palestra foi baseada na pesquisa que ela...
Em uma regressão linear múltipla, por que é possível ter uma estatística F altamente significativa (p <0,001), mas ter valores de p muito altos em todos os testes t do regressor? No meu modelo, existem 10 regressores. Um deles tem um valor de p de 0,1 e o restante está acima de 0,9 Para...
Embora todas as imagens no conjunto de dados MNIST estejam centralizadas, em uma escala semelhante e com a face para cima sem rotações, elas têm uma variação significativa de manuscrito que me intriga como um modelo linear atinge uma precisão de classificação tão alta. Tanto quanto eu consigo...
Comparei ?prcompe ?princompencontrei algo sobre a análise de componentes principais (QA) e modo Q (modo principal) (PCA). Mas honestamente - eu não entendo. Alguém pode explicar a diferença e talvez até explicar quando aplicar
Precisa entender o funcionamento da camada 'Incorporação' na biblioteca Keras. Eu executo o seguinte código em Python import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array =...
Quais são alguns projetos valiosos de código aberto da Análise Estatística disponíveis no momento? Edit: como apontado por Sharpie, valioso pode significar ajudar você a fazer as coisas mais rápido ou mais