Tentarei responder às suas perguntas, mas antes de observar que o termo "conjunto de dados grande" é enganoso, pois "grande" é um conceito relativo . Você precisa fornecer mais detalhes. Se você estiver lidando com dados de lances , esse fato provavelmente afetará a seleção de ferramentas , abordagens e algoritmos preferidos para sua análise de dados . Espero que os seguintes pensamentos meus sobre análise de dados abordem suas sub-perguntas. Observe que a numeração dos meus pontos não corresponde à numeração das suas sub-perguntas. No entanto, acredito que reflete melhor o fluxo de trabalho geral da análise de dados , pelo menos como eu o entendo.
1) Em primeiro lugar, acho que você precisa ter pelo menos algum tipo de modelo conceitual em mente (ou, melhor, no papel). Este modelo deve guiá-lo em sua análise exploratória de dados (EDA) . A presença de uma variável dependente (DV) no modelo significa que, na fase de aprendizado de máquina (ML) , mais adiante na análise, você lidará com o chamado ML supervisionado, em oposição ao ML não supervisionado na ausência de um DV identificado.
2) Em segundo lugar, a EDA é uma parte crucial. IMHO, EDA deve incluir várias iterações de produção de estatísticas descritivas e visualização de dados , conforme você refina sua compreensão sobre os dados. Não apenas esta fase fornecerá informações valiosas sobre seus conjuntos de dados, mas também alimentará sua próxima fase importante - limpeza e transformação de dados . Apenas colocar seus dados brutos em um pacote de software estatístico não dará muito - para qualquer análise estatística válida , os dados devem estar limpos, corretos e consistentes . Geralmente, essa é a parte que consome mais tempo e esforço, mas é absolutamente necessária. Para mais detalhes sobre este tópico, leia estes belos papéis:http://vita.had.co.nz/papers/tidy-data.pdf (de Hadley Wickham) e http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (por Edwin de Jonge e Mark van der Loo).
3) Agora, como esperamos que você termine com a EDA e com a limpeza e transformação de dados, você está pronto para iniciar algumas fases mais estatisticamente envolvidas. Uma dessas fases é a análise fatorial exploratória (EFA) , que permitirá extrair a estrutura subjacente dos seus dados. Para conjuntos de dados com grande número de variáveis, o efeito colateral positivo do EFA é a redução da dimensionalidade . E, nesse sentido, o EFA é semelhante à análise de componentes principais (PCA)e outras abordagens de redução de dimensionalidade, acho que a EPT é mais importante, pois permite refinar seu modelo conceitual dos fenômenos que seus dados "descrevem", assim dando sentido aos seus conjuntos de dados. É claro que, além do EFA, você pode / deve executar a análise de regressão , bem como aplicar técnicas de aprendizado de máquina , com base nas descobertas das fases anteriores.
Finalmente, uma nota sobre ferramentas de software . Na minha opinião, o estado atual dos pacotes estatísticos de software está em tal ponto que praticamente todos os principais pacotes de software têm ofertas comparáveis em termos de recursos. Se você estuda ou trabalha em uma organização que possui determinadas políticas e preferências em termos de ferramentas de software, fica restrito a elas. No entanto, se esse não for o caso, recomendo vivamente o software estatístico de código aberto, com base no seu conforto com sua linguagem de programação específica , curva de aprendizado e perspectivas de carreira . Minha plataforma atual de escolha é o R Project, que oferece software estatístico maduro, poderoso, flexível, extensivo e aberto, além de um incrível ecossistema de pacotes, especialistas e entusiastas. Outras boas opções incluem Python , Julia e software de código aberto específico para o processamento de big data , como Hadoop , Spark , bancos de dados NoSQL , WEKA . Para obter mais exemplos de software de código aberto para mineração de dados , que incluem software estatístico e ML geral e específico, consulte esta seção de uma página da Wikipedia: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications .
ATUALIZAÇÃO: Esqueci de mencionar o Rattle ( http://rattle.togaware.com ), que também é um software GUI orientado para R de código aberto muito popular para mineração de dados.
O SPSS é uma ótima ferramenta, mas você pode obter muitos recursos que já possui em seu computador, como o Excel, ou gratuitos, como o projeto R. Embora essas ferramentas sejam poderosas e possam ajudá-lo a identificar padrões, você precisará ter uma compreensão firme de seus dados antes de executar análises (eu recomendo executar estatísticas descritivas em seus dados e explorar os dados com gráficos para garantir que tudo está parecendo normal). Em outras palavras, a ferramenta que você usa não oferece uma "bala de prata", porque a saída será tão valiosa quanto a entrada (você sabe o ditado ... "lixo dentro, lixo fora"). Muito do que estou dizendo já foi afirmado na resposta de Aleksandr - no local.
O R pode ser um desafio para aqueles que não são conhecedores da codificação, mas os recursos gratuitos associados ao R e seus pacotes são abundantes. Se você praticar o aprendizado do programa, rapidamente ganhará força. Novamente, você precisará estar familiarizado com seus dados e com as análises que deseja executar de qualquer maneira, e esse fato permanece independentemente das ferramentas estatísticas que você utiliza.
Começaria familiarizando-me com meus dados (siga as etapas descritas na resposta de Aleksandr, para iniciantes). Você pode considerar pegar o livro de John Foreman chamado Data Smart. É um livro prático, pois John fornece conjuntos de dados e você segue seus exemplos (usando o Excel) para aprender várias maneiras de navegar e explorar dados. Para iniciantes, é um ótimo recurso.
fonte
Aleksandr deu uma explicação muito completa, mas brevemente, estas são as etapas que são seguidas:
Extraindo dados
Dados de limpeza
Extração de recursos
Modelos de construção
Inferindo resultados
Publicando resultados
Repita as etapas 3,4,5 em loop até obter a precisão correta.
fonte
R possui GUIs de diálogo pnc como o SPSS. Eles imprimem o código R para que você possa aprender e combinar seus esforços. Eu recomendaria o BlueSky por seus diálogos para tudo e chocalho. Embora esses softwares sejam ótimos para EDA, estatística e visualização, o aprendizado de máquina não se sai bem.
fonte