Quais são as principais diferenças entre dados esparsos e dados ausentes? E como isso influencia o aprendizado de máquina? Mais especificamente, que efeito os dados esparsos e ausentes têm sobre algoritmos de classificação e algoritmos de regressão (números preditores). Estou falando de uma situação em que a porcentagem de dados ausentes é significativa e não podemos descartar as linhas que contêm dados ausentes.
machine-learning
dataset
missing-data
sparse
dev cansado e entediado
fonte
fonte
Respostas:
Para facilitar a compreensão, descreverei isso usando um exemplo. Digamos que você esteja coletando dados de um dispositivo com 12 sensores. E você coletou dados por 10 dias.
Os dados que você coletou são os seguintes:
Isso é chamado de dados esparsos porque a maioria das saídas do sensor é zero. O que significa que esses sensores estão funcionando corretamente, mas a leitura real é zero. Embora essa matriz possua dados de alta dimensão (12 eixos), pode-se dizer que contém menos informações.
Digamos que 2 sensores do seu dispositivo estejam com defeito.
Seus dados serão como:
Nesse caso, você pode ver que não pode usar dados do Sensor1 e Sensor6. Você deve preencher os dados manualmente sem afetar os resultados ou refazer o experimento.
fonte