Eu planejo algo para fazer um ponto para mim ou para outra pessoa. Geralmente, uma pergunta inicia esse processo e, muitas vezes, a pessoa que pede esperanças para uma resposta específica.
Como posso aprender coisas interessantes sobre os dados de uma maneira menos tendenciosa?
No momento, estou seguindo aproximadamente esse método:
- Resumo de estatísticas.
- Stripchart.
- Gráfico de dispersão.
- Talvez repita com um subconjunto interessante de dados.
Mas isso não parece suficientemente metódico ou científico.
Existem diretrizes ou procedimentos a seguir que revelam coisas sobre os dados que eu não gostaria de perguntar? Como sei quando fiz uma análise adequada?
Se você possui dados cronológicos, dados da série ietime, existem "conhecidos" e aguardando descoberta são os "desconhecidos". Por exemplo, se você tiver uma sequência de pontos de dados por 10 períodos, como 1,9,1,9,1,5,1,9,1,9, com base nessa amostra, é possível esperar razoavelmente 1,9,1,9 , ... surgir no futuro. O que a análise dos dados revela é que há uma leitura "incomum" no período 6, mesmo estando dentro dos limites de + -3 sigma, sugerindo que o DGF não se manteve. Desmascarar o Inlier / Outlier nos permite revelar coisas sobre os dados. Também observamos que o valor médio não é o valor esperado. Essa idéia se estende facilmente à detecção de turnos médios e / ou tendências de horário local que podem ter sido desconhecidos antes da análise dos dados (geração de hipóteses). Agora é bem possível que as próximas 10 leituras também sejam 1,9,1,9, 1,5,1,9,1,9 sugerindo que o "5" não é necessariamente desagradável. Se observarmos um processo de erro de um modelo adequado que exibe uma variação não constante comprovável, poderemos revelar um dos seguintes estados da natureza: 1) os parâmetros podem ter mudado em um determinado momento; 2. Pode haver necessidade de Análise Ponderada (GLS); 3. Pode ser necessário transformar os dados por meio de uma transformação de energia; 4. Pode haver uma necessidade de modelar a variação dos erros. Se você tiver dados diários, uma boa análise poderá revelar que existe uma janela de resposta (estrutura de leads, contemporânea e de atraso) ao redor de cada feriado, refletindo um comportamento consistente / previsível. Você também pode revelar que determinados dias do mês têm um efeito significativo ou que as sextas-feiras antes de um feriado de segunda-feira têm uma atividade excepcional. 9 sugerindo que o "5" não é necessariamente desagradável. Se observarmos um processo de erro de um modelo adequado que exibe uma variação não constante comprovável, poderemos revelar um dos seguintes estados da natureza: 1) os parâmetros podem ter mudado em um determinado momento; 2. Pode haver necessidade de Análise Ponderada (GLS); 3. Pode ser necessário transformar os dados por meio de uma transformação de energia; 4. Pode haver uma necessidade de modelar a variação dos erros. Se você tiver dados diários, uma boa análise poderá revelar que existe uma janela de resposta (estrutura de leads, contemporânea e de atraso) ao redor de cada feriado, refletindo um comportamento consistente / previsível. Você também pode revelar que determinados dias do mês têm um efeito significativo ou que as sextas-feiras antes de um feriado de segunda-feira têm uma atividade excepcional. 9 sugerindo que o "5" não é necessariamente desagradável. Se observarmos um processo de erro de um modelo adequado que exibe uma variação não constante comprovável, poderemos revelar um dos seguintes estados da natureza: 1) os parâmetros podem ter mudado em um determinado momento; 2. Pode haver necessidade de Análise Ponderada (GLS); 3. Pode ser necessário transformar os dados por meio de uma transformação de energia; 4. Pode haver uma necessidade de modelar a variação dos erros. Se você tiver dados diários, uma boa análise poderá revelar que existe uma janela de resposta (estrutura de leads, contemporânea e de atraso) ao redor de cada feriado, refletindo um comportamento consistente / previsível. Você também pode revelar que determinados dias do mês têm um efeito significativo ou que as sextas-feiras antes de um feriado de segunda-feira têm uma atividade excepcional. não é necessariamente desagradável. Se observarmos um processo de erro de um modelo adequado que exibe uma variação não constante comprovável, poderemos revelar um dos seguintes estados da natureza: 1) os parâmetros podem ter mudado em um determinado momento; 2. Pode haver necessidade de Análise Ponderada (GLS); 3. Pode ser necessário transformar os dados por meio de uma transformação de energia; 4. Pode haver uma necessidade de modelar a variação dos erros. Se você tiver dados diários, uma boa análise poderá revelar que existe uma janela de resposta (estrutura de leads, contemporânea e de atraso) ao redor de cada feriado, refletindo um comportamento consistente / previsível. Você também pode revelar que determinados dias do mês têm um efeito significativo ou que as sextas-feiras antes de um feriado de segunda-feira têm uma atividade excepcional. não é necessariamente desagradável. Se observarmos um processo de erro de um modelo adequado que exibe uma variação não constante comprovável, poderemos revelar um dos seguintes estados da natureza: 1) os parâmetros podem ter mudado em um determinado momento; 2. Pode haver necessidade de Análise Ponderada (GLS); 3. Pode ser necessário transformar os dados por meio de uma transformação de energia; 4. Pode haver uma necessidade de modelar a variação dos erros. Se você tiver dados diários, uma boa análise poderá revelar que existe uma janela de resposta (estrutura de leads, contemporânea e de atraso) ao redor de cada feriado, refletindo um comportamento consistente / previsível. Você também pode revelar que determinados dias do mês têm um efeito significativo ou que as sextas-feiras antes de um feriado de segunda-feira têm uma atividade excepcional. Se observarmos um processo de erro de um modelo adequado que exibe uma variação não constante comprovável, poderemos revelar um dos seguintes estados da natureza: 1) os parâmetros podem ter mudado em um determinado momento; 2. Pode haver necessidade de Análise Ponderada (GLS); 3. Pode ser necessário transformar os dados por meio de uma transformação de energia; 4. Pode haver uma necessidade de modelar a variação dos erros. Se você tiver dados diários, uma boa análise poderá revelar que existe uma janela de resposta (estrutura de leads, contemporânea e de atraso) ao redor de cada feriado, refletindo um comportamento consistente / previsível. Você também pode revelar que determinados dias do mês têm um efeito significativo ou que as sextas-feiras antes de um feriado de segunda-feira têm uma atividade excepcional. Se observarmos um processo de erro de um modelo adequado que exibe uma variação não constante comprovável, poderemos revelar um dos seguintes estados da natureza: 1) os parâmetros podem ter mudado em um determinado momento; 2. Pode haver necessidade de Análise Ponderada (GLS); 3. Pode ser necessário transformar os dados por meio de uma transformação de energia; 4. Pode haver uma necessidade de modelar a variação dos erros. Se você tiver dados diários, uma boa análise poderá revelar que existe uma janela de resposta (estrutura de leads, contemporânea e de atraso) ao redor de cada feriado, refletindo um comportamento consistente / previsível. Você também pode revelar que determinados dias do mês têm um efeito significativo ou que as sextas-feiras antes de um feriado de segunda-feira têm uma atividade excepcional. Pode haver uma necessidade de análise ponderada (GLS); 3. Pode ser necessário transformar os dados por meio de uma transformação de energia; 4. Pode haver uma necessidade de modelar a variação dos erros. Se você tiver dados diários, uma boa análise poderá revelar que existe uma janela de resposta (estrutura de leads, contemporânea e de atraso) ao redor de cada feriado, refletindo um comportamento consistente / previsível. Você também pode revelar que determinados dias do mês têm um efeito significativo ou que as sextas-feiras antes de um feriado de segunda-feira têm uma atividade excepcional. Pode haver uma necessidade de análise ponderada (GLS); 3. Pode ser necessário transformar os dados por meio de uma transformação de energia; 4. Pode haver uma necessidade de modelar a variação dos erros. Se você tiver dados diários, uma boa análise poderá revelar que existe uma janela de resposta (estrutura de leads, contemporânea e de atraso) ao redor de cada feriado, refletindo um comportamento consistente / previsível. Você também pode revelar que determinados dias do mês têm um efeito significativo ou que as sextas-feiras antes de um feriado de segunda-feira têm uma atividade excepcional. contemporânea e atrasada) em torno de cada feriado, refletindo um comportamento consistente / previsível. Você também pode revelar que determinados dias do mês têm um efeito significativo ou que as sextas-feiras antes de um feriado de segunda-feira têm uma atividade excepcional. contemporânea e atrasada) em torno de cada feriado, refletindo um comportamento consistente / previsível. Você também pode revelar que determinados dias do mês têm um efeito significativo ou que as sextas-feiras antes de um feriado de segunda-feira têm uma atividade excepcional.
fonte
A dataminação pode ser dividida em duas categorias. Se você estiver interessado em medir o efeito de um conjunto de dados / variáveis em uma variável específica, isso será considerado aprendizado supervisionado. Para um aprendizado profundo e exploratório sem objetivo, você está passando por um aprendizado não supervisionado.
Gráficos e análises estatísticas dos dados (compreendendo distribuições e ganhando intuição) são os primeiros passos.
fonte