Perguntas com a marcação «data-mining»

365

Como entender as desvantagens do K-means

K-means é um método amplamente utilizado na análise de agrupamentos. No meu entendimento, esse método NÃO requer QUALQUER suposição, ou seja, me forneça um conjunto de dados e um número pré-especificado de clusters, k, e apenas aplico esse algoritmo que minimiza a soma dos erros ao quadrado (SSE),...

208

Qual é a diferença entre mineração de dados, estatística, aprendizado de máquina e IA?

Qual é a diferença entre mineração de dados, estatística, aprendizado de máquina e IA? Seria correto dizer que são quatro campos tentando resolver problemas muito semelhantes, mas com abordagens diferentes? O que exatamente eles têm em comum e onde eles diferem? Se existe algum tipo de hierarquia...

machine-learning data-mining

131

Kappa de Cohen em inglês comum

Estou lendo um livro de mineração de dados e ele mencionou a estatística Kappa como um meio de avaliar o desempenho de previsão dos classificadores. No entanto, eu simplesmente não consigo entender isso. Também verifiquei a Wikipedia, mas também não ajudou:

classification data-mining cohens-kappa

127

Obtendo conhecimento de uma floresta aleatória

Florestas aleatórias são consideradas caixas pretas, mas recentemente eu estava pensando que conhecimento pode ser obtido de uma floresta aleatória? O mais óbvio é a importância das variáveis, na variante mais simples isso pode ser feito apenas calculando o número de ocorrências de uma variável....

machine-learning data-mining interaction random-forest cart

73

Ter um emprego na mineração de dados sem um doutorado

Há muito tempo que me interesso por mineração de dados e aprendizado de máquina , em parte porque me formei nessa área na escola, mas também porque estou realmente muito mais empolgado tentando resolver problemas que exigem um pouco mais de reflexão do que apenas programação conhecimento e cuja...

machine-learning data-mining careers phd

72

A distância euclidiana geralmente não é boa para dados esparsos?

Vi em algum lugar que distâncias clássicas (como a distância euclidiana) se tornam fracamente discriminantes quando temos dados multidimensionais e esparsos. Por quê? Você tem um exemplo de dois vetores de dados esparsos em que a distância euclidiana não apresenta bom desempenho? Nesse caso, que...

machine-learning clustering data-mining sparse euclidean

71

Gere uma variável aleatória com uma correlação definida para uma (s) variável (s) existente (s)

Para um estudo de simulação, eu tenho que gerar variáveis aleatórias que mostram uma correlação pré-definida (população) com uma variável existente YYY. Examinei os Rpacotes copulae CDVineque podem produzir distribuições multivariadas aleatórias com uma determinada estrutura de dependência. No...

r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

71

Habilidades difíceis de encontrar em aprendizes de máquina?

Parece que a mineração de dados e o aprendizado de máquina se tornaram tão populares que agora quase todo estudante de CS conhece classificadores, agrupamentos, PNL estatística ... etc. Portanto, parece que encontrar mineradores de dados não é algo difícil hoje em dia. Minha pergunta é: Quais são...

machine-learning data-mining

61

Por que apenas três partições? (treinamento, validação, teste)

Quando você está tentando ajustar modelos a um grande conjunto de dados, o conselho comum é particionar os dados em três partes: o conjunto de dados de treinamento, validação e teste. Isso ocorre porque os modelos geralmente têm três "níveis" de parâmetros: o primeiro "parâmetro" é a classe do...

machine-learning model-selection data-mining

56

Software necessário para capturar dados do gráfico [fechado]

Alguém tem alguma experiência com software (de preferência gratuito, preferencialmente de código aberto) que obtém uma imagem dos dados plotados em coordenadas cartesianas (uma plotagem padrão do dia-a-dia) e extrai as coordenadas dos pontos plotados no gráfico? Essencialmente, esse é um problema...

data-visualization data-mining software

54

A amostragem é relevante no momento do 'big data'?

Ou mais ainda "será"? O Big Data torna as estatísticas e os conhecimentos relevantes ainda mais importantes, mas parece subestimar a teoria de amostragem. Eu já vi esse hype em torno de 'Big Data' e não posso deixar de pensar que "por que" eu gostaria de analisar tudo ? Não havia uma razão para a...

sampling data-mining large-data

51

Temos um problema de "piedade de votos"?

Eu sei, isso pode parecer estranho, mas ouça. No Stack Overflow e aqui obtemos votos nas postagens, tudo isso é armazenado em forma de tabela. Por exemplo: ID da postagem ID do eleitor tipo de voto datetime ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01...

time-series hypothesis-testing data-mining markov-process censoring

50

Clustering com K-Means e EM: como eles estão relacionados?

Estudei algoritmos para agrupar dados (aprendizado não supervisionado): EM e k-means. Eu continuo lendo o seguinte: O k-means é uma variante do EM, com as suposições de que os clusters são esféricos. Alguém pode explicar a frase acima? Eu não entendo o que significa esférico e como kmeans e EM...

machine-learning clustering data-mining k-means expectation-maximization

49

Métricas de desempenho para avaliar o aprendizado não supervisionado

Com relação ao aprendizado não supervisionado (como cluster), existem métricas para avaliar o

machine-learning clustering data-mining unsupervised-learning

40

Quais são as diferenças entre os modelos ocultos de Markov e as redes neurais?

Estou apenas começando a me molhar nas estatísticas, então desculpe se esta pergunta não faz sentido. Eu usei os modelos de Markov para prever estados ocultos (cassinos injustos, jogadas de dados etc.) e redes neurais para estudar os cliques dos usuários em um mecanismo de pesquisa. Ambos tinham...

data-mining algorithms neural-networks markov-process

40

Como tirar conclusões válidas do “big data”?

"Big data" está em toda parte na mídia. Todo mundo diz que "big data" é algo importante para 2012, por exemplo, o KDNuggets faz pesquisas sobre tópicos importantes para 2012 . No entanto, tenho profundas preocupações aqui. Com o big data, todo mundo parece feliz apenas em conseguir alguma coisa ....

data-mining dataset large-data validation

36

Medida de elevação na mineração de dados

Pesquisei muitos sites para saber exatamente o que o elevador fará? Os resultados que encontrei foram sobre o uso em aplicativos e não em si. Eu sei sobre a função de suporte e confiança. Na Wikipedia, na mineração de dados, o lift é uma medida do desempenho de um modelo na previsão ou...

data-mining

35

Pense como um bayesiano, verifique como um freqüentador: O que isso significa?

Estou vendo alguns slides de palestras em um curso de ciência de dados que pode ser encontrado aqui: https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf Infelizmente, não consigo ver o vídeo desta palestra e, a certa altura do slide, o apresentador tem o seguinte texto: Alguns...

bayesian data-mining frequentist

34

Mineração de dados: como devo encontrar a forma funcional?

Estou curioso sobre procedimentos repetitivos que podem ser usados para descobrir a forma funcional da função y = f(A, B, C) + error_termonde minha única entrada é um conjunto de observações ( y, A, Be C). Observe que a forma funcional de fé desconhecida. Considere o seguinte conjunto de...

regression machine-learning algorithms model-selection data-mining

34

Por que existe uma diferença entre calcular manualmente um intervalo de confiança de 95% da regressão logística e usar a função confint () em R?

Caro pessoal, notei algo estranho que não sei explicar, não é? Em resumo: a abordagem manual para calcular um intervalo de confiança em um modelo de regressão logística e a função R confint()fornecem resultados diferentes. Eu tenho passado pela regressão logística aplicada de Hosmer & Lemeshow...

r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture