Qual algoritmo de aprendizado de máquina pode ser usado para identificar padrões em um conjunto de dados do desempenho do cache de uma CPU?

9

Preciso de um algoritmo de aprendizado de máquina para identificar padrões em um conjunto de dados (salvo em um arquivo CSV) que contenha detalhes do desempenho do cache de uma CPU. Mais especificamente, o conjunto de dados contém colunas como Readhits, Readmissou Writehits.

Os padrões que o algoritmo identifica devem ser úteis das seguintes maneiras.

ajude o usuário a aumentar o desempenho da carga de trabalho na próxima vez,
ajudar a identificar problemas com base nos recursos ou
ajude o usuário a prever valores de dados futuros ou eventos futuros que possam ocorrer com base nos padrões.

Quais algoritmos de ML posso usar?

machine-learning algorithm unsupervised-learning pattern-recognition aAAAAAAa
fonte

0

As máquinas RBMs (Boltzmann restritas) podem identificar padrões em um arquivo CSV sem que o usuário especifique condições. Eles são adequados para gerar "representações distribuídas e graduadas" de um conjunto complexo de recursos que compõem dados reais de alta dimensão, que são cruciais para alcançar alto desempenho em tarefas de aprendizado de máquina. ^{1 1}

Como o formato CSV foi projetado especificamente para representar instâncias em linhas e um conjunto estático de atributos em colunas, a configuração do treinamento é direta. Se o objetivo é identificar padrões temporais, pode ser necessária uma estratégia de janelas.

K-RBMs são uma fusão de abordagens k-mean com RBMs. A escolha da abordagem tem muito a ver com os tipos de padrões procurados. O termo padrão pode ser aplicado a tendências simples de números ao longo do tempo, padrões comuns encontrados em colunas de texto ou padrões complexos inferidos de várias colunas.

Referências

[1] Surgimento de representações composicionais em máquinas restritas de Boltzmann , J. Tubiana, R. Monasson, 2017)

[2] Aprendendo vários subespaços não lineares usando K-RBMs , Siddhartha Chandra, Shailesh Kumar e CV Jawahar

Douglas Daseeco
fonte

0

Pessoalmente, eu iria com o agrupamento k-means. É projetado para problemas como este.

William Scott
fonte

0

Preciso de um algoritmo de aprendizado de máquina para identificar quaisquer padrões em um arquivo CSV

Você quer fazer um aprendizado não supervisionado . A definição da Wikipedia para o mesmo é:

O aprendizado de máquina não supervisionado é a tarefa de aprendizado de máquina de inferir uma função para descrever a estrutura oculta a partir de dados "não rotulados" (uma classificação ou categorização não está incluída nas observações).

Recomendarei que você leia a lista de algoritmos de aprendizado não supervisionado aqui e use o que melhor se adequa às suas necessidades.

Se você está começando, recomendo começar com o aprendizado do algoritmo de agrupamento K-means .

Dawny33
fonte

0

Primeiro, você deve classificar cada parte do arquivo CSV e rotulá-lo com base na situação atual, como A) situação ideal B) crítica.

Em seguida, você agrupa seus dados com um algoritmo de aprendizado não supervisionado, como SOM ou k-means, e simplesmente classifica as classes que receberá.

simonepi
fonte

0

Você está basicamente procurando por aprendizado não supervisionado (UL). Existem muitas técnicas da UL, mas não tenho certeza de que você encontrará uma que faça exatamente o que deseja, sem nenhuma entrada do usuário. Ainda assim, se você ler a literatura sobre essas abordagens, poderá encontrar algo útil.

Uma opção é o DBSCAN , um algoritmo de cluster muito popular que não exige que o usuário insira um número alvo inicial de clusters (algo que a maioria dos algoritmos de cluster exige). Mas, mesmo assim, você ainda precisará fornecer os valores do algoritmo para epsilon(uma distância usada no cálculo dos clusters) e minPts(o número mínimo de pontos necessários para constituir uma região "densa").

Você também pode olhar para mapas auto-organizados , uma abordagem para o aprendizado não supervisionado de redes neurais.

Alguns outros termos de pesquisa que podem levar você a uma direção útil incluem "mineração de dados" e "descoberta de conhecimento em bancos de dados" (KDD).

mindcrime
fonte

Qual algoritmo de aprendizado de máquina pode ser usado para identificar padrões em um conjunto de dados do desempenho do cache de uma CPU?

Respostas: