Como armazenar 'n' dias de logs do servidor web no Sql Server?

18

Para relatórios mais rápidos e análises de desempenho, queremos inserir nossos logs do servidor da Web no Sql Server. Isso nos permitirá ver padrões de tráfego, problemas, desacelerações quase em tempo real.

Temos um daemon que escuta eventos de solicitação / resposta de nosso balanceador de carga e inserções em massa no banco de dados.

No entanto, obtemos cerca de 1 GB de logs por dia e precisamos manter cerca de uma semana (pelo menos nessa forma bruta).

Qual é a melhor maneira de armazenar esses dados e a melhor maneira de excluir entradas antigas?

Falamos sobre o armazenamento de dados de cada dia em sua própria tabela, por exemplo Log_2011_04_07, teria todas as entradas para esse dia e, em seguida, a eliminação da tabela mais antiga. Uma visualização pode ser criada para abranger todas as tabelas do dia para facilitar a consulta. É viável?

Jarrod Dixon
fonte
Esta é uma pergunta muito semelhante, mas para Oracle; a sintaxe obviamente será diferente, mas esse é um aplicativo clássico de particionamento por data. Não há necessidade de reinventar a roda :-)
Gaius

Respostas:

17

Você deve procurar o particionamento.

http://technet.microsoft.com/en-us/library/dd578580%28SQL.100%29.aspx

O legal do particionamento é que você tem apenas um nome de tabela (em oposição à abordagem de várias tabelas), para que suas instruções de inserção permaneçam estáticas. Funciona com todos os aplicativos - é totalmente transparente para as consultas. Você não precisa se preocupar com o que acontecerá se terminar com índices ou estatísticas diferentes em cada uma das tabelas.

Você cria uma função de partição que decide como dividir a tabela em várias tabelas atrás da cena. A função pode receber apenas um parâmetro / campo de entrada e, no seu caso, seria um campo de data. A função pode dividir a tabela por data, semana, mês ou ano - no seu caso, você deseja data, período de 24 horas.

Em seguida, crie um trabalho do SQL Server Agent que use o T-SQL para trocar a última partição todos os dias. A exclusão se torna uma operação de metadados e é rápida. Troque a partição e solte a antiga.

SQLRockstar
fonte
Analisarei isso - isso permite a eliminação de partições individuais, para que as exclusões possam ser realizadas rapidamente?
Jarrod Dixon
3
Sim, você deve analisar especificamente o conceito "Partição automática da janela deslizante". Uma boa série de artigos que você pode encontrar no SQLServerCentral: parte1 , parte2 e parte3 .
Marian
7

Desenvolvemos um produto de registro estatístico da web há 6 anos que nos permite rastrear todos os cliques de uma visita de usuários.

O que fizemos foi registrar em massa todas as visitas que você escreveu e fazer com que o daemon agendado analise os logs e normalize os dados para consultas posteriores. Assim que os dados / registro foram analisados, foram removidos para manter a estrutura de dados baixa.

Para nossa próxima versão do produto, distribuiremos os coletores em massa separadamente nos sites e, em seguida, usaremos o daemon para coletar os dados e limpar posteriormente, emitindo comandos para o serviço em massa.

Dessa forma, podemos lidar com uma "manutenção agendada" sem perder dados.

Em relação à questão da limpeza no servidor central, nosso plano atual é adicionar "carimbos de data / hora" para poder arquivar dados depois, por exemplo. 3 meses.

Pensamos isso como as texturas MIP-MAP em jogos / renderização em 3D. Quanto mais você se aproxima, mais dados detalhados, mais longe, mais "agrupado" e menos detalhado.

Portanto, no dia a dia, podemos observar os padrões dos visitantes, mas após três meses esses dados não são realmente relevantes e os compactamos em menos detalhes.

Ainda não decidimos se dividiremos o banco de dados em pedaços para que isso mantenha o "nível de detalhe" separado. base de dados. Mas podemos apenas, pois existem alguns problemas de nomes se armazenarmos diferentes níveis no mesmo banco de dados.

Espero que você possa usar isso para alguma coisa? Não posso fornecer um código de exemplo como parte do produto da nossa empresa.

BerggreenDK
fonte
1

Crie outra tabela Daily_tables com duas colunas: Table_name e Date_table_created. No seu código que cria uma nova tabela diária (que carrega os logs da web), adicione outra entrada para preencher a tabela Daily_tables com o nome da tabela criada e o carimbo de data / hora (data e hora atual). Crie um trabalho do agente SQL que executará um script TSQL toda semana. O TSQL deve eliminar todos os nomes de tabelas (Table_name) das Daily_tables com um timestamp Date_table_created mais antigo que 7 dias.

Espero que isto seja o que você estava procurando :)

StanleyJohns
fonte