Split: como dividir em diferentes porcentagens?

14

Como posso dividir um arquivo de texto em 70% e 30% usando o comando split?

aneuryzm
fonte
Você está casado com o uso do comando split? Caso contrário, você pode fazer isso facilmente com a manipulação direta de texto, certamente usando perl ou python. Desde que o arquivo não esteja muito errado, leia-o na memória como uma sequência e divida-a. Se o arquivo for muito grande, será necessário mais trabalho.
Faheem Mitha 28/03
@Faheem Mitha O arquivo tem 64MB. Eu gosto da ideia de usar split, porque é mais rápido que escrever código. Fiquei me perguntando agora, se eu especificar o número de linhas correspondentes a 70% do arquivo, recebo um arquivo grande e um arquivo pequeno. Não deveria funcionar?
aneuryzm
E sim .. funcionou .. Devo excluir a pergunta?
aneuryzm
Depende de você, mas não é necessário.
Faheem Mitha 28/03
Por favor, compartilhe sua resposta. ( meta.stackexchange.com/questions/12513/… )
dogbane

Respostas:

13

Os comandos abaixo funcionarão para porcentagens acima de 50% (se você quiser dividir apenas em dois arquivos), abordagem rápida e suja.

1) dividir 70% com base em linhas

split -l $[ $(wc -l filename|cut -d" " -f1) * 70 / 100 ] filename 

2) dividir 70% com base em bytes

split -b $[ $(wc -c filename|cut -d" " -f1) * 70 / 100 ] filename
forcefsck
fonte
1
No MacOSX, o wc às vezes retorna o número de linhas com um espaço à sua frente, algo que quebra esse script. A primeira tubulação para xargs removerá esses espaços e fará as coisas funcionarem novamente: split -l $[ $(wc -l filename | xargs | cut -d" " -f1) * 70 / 100 ] filename
Emil Stenström
4

Você pode csplitdividir em duas partes (usando qualquer porcentagem), por exemplo, primeira peça - primeiros 20% das linhas, segunda peça - os restantes 80% das linhas:

csplit infile $(( $(wc -l < infile) * 2 / 10 + 1))

$(wc -l < infile): número total de linhas
2 / 10: porcentagem
+1: adicione uma linha porque csplitdivideup to but not including line N

Você só pode dividir com base em linhas.
Basicamente, desde que você tenha o número da linha, $(( $(wc -l < file) * 2 / 10))pode usar qualquer ferramenta orientada a linhas:

sed 1,$(( $(wc -l < infile) * 2 / 10))'{
w 20-infile
d
}' infile > 80-infile

ou ainda mais legal:

{ head -n$(( $(wc -l < infile) * 2 / 10)) > 20-infile; cat > 80-infile; } <infile

embora alguns headsejam idiotas e não cumpram os padrões , isso não funcionará em todas as configurações ...

don_crissti
fonte
2
{   BS=$(($(wc -c <file) * $P / 100))
    dd count=1 bs="$BS" >file1; cat
} <file >file2 2>/dev/null

... deve funcionar neste caso simples, porque você está se separando apenas uma vez - e provavelmente splité um pouco exagerado. Enquanto o arquivo é pesquisável, ddsó vai fazer uma única read()on <stdin, e assim caté deixado para começar a sua read()em qualquer ponto dddeixa.

Se o arquivo for grande, um count=1 bs=$big_ol_numpode ficar um pouco pesado e pode ser bloqueado com algumas matemáticas extras - ainda que simples -.

A entrada não-pesquisável - como a partir de um tubo - pode distorcer dd's resultados, embora isso pode ser tratado bem w / GNU dd' s iflag=fullblock.

mikeserv
fonte
0

O código a seguir usa heade tailfunciona com qualquer proporção (40 a 60 nesse caso):

export FILE_NAME=train.vw
head -n $[ $(wc -l ${FILE_NAME}|cut -d" " -f1) * 40 / 100 ] ${FILE_NAME} > train_40.vw
tail -n +$[ ($(wc -l ${FILE_NAME}|cut -d" " -f1) * 40 / 100) + 1 ] ${FILE_NAME} > train_60.vw
Alexandr Nikitin
fonte