Eu tenho o seguinte exemplo dataframe:
df = pd.DataFrame(data = {'RecordID' : [1,1,1,1,1,2,2,2,2,3,3,3,3,4,4,4,4,5,5,5,5], 'DisplayLabel' : ['Source','Test','Value 1','Value 2','Value3','Source','Test','Value 1','Value 2','Source','Test','Value 1','Value 2','Source','Test','Value 1','Value 2','Source','Test','Value 1','Value 2'],
'Value' : ['Web','Logic','S','I','Complete','Person','Voice','>20','P','Mail','OCR','A','I','Dictation','Understandable','S','I','Web','Logic','R','S']})
que cria esse quadro de dados:
+-------+----------+---------------+----------------+
| Index | RecordID | Display Label | Value |
+-------+----------+---------------+----------------+
| 0 | 1 | Source | Web |
| 1 | 1 | Test | Logic |
| 2 | 1 | Value 1 | S |
| 3 | 1 | Value 2 | I |
| 4 | 1 | Value 3 | Complete |
| 5 | 2 | Source | Person |
| 6 | 2 | Test | Voice |
| 7 | 2 | Value 1 | >20 |
| 8 | 2 | Value 2 | P |
| 9 | 3 | Source | Mail |
| 10 | 3 | Test | OCR |
| 11 | 3 | Value 1 | A |
| 12 | 3 | Value 2 | I |
| 13 | 4 | Source | Dictation |
| 14 | 4 | Test | Understandable |
| 15 | 4 | Value 1 | S |
| 16 | 4 | Value 2 | I |
| 17 | 5 | Source | Web |
| 18 | 5 | Test | Logic |
| 19 | 5 | Value 1 | R |
| 20 | 5 | Value 2 | S |
+-------+----------+---------------+----------------+
Eu estou tentando "unmelt", embora não seja exatamente a fonte e as colunas de teste em novas colunas de dataframe, para que fique assim:
+-------+----------+-----------+----------------+---------------+----------+
| Index | RecordID | Source | Test | Result | Value |
+-------+----------+-----------+----------------+---------------+----------+
| 0 | 1 | Web | Logic | Value 1 | S |
| 1 | 1 | Web | Logic | Value 2 | I |
| 2 | 1 | Web | Logic | Value 3 | Complete |
| 3 | 2 | Person | Voice | Value 1 | >20 |
| 4 | 2 | Person | Voice | Value 2 | P |
| 5 | 3 | Mail | OCR | Value 1 | A |
| 6 | 3 | Mail | OCR | Value 2 | I |
| 7 | 4 | Dictation | Understandable | Value 1 | S |
| 8 | 4 | Dictation | Understandable | Value 2 | I |
| 9 | 5 | Web | Logic | Value 1 | R |
| 10 | 5 | Web | Logic | Value 2 | S |
+-------+----------+-----------+----------------+---------------+----------+
Entendo que o pivô e o derretimento farão toda a coluna DisplayLabel e não apenas alguns dos valores.
Qualquer ajuda seria muito apreciada, já que li o Pandas Melt e o Pandas Pivot , bem como algumas referências no stackoverflow, e não consigo descobrir uma maneira de fazer isso rapidamente.
Obrigado!
Value 1
está naLogic
linha Teste no seu segundo DataFrame?Respostas:
Podemos alcançar seu resultado aplicando lógica e pivô, dividimos seus dados verificando se
DisplayLabel
contémValue
e depoisjoin
os juntamos novamente:Se você deseja a ordem exata da coluna como exemplo, use
DataFrame.reindex
:Em detalhes - passo a passo:
fonte
set_index
,unstack
entãomelt
Função personalizada para
groupby
Configuração
fonte
Tentei uma abordagem diferente do primeiro
pivot
ing usandounstack
e depois convertendo parcialmentewide_to_long
(desculpe se não é eficiente, mas isso parece obter a saída desejada)fonte