Arquivo .ddd - Verity Documentum?

1

Trabalho em computação forense - um dos conjuntos de dados que recentemente me pediram para analisar contém vários arquivos .ddd que até agora não consegui abrir.

A leitura desses arquivos em um editor de texto / hexadecimal revela várias menções à 'Verity Inc versão 5.5.0'. Alguns estudos intensos revelam que eles podem estar relacionados a algum software antigo de gerenciamento de documentos chamado 'verity documentum'.

Esses arquivos são datados de 2003 - um pouco antes do meu tempo! A Verity foi comprada por uma empresa chamada 'Autonomy Corp', que foi comprada pela HP. Como esperado, ninguém na HP tem alguma idéia do que estou falando e todos os contatos de verdade / autonomia com os quais tentei concluir têm becos sem saída.

Perguntando aos membros 'mais experientes', alguém já se deparou com esse tipo de arquivo ou software antes? Em caso afirmativo, você tem alguma idéia de como abri-los ou convertê-los para um formato mais legível?

Esteira
fonte

Respostas:

0

Coleções Verity

A Verity, Inc. é a empresa por trás do mecanismo de busca corporativa K2 . A tecnologia da Verity foi incluída em vários softwares de terceiros, como ColdFusion (da versão 5 até a versão 9.0.1 ), PeopleSoft , OrCAD e PaperPort .

Uma coleção individual representa um grupo lógico de documentos mais um conjunto de metadados sobre esses documentos. As informações específicas armazenadas para uma coleção incluem vários índices de palavras, uma tabela interna de documentos contendo informações de campos de documentos e ponteiros lógicos para os arquivos de documentos reais.

Fonte: Recursos das coleções - Conteúdo dos índices das coleções

Estrutura de diretórios

Na referência da coleção Verity:

Cada coleção inclui os seguintes subdiretórios:

  • assistsContém arquivos que fornecem informações gerais sobre a coleção e auxiliam na otimização de pesquisas, como estender listas de palavras ( *.wld), o arquivo "sobre" da coleção ( *.abt) e índices ngram ( *.ngm).

  • morgue Contém arquivos de coleção agendados para exclusão.

  • partsContém a tabela de campos internos ( *.ddd) e a palavra índice ( *.did) para cada uma das partições da coleção.

  • pddContém o arquivo de mapa de partição ( *.pdd) para a coleção.

  • styleO conjunto de estilos que configura a coleção. Contém arquivos de estilo de gateway e arquivos de estilo de coleção.

  • temp Armazenamento temporário usado pelo Verity Spider e K2 Spider.

  • topicidx Contém conjuntos de tópicos indexados, se existirem para esta coleção.

  • transContém arquivos ( *.trn) que armazenam informações sobre transações de indexação pendentes.

  • work Armazenamento temporário para arquivos sendo processados.

Fonte: Referência da coleção Verity

Dependendo da coleção, algumas das pastas listadas acima podem estar vazias ou ausentes completamente. A stylee as partspastas são os mais relevantes.

Partições

Ao indexar documentos, o mecanismo do Verity armazena os metadados do documento em unidades chamadas partições. Cada partição contém metadados (geralmente um índice de palavras completas) para um conjunto de documentos que consiste em algo entre 1 e 64K documentos. O mecanismo do Verity na verdade não copia seu documento; em vez disso, uma partição contém todos os metadados associados aos documentos que os tornam pesquisáveis, incluindo:

  • A tabela de documentos internos, incluindo campos; alguns campos são definidos por padrão e campos personalizados podem ser definidos, como "Título" e "Autor".

  • O índice completo de palavras (às vezes chamado de lista de palavras) nos documentos dessa partição.

Fonte: Por dentro de uma coleção Verity - O que são partições?

Cada partição consiste em uma lista de palavras e uma tabela de documentos, nomeadas após um número sequencial de 8 dígitos (por exemplo, 00000001.dide 00000001.ddd). Ambos são armazenados como arquivos binários.

Os campos na tabela de documentos são definidos pelos seguintes arquivos de estilo de coleção:

  • style.ddd, define os campos usados ​​internamente pelo mecanismo do Verity, identificados por um caractere sublinhado inicial ( _).

  • style.sfl, define campos padrão (muitos dos quais são comentados para limitar o tamanho da tabela de documentos).

  • style.ufl, define campos personalizados que não estão incluídos style.sfl.

O valor de cada campo pode ser preenchido a partir de documentos de origem ou pode ser fornecido explicitamente. Se um campo estiver em branco, ele não foi preenchido.

Fonte: Usando o Browse

Leitura adicional


Visualizando Dados da Partição

Todos os produtos Verity vêm com algumas ferramentas de manutenção e solução de problemas. Entre eles há didumpe browse. O primeiro pode ser usado para exibir o conteúdo das listas de palavras; o último pode ser usado para exibir campos de documentos indexados.

Squeaky toy

O programa aceita um único parâmetro, que é o caminho de um .dddarquivo:

browse.exe "X:\collection\parts\00000001.ddd"

Após abrir com êxito um arquivo, ele exibirá as opções disponíveis:

BROWSE OPTIONS
  ?) help
  q) quit
  c) Number of entries in field
  _) Toggle viewing fields beginning with '_'
  v) Toggle viewing selected fields
 ##) Display all fields in specified record number
Dispatch/Compound field options:
  n) No dispatch
  d) Dispatch
  s) Dispatch as stream

Contar a quantidade de registros

Para verificar a quantidade de registros indexados, você pode digitar ce especificar VdkVgwKeycomo o campo, que é a chave primária usada para identificar cada entrada na tabela de documentos:

Action (? for help): c
Number of entries in field named: VdkVgwKey
There are (58) entries in the field (VdkVgwKey)

Exibir um registro específico

Todos os índices são baseados em zero. Por exemplo, para obter a primeira entrada, digite 0e pressione Enter:

Record number: 0
0  _DDFLAG          FIX-unsg (  1) = 0x00
1  _DDVALUE         VAR-text (  0) =
2  _DDVALUE_OF      FIX-unsg (  4) = 0
3  _DDVALUE_SZ      FIX-unsg (  2) = 0
4  _DBVERSION       CON-text (  7) = vdk060
5  _DDDSTAMP        FIX-date (  4) = 17-Apr-2003 01:51:06 pm
6  _DOCIDX          FIX-text ( 12) = ☺
7  _PARTDESC        FIX-text ( 32) = vdk150.dll (Verity, Inc. Version
8  _STYLE           AUT-text ( 58) = C:/Users/Test/Desktop/coll/style/style.ddd
9  _DOCID           FIX-unsg (  4) = 1
10 _SECURITY        FIX-unsg (  4) = 0
12 VdkVgwKey_IX     FIX-unsg (  3) = 53
13 VdkVgwKey_MI     WRM-text ( 93) = C:\Documents and Settings\khakkara.RATIONAL
\Desktop\DOCCD\rational_clearcase_lt\cc_admin.pdf
14 VdkVgwKey_MX     WRM-text ( 75) = C:\Documents and Settings\khakkara.RATIONAL
\Desktop\DOCCD\using_search.pdf
15 VdkVgwKey_OF     FIX-unsg (  4) = 32
16 VdkVgwKey_SZ     FIX-unsg (  2) = 75
17 Exists           FIX-unsg (  1) = 100
18 IsAChunk         FIX-unsg (  1) = 0
19 LargeDoc         FIX-unsg (  1) = 187
20 StartPage        FIX-unsg (  4) = 1
21 EndPage          FIX-unsg (  4) = 0
22 StartPageFrom    FIX-unsg (  4) = 0
23 EndPageAt        FIX-unsg (  4) = 0
24 FileName         VAR-text ( 24) = ()(.)(using_search.pdf)
25 PageMap          VAR-text (  4) = D
26 NumPages         FIX-unsg (  4) = 2
27 PermanentID      FIX-text ( 32) = 177032712d4a99426aa238bdad896ba2
28 WXEVersion       FIX-unsg (  1) = 2
29 FTS_Title        VAR-text ( 41) = Using Search with Rational Documentation
30 FTS_Subject      VAR-text (  0) =
31 FTS_Author       VAR-text ( 18) = Rational Software
32 FTS_Keywords     VAR-text ( 57) = search, find, full-text Rational Version 20
03.06.00 Beta
33 FTS_Creator      VAR-text ( 15) = FrameMaker 7.0
34 FTS_Producer     VAR-text ( 34) = Acrobat Distiller 5.0.5 (Windows)
35 FTS_CreationDate FIX-xdat (  4) = 02-Jul-2002 09:01:00 pm
36 FTS_ModificationDate FIX-xdat (  4) = 03-Apr-2003 10:08:00 pm
37 DOC              DSP-text ( -1) = C:\Documents and Settings\khakkara.RATIONAL
\Desktop\DOCCD\using_search.pdf
38 DOC_FN           VAR-text ( 75) = C:/Documents and Settings/khakkara.RATIONAL
/Desktop/DOCCD/using_search.pdf
39 FileName_OF      FIX-unsg (  4) = 32
40 FileName_SZ      FIX-unsg (  2) = 24
41 PageMap_OF       FIX-unsg (  4) = 105
42 PageMap_SZ       FIX-unsg (  2) = 4
43 FTS_Title_OF     FIX-unsg (  4) = 32
44 FTS_Title_SZ     FIX-unsg (  2) = 41
45 FTS_Subject_OF   FIX-unsg (  4) = 0
46 FTS_Subject_SZ   FIX-unsg (  2) = 0
47 FTS_Author_OF    FIX-unsg (  4) = 32
48 FTS_Author_SZ    FIX-unsg (  2) = 18
49 FTS_Keywords_OF  FIX-unsg (  4) = 32
50 FTS_Keywords_SZ  FIX-unsg (  2) = 57
51 FTS_Creator_OF   FIX-unsg (  4) = 90
52 FTS_Creator_SZ   FIX-unsg (  2) = 15
53 FTS_Producer_OF  FIX-unsg (  4) = 56
54 FTS_Producer_SZ  FIX-unsg (  2) = 34
55 DOC_OF           FIX-unsg (  4) = 0
56 DOC_SZ           FIX-unsg (  4) = 4294967295
57 DOC_FN_OF        FIX-unsg (  4) = 32
58 DOC_FN_SZ        FIX-unsg (  2) = 75
59 InstanceID       FIX-text ( 32) = 77b25f03d16bf386317bd13c3eba7d5e
60 InstanceID_IX    FIX-unsg (  3) = 22
61 DirID            VAR-text (  6) = ()(.)
62 DirID_IX         FIX-unsg (  3) = 0
63 DirID_OF         FIX-unsg (  4) = 32
64 DirID_SZ         FIX-unsg (  2) = 6

Pressionando Enternovamente, você pode exibir o próximo registro.

Leitura adicional


Obtendo os utilitários do Verity

A maneira mais fácil de obter uma cópia é baixar algum software que os inclua. Por exemplo, o aplicativo PaperPort incluído em algumas impressoras multifuncionais Dell e em versões de teste antigas do ColdFusion .

Instalação manual

Usarei a avaliação de 15 dias do PaperPort como exemplo.

  1. Faça o download da avaliação. Aqui estão os links diretos:

  2. Abra o executável usando o 7-Zip e extraia a PaperPortpasta em algum lugar.

  3. Abra um prompt de comando e navegue até a pasta que você acabou de extrair:

    cd /d "X:\Whatever\PaperPort"
    
  4. Extraia todos os arquivos executando o instalador do MSI no modo administrativo:

    msiexec /a "Nuance PaperPort 14.msi" targetdir="%cd%\Temp"
    
  5. Prossiga com a instalação. Quando o instalador terminar, você encontrará as ferramentas do Verity na seguinte pasta:

    X:\Whatever\PaperPort\Temp\program files\Nuance\PaperPort\Verity\vdk\_nti40\bin
    

Coleções de amostra

Aqui estão algumas coleções do Verity que encontrei na Web. Eles podem ser úteis para fins de teste ou simplesmente para entender melhor como eles funcionam:

and31415
fonte