Kettle Beginners: dezembro 2011

Hoje iremos explicar sobre o componente de ordenação do Kettle.

O Sort Rows, além de sua utilidade natural, também é indispensável quando desejarmos utilizar componentes de junção (JOIN), agrupamento (GROUP BY) ou de eliminação de duplicidade (UNIQUE).

Isso acontece pela maneira que os componentes "entendem" os registros que passam pelo fluxo.

Se utilizarmos como exemplo o componente de group by, podemos dizer que primeiro precisamos organizar as linhas e juntar todas as que devem ser agrupadas, e aí sim utilizar a função de agregação (count, max, min, avg, etc).

Voltando a tratar especificamente sobre o step "Sort Rows", vamos ao preenchimento dos campos:

Como o Kettle precisa ordenar as linhas utilizando arquivos temporários quando o número de linhas excede ao tamanho especificado, cujo padrão é de 5000, existem alguns campos que podem ser preenchidos quando a situação o exigir.

Sort directory: diretório onde serão gravados os arquivos temporários caso necessário. O padrão é o diretório do sistema;

TMP-file prefix: prefixo que será utilizado para reconhecer os arquivos temporários quando estes forem exibidos no diretório de arquivos temporários;

Sort Size: número de linhas que serão gravadas na memória. Quanto mais, melhor;

Free memory threshold (in %): Se o algoritmo de ordenação achar que existe menos memória livre disponível que o indicado, começará a paginar os dados no disco;

Compress TMP Files: compacta os arquivos temporários quando estes forem necessários para completar a ordenação.

Apesar de úteis, os itens acima são pouco utilizados e normalmente não os alteramos. Os itens que precisamos nos concentrar são os seguintes:

Only pass unique rows: linhas duplicadas serão retiradas do fluxo após a ordenação;

Fieldname: campo(s) que será(ão) ordenados;

Ascending: ordenação de forma ascendente ou descendente;

Case sensitive compare: se será case sensitive (maiúsculas e minúsculas);

Get Fields: coloca na lista de fieldnames todos os campos que estão passando pelo fluxo.

Lembrando que o Sort Rows, semelhante ao comando order by do SQL, poderá ordenar campos do tipo integer, string, date, entre outros. Quando desejar utilizar os componente de junção, agregação ou de eliminação de duplicidade, certifique-se sempre de que os dados que estão passando pelo fluxo estão corretamente ordenados, seja pelo step Sort Rows ou pela própria query que originou os dados.

Kettle Beginners

sábado, 17 de dezembro de 2011

Ordenando os registros com o Sort Rows