ETL: O que é, pra que serve e como funciona

O termo ETL (Extraction, Transformation and Load) nada mais é do que a união de processos fundamentais para tratamento de dados úteis para instituições e negócios que fazem usufruto de um banco de dados que usa análise de dados mais complexas - o que chamamos de data warehouse (DW).


O processo é dividido em três passos onde se pode extrair, transformar e carregar os dados. Essa natureza do ETL permite abordar com eficiência demandas tanto de banco de dados mais modestos que utilizam SQL como bancos mais avançados de grandes organizações que trabalham direto na nuvem e com Big Data. Para entender melhor é  preciso falar sobre cada passo, acompanhe:



EXTRAÇÃO


O primeiro estágio do ciclo do ETL. E o nome diz tudo, é sobre extrair dados, e pode ser por SQL. Nessa fase é recomendável realizar uma análise prévia das informações coletadas e as colocar organizadamente em uma zona de transição. Os dados são convertidos em um formato homogêneo - o que determina o seguimento para os próximos tratamentos.


TRANSFORMAÇÃO


Na etapa de transformação, acontece um processo de adaptação dos dados analisados e organizados num formato único na fase anterior. Nessa transformação os dados são 'limpos' e 'higienizados' para levar adiante somente o que pode ser realmente utilizado. Além disso, os dados são agrupados depois de passarem por filtros entrando em categorias específicas como tempo, localização e nível hierárquico.


CARREGAMENTO


Por fim, no último estágio do processo, é necessário realizar o carregamento das informações já manipuladas em uma nova área. Isso pode acontecer em um ambiente de data warehouse ou em um ambiente de data mart. Nessa etapa se pode realizar os últimos acréscimos e atualizações na disposição dos dados, como também verificar os padrões através do mapeamento informacional.