Flujo ETL – CSV a base de datos

Flujo ETL – CSV a base de datos

Con DataK es posible crear flujos articulados para realizar diversas operaciones tanto sobre archivos como sobre diversos tipos de bases de datos.

En este ejemplo, construimos un flujo que hace lo siguiente:
– Descargar un archivo ZIP
– Descomprima el archivo ZIP que contiene 3 archivos CSV
– Carga de CSV en la base de datos.

Descargar un archivo zip

Para realizar esta tarea usaremos un operador de tipo bash que ejecuta un wget simple para descargar un archivo zip desde una URL

Descomprimir el archivo

Vamos a crear una tarea para descomprimir el archivo que contiene 3 archivos de tipo CSV

Verifica que los archivos se hayan descomprimido correctamente

A través del Explorador de archivos, es posible navegar por el sistema de archivos del servidor y verificar que los archivos contenidos en el archivo zip se hayan descomprimido regularmente.

Subir archivos CSV a la base de datos de ClickHouse

Creamos 3 tareas que crean el DDL e importamos los datos contenidos en los archivos csv a la base de datos

Mapeo de campos CSV a columnas de base de datos

Creación de la DDL

Fusionamos todas las tareas en un solo flujo