Flujo ETL – CSV a base de datos
Con DataK es posible crear flujos articulados para realizar diversas operaciones tanto sobre archivos como sobre diversos tipos de bases de datos.
En este ejemplo, construimos un flujo que hace lo siguiente:
– Descargar un archivo ZIP
– Descomprima el archivo ZIP que contiene 3 archivos CSV
– Carga de CSV en la base de datos.
Descargar un archivo zip
Para realizar esta tarea usaremos un operador de tipo bash que ejecuta un wget simple para descargar un archivo zip desde una URL
Descomprimir el archivo
Vamos a crear una tarea para descomprimir el archivo que contiene 3 archivos de tipo CSV
Verifica que los archivos se hayan descomprimido correctamente
A través del Explorador de archivos, es posible navegar por el sistema de archivos del servidor y verificar que los archivos contenidos en el archivo zip se hayan descomprimido regularmente.
Subir archivos CSV a la base de datos de ClickHouse
Creamos 3 tareas que crean el DDL e importamos los datos contenidos en los archivos csv a la base de datos