DataK – ETL simplemente

DataK – el módulo ETL de KPlatform

Nueva Versión 2.0

Versión 1

[outdated]

El módulo de integración de datos permite que la plataforma funcione como un motor ETL.
Utiliza Apache Airflow para programar y ejecutar varios tipos de tareas.
En el módulo es posible crear diferentes proyectos que son una especie de separación lógica para las operaciones.

Dentro de cada proyecto es posible definir 3 tipos diferentes de recursos.

  • Base de datos
  • Sistema de archivos
  • Servicios.

Un recurso de base de datos es una conexión a una base de datos remota o local donde el motor opera para almacenar o recuperar datos.

Las bases de datos compatibles son:

  • PostgreSQL
  • MariaDB
  • MySQL
  • Oracle
  • MS SQL Server
  • SQLite
  • Exasol
  • IBM DB2
  • ClickHouse
  • ODBC

Los controladores de sistema de archivos admitidos son:

  • Local
  • FTP
  • SFTP
  • HDFS
  • S3
  • Samba
  • OneDrive
  • GoogleDrive

Los servicios son recursos externos a los que puede acceder, como un recurso son:

  • HTTP
  • KAFKA
  • SalesForce
  • GoogleAnalytics
  • … y más.

Una vez que se crean las conexiones, es posible crear una "Tarea".
Una tarea es una sola operación que normalmente utiliza una o más conexiones/recursos/servicios.

Tareas

Hay diferentes tipos de tareas:

  • Utilidades de archivo:
    Permite copiar, mover, eliminar, buscar, leer y escribir archivos en dos recursos de sistemas de archivos
    diferentes.
  • Archivo de archivos:
    Permite comprimir/descomprimir archivos como .zip, .gz, .tar.gz, etc.
  • Http y HttpToFile:
    Permite enviar una solicitud http con datos utilizando todos los verbos http como GET, POST, PUT, DELETE, etc
  • Base de datos a base de datos:
    Permite transferir datos de un recurso de base de datos a otro, mapeando los datos y creando el DDL basado en
    el resultado de la consulta.
  • Archivo a base de datos:
    Permite transferir datos de un archivo (csv) a un recurso de base de datos
  • Base de datos a archivo:
    Permitir exportar datos de una base de datos a un archivo plano
  • Tarea SQL:
    Permite ejecutar una o más consultas arbitrarias sobre un recurso de base de datos.
  • Tarea de Python:
    Permitir ejecutar un script en python que puede ser una tarea multipropósito
  • Bash:
    Permitir ejecutar un script en bash que también puede ser una tarea multipropósito
  • Correo electrónico:
    Permitir enviar un correo electrónico

… y mas

Flujos

Se pueden ejecutar una o más tareas dentro de un flujo.
Un flujo puede orquestar muchas tareas, ejecutándolas en paralelo o secuencialmente, puede programarse para ejecutarse en una fecha/hora específica.

Las tareas nuevas y más complejas están llegando con la nueva versión, incluidos los operadores condicionales, el operador for-loop y muchos otros.

Para agregar una tarea a un flujo, simplemente arrastre y suelte la tarea en el escenario y conéctese con el inicio usando las flechas.

De esta forma, es posible crear conjuntos complejos de tareas que pueden ejecutar diferentes tipos de operaciones.

Explorador de datos

Otra herramienta útil incluida en el módulo de integración de datos es el Explorador de datos.
Permite explorar Bases de Datos y Sistemas de Archivos.

El Explorador de base de datos permite crear consultas visualmente a partir de una tabla que incluye condiciones y uniones a otras tablas.

El FileSystem Explorer le permite navegar por un recurso del sistema de archivos realizando operaciones básicas en archivos y directorios como cargar, descargar, copiar, renombrar, eliminar, editar y más..

Para una demostración gratuita contácteme