¿Qué es ETL en minería de datos?

ETL es un acrónimo de Data Warehouse Practices y significa Extract-Transform-Load. El desarrollo ETL es el punto de comunicación entre el sistema de origen de datos y el punto de destino de almacenaje o almacén de datos. Comunmente, el desarrollo ETL incluye asimismo un desarrollo de limpieza como paso separado pero fundamental. Este paso agregada provoca que sea un desarrollo de extracción, limpieza, transformación y carga. Ahora se expone una corto descripción del desarrollo ETL.

Desarrollo de extracción

créditos: Shutterstock

en la preparación de datos, la agilidad es, a mi parecer, entre los causantes diferenciales de las resoluciones «ETL». Muchas operaciones de preparación de datos se efectúan siempre y en todo momento con ficheros extraídos de los sistemas de información, pero la manipulación de ficheros enormes puede lograr que la labor de elaborar los datos sea muy costosa y muy velozmente.

Un caso de muestra

Imaginemos un ámbito en el que un comercio online efectúa un análisis del accionar de sus clientes del servicio en la tienda. Entre los objetivos es comprender anticipadamente y con el máximo aspecto, cuántos clientes del servicio se van a dar de baja del sistema el mes próximo, en tanto que este es un KPI esencial para el negocio.

Un enfoque apoyado en Business Intelligence emplearía lo que ocurrió en meses o años precedentes adjuntado con otras cambiantes globales como la evolución del mercado o el número de clientes del servicio en la fecha de hoy en comparación con otros años.

Con estos datos, se crearían cuadros visuales de tendencias que informarían sobre el porcentaje aguardado de clientes del servicio que se van a dar de baja.

Transformación

Esta etapa supone múltiples procesos, con los que se validan los datos extraídos o se convierten en un formato útil o simple de comprender. Por servirnos de un ejemplo, puede radicar en entre las acciones siguientes:

  • Suprime las entradas repetidas, incompletas, incorrectas o caducadas (desduplicación, normalización)
  • Suprime campos insignificantes
  • Efectuar filtrado y validación de datos
  • Reordenar datos no estructurados en datos estructurados
  • Juntar datos de distintas fuentes con operaciones JOIN
  • ) sus virtudes

    Los sistemas de análisis adelantado están entre las primordiales herramientas para las pequeñas y medianas empresas que desean cambiar su negocio. Y no puedes quedarte atrás. Llevar a cabo Big Data va a ser de las mejores resoluciones que puede tomar. Para tener una mejor visión de los datos generados en tu compañía. De ahí que Pentaho está aquí para brindarnos lo destacado en minería de datos.

    Pentaho es una herramienta de BI que optimización las habilidades de análisis. Y esto le va a ayudar a hacerle una idea más clara de qué sendero debe proseguir; Generación dentro de reportes y análisis con un motor de fluído de trabajo de procesos de negocio.

Publicaciones Similares

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *