Talend

Talend Pipeline Designer

Introduction

Nous vous avons présentez dans notre précédent article de blog sur la suite Talend Data Fabric l’outil Stitch Data Loader. Aujourd’hui, nous allons présenter un autre outil Cloud intégré à la suite : Talend Pipeline Designer

Talend Pipeline Designer offre une interface graphique basée sur le web, hébergée dans le cloud.       Cet outil permet de créer des pipelines complexes de bout en bout pour le traitement de données statiques ou en temps réel. Les développeurs spécialisés en intégration de données et en Big Data peuvent mettre en place de manière continue des pipelines d’intégration, prévisualiser les données en action et exécuter ces pipelines, soit localement ou dans le cloud.

Logo Talend Cloud Pipeline Designer

Figure 1 – Logo Talend Cloud Pipeline Designer

Qu’est-ce que le pipeline designer de Talend ?

Le Pipeline Designer de Talend est une composante essentielle de la suite d’intégration de données de Talend. Cet outil intuitif propose une interface visuelle conviviale qui permet aux utilisateurs de créer, orchestrer et gérer des flux de données complexes sans nécessiter une expertise approfondie en programmation.

Son approche basée sur le glisser-déposer simplifie la conception et l’automatisation des flux de données, en accélérant le développement tout en réduisant la complexité.

L’accès au Pipeline Designer se fait directement via le menu déroulant de la console Talend Cloud Management Console.

Interface de Talend Pipeline Designer

Figure 2 – Interface de Talend Pipeline Designer

Sur l’interface de Pipeline Designer, 3 onglets sont présents :

  • Connexion : Cet onglet permet de créer et gérer les connexions aux systèmes sur lesquels les données sont stockées, comme les data-Lake, les bases de données, les applications Saas, les stockages Cloud etc etc.
  • Jeux de données : Dans cet l’onglet, vous pouvez créer et gérer les différents jeux de données utiles à la réalisation des traitements. Il s’agît des collections de données liées à une connexion : des tables de base de données, fichiers, etc.
  • Pipelines : ici vous êtes en mesure de concevoir, créer et gérer vos pipelines. Les pipelines définissent comment les données sont extraites, transformées et chargées. C’est l’espace où vous assemblez des étapes, configurez les flux de données, et organisez les opérations complexes.
Restons connectés !

Inscrivez-vous à la newsletter DeciVision !

Soyez notifiés de nos derniers articles de blog, de nos prochains webinars et nos actualités !

Connexion aux sources de données

Pipeline Designer permet de se connecter à une large variété de données réparties en plusieurs catégories :

  • Applications métiers (Salesforce, workday, Netsuite, Zendesk …)
  • AWS : (Amazon Aurora, Amazon s3, Amazon Redshift…)
  • Azure : (Azure Blob storage, Azure Data lake, Azure Synapse …)
  • Base de données NoSQL(Apache kudu, Couchbase, CosmosDB…)
  • Base de données relationnelles(MySQL, Oracle DataBase, Postgresql…)
  • Big Data (HDFS, DeltaLake…)
  • Data Warehouse et Lakehouses(Snowflake, Azure Synapse…)
  • Google(Google Analytics, Google BigQuery, Google Cloud Storage…)
  • Stockage de fichier(FTP…)
  • Streaming évènements( Kafka, Pulsa, Azure Events Hub…)
Liste de connexions supportées

Figure 3 – Liste de connexions supportées

Création d’un pipeline :

La construction d’un pipeline implique les phases suivantes :

  • Sélection de la source pour lire les données
  • Choix de la destination pour écrire les données

Ajouter des processeurs pour la transformation des données

Création d'un pipeline

Figure 4 – Création d’un pipeline

Une fois que les règles de gestion métiers sont appliquées, vous obtenez l’évaluation de votre jeu de données selon des indications de qualité. L’objectif étant de travailler avec des données fiables et cohérentes.

Evaluation du jeu de données

Figure 5 – Evaluation du jeu de données

Avantages/inconvénients de Stitch Data Loader ?

Avantages

  • Interface conviviale et intuitive
  • Modularité avec la conception des pipelines
  • Intégration avec les services cloud
  • Orchestration facile
  • Large connectivité

Inconvénients

  • Cout associé à l’utilisation
  • Complexité pour les scénarios avancés
  • Dépendance aux services cloud
  • Personnalisation limité

CONCLUSION DE L’EXPERT

L’outil Pipeline Designer de la suite Talend Data Fabric constitue un élément clé de la suite d’intégration de données de la plateforme. Son utilisation sur le cloud, son interface conviviale et ses fonctionnalités puissantes en font un outil simple et agréable à utiliser, permettant de mettre en place des transformations de données complexes sans nécessiter de compétences avancées en programmation.

Il peut être aisé de trouver des similarités entre Pipeline Designer et le Studio Talend, étant donné que les deux outils sont des ETL aux fonctionnalités avancées. La différence entre les 2 étants que le Studio Talend demande une installation et une configuration plus importante étant donné qu’il est un outil client lourd. Ce dernier permet également de réaliser des traitements et des opérations plus poussées et complexes.

Un projet ? Une question ?

Laissez-nous vos coordonnées et nous vous recontactons dans les plus brefs délais !

Articles récents
Évènements à venir
Newsletter DeciVision

Soyez notifiés de nos derniers articles de blog, de nos prochains webinars et nos actualités !