Présentation de Talend Cloud

Introduction

L’arrivée du cloud constitue une nouvelle ère : nombreuses sont les entreprises se laissant séduire par ses atouts indéniables en termes d’accessibilité, de maintenance et de flexibilité. C’est notamment le cas pour Talend qui, avec sa plateforme Talend Cloud affirme sa transition vers le cloud.

Dans cet article, il conviendra de présenter la solution Talend Cloud ainsi que ses outils puis d’évoquer la gestion de la sécurité des données dans le Cloud qui semble parfois un point épineux pour les futurs acquéreurs.

Présentation de la plateforme Cloud

L’architecture fonctionnelle de Talend Cloud comporte une infrastructure locale et cloud.

Du côté du client, Talend Studio perdure : les jobs sont exécutés par le moteur distant (qui se charge de rassembler les ressources on-premise nécessaires) et peuvent être envoyés dans le cloud. Un navigateur web est nécessaire pour se connecter à la plateforme cloud.

Basculons côté cloud, les applications de gestion, de gouvernance, d’intégration et de préparation des données sont regroupées et unifiées dans le bloc Talend Data Fabric. Le moteur cloud exécute les artefacts (jobs, routes, services, …) dans le Cloud.

Talend Data Fabric

Faisons un zoom sur quelques applications de Talend Data Fabric:

Talend Cloud Management Console

La TMC (Talend Management Console) est la console d’administration de la plateforme qui permet de :

  • Gérer des rôles, utilisateurs et groupes
  • Gérer les accès aux applications
  • Gérer des projets
  • Vérifier les licences disponibles
  • Gérer, surveiller et planifier l’exécution des tâches
  • Créer des promotions entre des environnements (ex : Dev, Prod)
  • Stocker des projets sur un Git repository
  • Créer un moteur distant

Talend Management Console (TMC) remplace Talend Administration Center (TAC). Il est aussi possible à travers la TMC de déployer les jobs créés dans Talend Studio.

Talend Cloud Data Stewardship

Talend Data Stewardship est l’outil de gouvernance des données de la suite Talend Cloud. Son but est de surveiller, d’améliorer, de nettoyer, de regrouper, … les données.

L’objectif est de lancer des campagnes de nettoyage sur les données non conformes dont leur correction implique une intervention humaine. Cet outil s’adresse à tous les types de public ; spécialiste ou non dans l’analyse de données. Un mail ou une notification est envoyé par un « nomiteur » aux membres élus pour les inviter à apporter des modifications sur le jeu de données. Tous les changements sont tracés dans l’outil.

Talend Cloud Data Sterwardship

Talend Cloud Data Preparation

Talend Cloud Data Preparation

Talend Cloud Data Préparation permet de corriger les données facilement et rapidement. Cette application est accessible par un utilisateur non technique. A gauche du jeu de données, l’ensemble des opérations ayant été réalisées sont listées, à droite de nombreuses fonctions de nettoyage sont proposées (standardiser des valeurs, supprimer les lignes ayant une cellule vide…). Les données sont modifiées directement sur la source.

Il est ensuite possible d’exporter la préparation (ensemble des étapes de nettoyage) de Talend Cloud Data Preparation dans un fichier .json afin de l’exécuter dans Talend Studio pour tous les jeux de données ayant la même structure.

Talend Cloud Data Preparation Hybride

Note : Afin de répondre à des exigences en matière de protection des données, Talend propose une architecture Hybride qui consiste à héberger Talend Data Stewardship et Talend Data Preparation on-premise (installation en local).

Talend Cloud Pipeline Designer

Talend Cloud Pipeline Designer est un outil Cloud permettant via un client Web de créer des flux d’intégration de données. Les flux sont ensuite exécutables sur le cloud ou en local. D’emblée cet outil paraît semblable à Talend Studio toutefois il est plus limité car moins complet, les jobs complexes seront donc créés sur le studio.

Talend Cloud Pipeline Designer

Le jeu de données est ensuite évalué selon un score de confiance et des indicateurs de qualité, via un algorithme ou par les utilisateurs. L’objectif étant toujours de travailler avec des données fiables et intègres.

Talend Cloud Pipeline Designer Données

Talend Cloud Data Inventory

Talend Cloud Data Inventory regroupe les jeux de données utilisés dans les différentes applications cloud (Talend Cloud Pipeline Designer et dans Talend Cloud Data Preparation).

Mise en relation pour un projet Talend

Ces jeux de données sont accompagnés d’une documentation concernant le type de sémantique des colonnes, les connexions impliquées dans le jeu de données, l’indicateur de qualité du jeu de données, le type de moteur exécuté. Il permet de fournir des informations instantanées sur le niveau de fiabilité des données et ainsi créer un point de référence.

Talend Cloud Data Inventory constitue un lieu de stockage commun où les jeux de données peuvent être partagés entre utilisateurs.

Talend Cloud Data Inventory

Talend Cloud API Designer et Talend Cloud API Tester

Talend Cloud API Designer est une solution Web qui permet de concevoir, documenter et partager les définitions d’API. Une API est créée sur Talend API Design implémentée via Talend Studio, testée sur Talend API Tester, et exécutée via la TMC.

La mise en place d’une API implique la collaboration de plusieurs outils Talend.

Outils Talend API

API designer permet de définir :

  • Une ressource
  • Une opération comme GET (Lecture), POST (Création), PUT (Mise à jour), DELETE (Suppression)
  • Un type de données
  • Un composant
Talend Cloud API Designer

API Tester permet d’évaluer la qualité de l’API implémentée à travers plusieurs scénarios tests, établis par les utilisateurs. Les scénarios contiennent l’ensemble des fonctionnalités à tester. Le succès ou l’échec des scenarios informera le développeur de la santé (robustesse) de l’API.

Talend Cloud Data API Tester

Talend Cloud Data Catalog

Talend Cloud Data Catalog est un catalogue central permettant de comprendre l’intégration complète des données d’un bout à l’autre de votre organisation avec un aperçu détaillé des transformations de données ayant été réalisées. Il s’agit en quelque sorte du « Google Map de la data ».

Talend Cloud Data Catalog

Talend Cloud Data Catalog n’est pas accessible via Talend Cloud et requiert une url spécifique.

Stitch Data Loader

Stitch Data Loader s’intègre à la suite de Talend Data Fabric. C’est un outil de collecte de données qui assure le transfert sécurisé des données d’une source vers une destination. A l’image d’un pont, Stitch permet de faire le lien entre les sources de données et Talend.

Stitch Data Loader se connecte aux applications SaaS, aux bases de données relationnelles et aux sources de données telles SalesForce, MongoDB, Amazon Redshift, Databricks Delta Lakes, Google BigQuery…

Pour utiliser Stitch il est nécessaire de créer un compte sur https://www.stitchdata.com/

Il convient ensuite de choisir la source, d’indiquer ses caractéristiques puis de planifier la fréquence de chargement des données.

Talend Stitch Data Loader

Une fois le transfert de données fini, il est possible d’utiliser ces données dans Talend Cloud afin d’effectuer des transformations sur les données.

Les atouts de Talend Cloud

Talend Cloud est populaire pour sa capacité à répondre à un large éventail de problématiques autour du Big Data, l’IoT, les API.

En effet, Talend Data Fabric permet l’implémentation des différents types d’architecture :

  • Batch (exécution de jobs avec un gros volume de données)
  • Real Time (exécution instantanée)
  • Event Driven (exécution basée sur des événements publiés)
  • Streaming (chargement en continu des données)

Le succès de Talend Cloud réside également dans sa polyvalence. La plateforme est à la fois un outil de gestion et de gouvernance, un outil d’intégration et un outil de préparation des données. On retrouve également cette polyvalence au niveau des 900+ connecteurs supportés, qui permettent de travailler avec des solutions Cloud (AWS, Google, Azure, SalesForce…), on-premise (SAP, SQL sever…) ou SaaS (Snowflake).

Au vue de la place grandissante des données dans le monde de l’entreprise, Talend redéfinit les frontières entre la donnée et les utilisateurs en offrant la possibilité aux personnes non technique de s’impliquer dans le processus de nettoyage des données grâce au lancement de campagnes initiés par l’outil Talend Data Stewardship.

La sécurité au sein de Talend Cloud

Le passage au Cloud sous-entend sous-traitance de l’infrastructure et donc peut constituer une appréhension pour les clients concernant le stockage de leurs données.

Les données issues des jeux de données sont alors cryptées et entreposées dans une base de données mongo DB.

De plus, Talend Cloud possède des certifications de sécurité de valeur comme (SSAE16, Certification SOC 2 Type II, Certification ISAE 3402, Certification Cloud Security Alliance, …).
Par ailleurs, la reprise d’activité en cas de sinistre est assurée. En effet, Talend est hébergé par Azure et AWS : les données sont présentes dans plusieurs régions et également dans les zones de disponibilité au sein d’une région. L’infrastructure redondante est donc garantie.

Concernant les échanges entre Talend Cloud, le réseau local, ou les applications SaaS et les autres plateformes Cloud, la liaison est sécurisée grâce au port HTTPS.

CONCLUSION DE L’EXPERTE

Talend Cloud est donc une solution complète qui répond aux besoins des clients en leur mettant à disposition un large panel d’outils permettant de gérer la donnée de A à Z.
De plus, Talend Cloud est idéal pour les amateurs de Talend Studio puisqu’avec la version Cloud ils pourront bénéficier des applications de Data Fabric afin de gagner en performance et efficacité pour relever les nouveaux défis de la data.

Nous sommes désormais partenaire Gold Talend afin de vous assurer le meilleur niveau d’expertise sur les différents outils de la plateforme.



Alerte Blog DeciVision Big

Laisser un commentaire