Talend Cloud Data Preparation : Standardisez, enrichissez et consolidez vos données

Introduction

Dans la plupart des cas, les données sont enregistrées dans des systèmes informatiques complexes. Cela rend difficile leur accès aux utilisateurs métier qui souhaitent avoir un aperçu de leurs données. Même dans le cas où les utilisateurs ont accès aux données, ils devront passer la majorité de leur temps à analyser la qualité des données plutôt qu’à en tirer des informations. Il subsiste donc un manque d’efficacité dans le processus que l’on peut imager par une barrière entre les utilisateurs métier et l’IT.

Talend propose une approche afin de contourner ce problème et de permettre aux utilisateurs métier de nettoyer, normaliser et formater rapidement les données provenant des systèmes informatiques. Cette approche repose sur un outil « pointer et cliquer » : Talend Cloud Data Preparation. Cet outil fait partie de la suite Talend Cloud et ne nécessite donc pas d’installation locale, une licence suffit à exploiter toutes les fonctionnalités qu’il offre.

Application Talend Cloud

Talend Cloud Data Preparation autorise l’accès à tous les utilisateurs d’une organisation qui en ont besoin, y compris les utilisateurs métier, et encourage la collaboration entre tous les groupes utilisateurs afin de partager des ensembles de données et des préparations (liaison entre une recette de transformation et un jeu de données).

Les utilisateurs chargés d’approvisionner en données tels que les architectes de données et les développeurs IT peuvent fournir des ensembles de données sur demande et ainsi tirer parti de la connectivité de Talend dans des processus avancés pour apporter aux bons utilisateurs les bonnes données, et au bon moment.

  • Le processus de préparation de données commence avec le rassemblement des bonnes données qui seront stockées dans Talend Data Inventory qui est le référentiel de vos données, connexions, types sémantiques et attributs personnalisés.
  • Après la collecte des données, la prochaine étape est la découverte d’un ensemble de données (ou jeu de données) ce qui implique la connaissance des données et la compréhension de ce qui doit être mis en place afin d’exploiter ces données dans un contexte particulier.
  • La prochaine étape est le nettoyage des données avec Talend Cloud Data Preparation. Il s’agit de mettre à jour le format des enregistrements pour atteindre un résultat bien défini ou afin de faciliter leur compréhension par un plus large public. Une fois préparées, les données peuvent être stockées ou canalisées dans une application tierce.

Préparation de données en utilisant Talend Data Inventory

Talend Cloud Data Inventory maintient un inventaire des jeux de données gérés sur Talend Cloud et est incorporé à Talend Cloud Data Preparation.

Les jeux de données sont ajoutés à cet inventaire lorsqu’ils sont collectés ou crées en utilisant Talend Cloud Data Preparation. Les jeux de données sont des collections de données. Ils sont de natures différentes, tels que des tables de base de données, des noms de fichiers, topics (Kafka), chemins de fichiers (HDFS) et bien d’autres.

Les jeux de données :

  • Contiennent les données brutes pouvant être utilisées comme matériel brut sans affecter les données originales.
  • Sont automatiquement profilés et associés à un Trust Score en fonction de la qualité de leurs données sous-jacentes.
Jeux de données Talend Data Inventory
  • Sont automatiquement ajoutés au Talend Data Inventory.

Lorsque vous cliquez sur un jeu de données, vous arrivez sur une vue qui vous permet de comprendre ce dernier d’un coup d’œil, en affichant sa description, la qualité de ses données et d’autres métadonnées pertinentes.

Trust Score Talend Data Preparation

Le Trust Score d’un jeu de données est mesuré à l’aide de cinq dimensions :

  • Validité: La validité prend en compte le nombre de valeurs valides et invalides à travers l’échantillon du jeu de données, ainsi que le type de données et la quantité de types sémantiques par rapport aux types primitifs. Elle peut être améliorée en corrigeant les problèmes de validité avec Talend Cloud Data Preparation pour améliorer la qualité de vos données.
  • Popularité: Examinez les retours des utilisateurs et jaugez la fiabilité du jeu de données. L’axe Popularité permet de voir la note du jeu de données et sa fréquence de partage au sein de l’entreprise, ainsi que son niveau de certification.
  • Complétude: La complétude prend en compte les champs vides du jeu de données. Elle peut être améliorée en supprimant ou complétant les attributs et enregistrements vides dans Talend Cloud Data Preparation.
  • Référencement: Le référencement prend en compte la documentation des jeux de données avec les métadonnées adéquates, mieux ceux-ci sont documentés plus il est simple pour les autres utilisateurs de votre entreprise de trouver, comprendre et utiliser ces ressources.
  • Utilisation: La fréquence de consultation ou d’utilisation d’un jeu de données est représentative de son utilité. Cet aspect du score de confiance prend en compte les pipelines et préparations s’appuyant sur ce jeu de données comme source, ainsi que leur fréquence de mise à jour.

Vous pouvez également consulter un échantillon des jeux de données que vous avez importé. Cet échantillon comporte les 10 000 premières lignes seulement. Il inclut un indicateur de qualité au niveau de l’échantillon mais également au niveau de la colonne. Vous pouvez également changer le type sémantique des enregistrements afin de bien définir les données.

Onglet de configuration Talend

L’onglet de configuration permet aux utilisateurs de vérifier ou de modifier certaines propriétés qui ont été remplis durant la création du jeu de données et qui doivent être mis à jour.

Les propriétés disponibles dans le formulaire dépendent du type de jeu de données et peuvent inclure : le nom du jeu de données, le délimiteur de champ, caractère de clôture et d’espace ou l’encodage d’un fichier CSV.

Talend Data Preparation

Création d’une préparation de données

En utilisant Talend Data Preparation, vous pouvez facilement appliquer des fonctions de nettoyage et de conversion aux colonnes du jeu de données.

Les étapes de transformations sont enregistrées dans une recette. Ces étapes peuvent être réorganisées en les bougeant dans la recette d’un simple « glisser-déposer » ou en les supprimant.

Création et préparation de données Talend

Talend Data Preparation fournit des fonctions basées sur le type de données dans les colonnes. On retrouve par exemple une fonction permettant de retirer les espaces en trop dans les données, une fonction permettant de changer le format de la date, une fonction permettant de gérer les valeurs vides, une fonction permettant de joindre d’autres jeux de données afin d’enrichir vos données initiales et une fonction permettant de masquer les données personnelles ainsi que des fonctions basées sur l’intelligence artificielle et bien d’autres.

Opérationnalisation d'une préparation de données

Vous pouvez créer et gérer des versions d’une préparation pendant que vous développez une recette. Chaque version d’une préparation peut être individuellement exportée et sélectionnée dans un flux d’intégration de données.

Une préparation peut être exportée puis importée dans un autre dossier ou compte cloud. L’exportation et l’importation de préparation sont gérés à travers l’interface web de Talend Cloud Data Preparation.

Lorsque vous importez une préparation dans un nouveau compte, les jeux de données utilisées par la préparation doivent au préalable exister dans le nouveau compte. Certaines prédispositions sont à prendre pour éviter certaines erreurs d’importation ou d’exportation.

Les jeux de données peuvent être partagés indépendamment, toutefois les préparations doivent être partagées en utilisant des dossiers.

Il est important de ne jamais changer les données à la source. Les jeux de données sont immuables afin de permettre leur réutilisation et leur partage. Différentes préparations peuvent être créées à partir du même jeu de données pour différentes finalités et par différents utilisateurs.

Mise en relation pour un projet Talend

Un outil adaptable à votre entreprise : Dictionary Service

Dictionary Service permet la gestion des types sémantiques utilisés dans Talend Cloud Data Preparation pour analyser les données.

Chaque entreprise travaille en utilisant à la fois des données standards (par exemple, nom, prénom, numéro de téléphone, taux de TVA, ville, pays) et des données spécifiques (par exemple code client, code produit, code de comptabilité).

Talend Data Inventory Types Sémantiques

Les types sémantiques standards sont déjà disponibles dans Dictionary Service. Toutefois, il est possible d’ajouter vos propres types sémantiques adaptés au langage de votre métier et créer des types sémantiques spécifiques.

Remarque : Une licence est nécessaire pour utiliser Talend Dictionary Service. Ce service permet de se connecter à Talend Cloud Data Stewardship.

Talend Cloud Data Preparation et Dictionary Service ont une structure similaire. Les deux serveurs sont reliés à une base de données propres (MongoDB). Les deux serveurs communiquent entre eux via un serveur Kafka.

La gestion des types sémantiques est accessible directement via l’interface utilisateur Web de Talend Cloud Data Preparation pour les utilisateurs autorisés.

CONCLUSION DE L’EXPERT

Avec Talend Cloud Data Preparation, les équipes d’une entreprise peuvent être impliquées dans la préparation de données. En effet, du fait de sa simplicité d’utilisation et de son expérience utilisateur facilitée, les utilisateurs métier peuvent travailler sur la transformation de données faisant ainsi de la normalisation, de l’enrichissement de données, et de la consolidation, un sport d’équipe.

Cette opportunité d’avoir plusieurs contributions peut permettre à une entreprise d’améliorer grandement la qualité des données maîtres.

Nous sommes désormais partenaire Gold Talend afin de vous assurer le meilleur niveau d’expertise sur les différents outils de la plateforme.



Alerte Blog DeciVision Big

Laisser un commentaire