Talend : Automatisez la déduplication de vos données

Nécessité de traitement des doublons de données

Les données redondantes sont un problème fréquent dans la plupart des entreprises. Celles-ci entraînent des conséquences préjudiciables. En effet, les doublons peuvent fausser tout type d’analyse, et entrainer de possibles mauvaises prises de décisions.

De plus, les données dupliquées dans plusieurs systèmes auront un cycle de vie différent et peuvent coûter très cher à l’entreprise si elles sont considérables. Elles polluent les processus d’entreprise impactant ainsi la qualité des rapport décisionnels.

Talend apporte une solution afin de faciliter l’opération de dédoublonnage et déduplication avec des techniques expertes, extrêmement souples et paramétrables. On rappelle que l’opération de dédoublonnage permet la détection de doublons au sein d’une unique base de données, et ce, dans un contexte de gestion de qualité de données. L’opération de déduplication permet la recherche de doublons entre plusieurs fichiers et plusieurs bases de données.

La solution Talend est basée sur des outils Cloud, que sont Talend Cloud Data Preparation, Talend Cloud Data Stewardship et les fonctionnalités Data Quality. Ils permettent d’identifier les doublons, et surtout de les réconcilier. En effet, ces outils permettent d’unifier les informations tout en évitant leur perte. Ils permettent également leur fusion et leur consolidation.

Opération de dédoublonnage

Afin d’illustrer cette opération, nous allons dérouler un petit cas d’étude basé sur une base de données contenant des informations clients.

Opération de dédoublonnage Talend

L’opération permettant de nettoyer et de dédoublonner des données se déroulera comme suit :

Opération de nettoyage de données Talend

Nettoyage et standardisation des données

Dans une première phase, on explore le jeu de données préalablement téléversés sur la plateforme Talend Cloud Data Preparation. On applique également certaines fonctions de nettoyage et de standardisation des données clients. On peut par exemple extraire le titre, le nom et le prénom de la colonne FULLNAME, on peut également formater le champ BIRTHDAY au format « dd-MM-yyyy ».

Standardisation de données Talend

Nous pouvons maintenant réutiliser cette préparation dans un Job d’intégration de données qui traitera un fichier délimité des données clients en appliquant la préparation importée. Les données nettoyées et standardisées seront stockées dans la base de données dans une table temporaire.

Base de données - Table Temporaire

Campagne de fusion

Avant de détecter les doublons, nous devons d’abord définir un modèle de données et une campagne de fusion sur Talend Cloud Data Stewardship. En effet, les données suspectées comme étant des doublons seront envoyées aux data stewards afin qu’ils traitent manuellement ces derniers.

Campagne de fusion Talend

La campagne de fusion est configurée de sorte que toutes les premières valeurs des attributs soient valides. En effet, dans notre cas nous avons seulement une source de données à fusionner avec elle-même.

Création des tâches de fusion

Les tâches de fusion correspondant à une campagne sont créées sur Talend Studio. On ajoute des composants au Job précédent, afin que les données suspectées d’être des doublons soient envoyées sur Talend Cloud Data Stewardship. Les data stewards ajoutés à la campagne de fusion pourront alors traiter manuellement les données.

Toutefois, on souhaite que l’adresse e-mail des utilisateurs soit masquée avant d’être envoyée aux data stewards, on utilise pour cela un composant adapté (tDataMasking). Les données ainsi masquées sont utilisées dans un composant de groupage. On recherche les doublons selon cette règle « nom et prénom quasiment similaire dans la même région » : par exemple, ce composant créera un même groupe pour « Stéphanie Hébert » et « Stéfanie Héberd » si la région est commune (Ile-de-France).

Données unique Data Stewards

Ce Job permet d’enregistrer dans la base de données les données uniques et d’envoyer aux data stewards les doublons.

Gestion des tâches de fusion

Lorsque le data steward se connecte sur son interface Talend Cloud Data Stewardship, il retrouve les tâches qui lui ont été attribuées.

Talend Cloud Data Stewardship

Dans ce cas, le data steward n’a qu’une seule tâche à résoudre. On remarquera que la partie utilisateurs de l’adresse e-mail a bien été masquée.
Les tâches validées peuvent être récupérées à l’aide d’un nouveau Job qui les enregistrera dans la table des clients de la base de données.

Automatisation de l’opération de dédoublonnage

Le Job ainsi configuré peut être publiée sur la Talend Management Console afin de planifier son exécution.

Talend Management Console

Vous pouvez choisir une fréquence d’exécution de votre job publiée sur le cloud. Chaque type d’exécution est paramétrable en fonction des différents besoins.

Exécution paramétrable par fréquence

CONCLUSION DE L’EXPERT

Talend propose aujourd’hui des outils puissants permettant d’automatiser des opérations de standardisation et de nettoyage de données. Ces outils peuvent être utilisés ensemble afin de répondre à des besoins spécifiques. Par exemple, vous pouvez adapter la recherche de doublons à votre avantage en la configurant pour détecter les personnes habitant dans un même foyer.

Le principal atout que l’on peut retirer de ces outils est l’aspect collaboratif. En effet, grâce à Talend Cloud Data Preparation et Talend Cloud Data Stewardship, la gouvernance de données et la gestion de données de qualité est l’affaire de tous.

Nous sommes désormais partenaire Gold Talend afin de vous assurer le meilleur niveau d’expertise sur les différents outils de la plateforme.



Alerte Blog DeciVision Big

Laisser un commentaire