Combiner plusieurs sources de données dans SAP Analytics Cloud

Introduction

SAP Analytics Cloud s’enrichit continuellement grâce aux investissements importants de SAP sur cette technologie. La solution Cloud de SAP offre désormais 2 manières de combiner ses données, afin de pouvoir croiser vos données provenant de différentes sources :

  • La combinaison dans le modèle de données (combining data)
  • La combinaison des modèles dans les stories (blending data)

Nous allons ici voir ces 2 manières de croiser vos données.

Combiner les données

Cette première possibilité permet de combiner les données de 2 sources différentes directement dans votre modèle de données. A noter qu’il est possible de rajouter jusqu’à 5 sources de données à votre modèle.

Création du modèle

Prenons un exemple avec 2 fichiers plats. Les 2 fichiers plats sont des fichiers CSV, le premier contenant les lignes de factures et le deuxième contient les lignes des produits vendus.

Création d'un modèle avec fichiers plats CSV

Dans un premier temps, lors de la création du modèle, on sélectionne et importe le fichier des factures.

Combiner les données

Après avoir retraité les éventuelles données dans le modèle, on clique sur le bouton « Combiner données » pour lier le premier fichier au deuxième :

Combinaison des données SAP Analytics Cloud

On peut ici se connecter à 2 types de sources :

  • Données à partir d’un fichier
  • Données issues d’une source de données

Voici les sources disponibles actuellement pour la combinaison de données issues d’une source dans le modèle :

Sources disponibles pour la combinaison de données

Paramètres de combinaison et type de jointure

Dans la fenêtre suivante, on effectue ensuite la jointure entre les deux sources. Pour cela, on sélectionne les dimensions communes (1). SAC effectuera le lien entre les données du fichier de produits et de facture. Dans notre cas, il s’agit du code Produit (ProductID). On peut également renseigner des clés de jointure supplémentaires le cas échéant.

Paramètres de combinaison des données

On peut ainsi remarquer que SAC propose un aperçu de la combinaison à droite (2), indiquant les jointures en succès (Accepté), les lignes dupliquées, les valeurs nulles et omises (sans correspondance entre les 2 sources au niveau de la jointure). SAC propose également un échantillon des données (3), avec au centre la dimension servant de clé de jointure.

Concernant la clé de jointure, on peut préciser s’il s’agit d’une jointure externe LEFT JOIN (Toutes les données primaires) ou une jointure interne INNER JOIN (Données d’intersection uniquement). Par défaut, l’option Toutes les données primaires est choisie.

Le modèle combiné

Après avoir validé la combinaison, on obtient ensuite une nouvelle table où les données ont été combinées. Les données des deux sources ont été intégrées dans le cube de données.

Modèle SAP Analytics Cloud combiné

Voici les résultats dans une story SAP Analytics Cloud :

Story SAP Analytics Cloud

Fusion des données

Nous allons voir maintenant la 2ème manière de combiner les données dans SAC. Le principe est le même que celui vu précédemment, c’est-à-dire lier des dimensions communes à 2 sources, pour obtenir des croisements de données. Il est cependant effectué à un autre moment : directement et uniquement dans la story actuelle.

SAC supporte maintenant la fusion de données provenant de modèles de données Live et Data Acquisition.

Exemple avec 3 modèles SAP Analytics Cloud

Voici la liste des sources de données compatibles :

Sources de données Compatibles

NATIVE : Aucune technologie n’est nécessaire. La fusion est supportée nativement par SAC.

SDI (Smart Data Integration) : les données sont transmises via SDI, et sont stockées temporairement soit dans la première source de données, soit dans la deuxième. Smart Data Integration (SDI) doit être configuré entre la source de données et SAP Analytics Cloud. Le SDI Agent doit donc être en cours d’exécution et connecté au système HANA via le Cloud Connector.

BROWSER : La fusion basée sur le navigateur signifie que les données sont transmises, via le navigateur Web des utilisateurs, et temporairement stockées dans la source de données principale ou secondaire où se produit la fusion. Bien qu’aucune configuration spéciale ne soit requise, elle est mise en évidence car des exigences ou des restrictions supplémentaires s’appliquent (pour plus d’informations, cliquer sur ce lien).

Dans notre exemple, on dispose ici de trois modèles déjà créés, basés sur l’univers SAP eFashion, contenant des informations différentes pouvant être croisées. Les trois modèles contiennent la dimension commune Store Name.

Exemple avec 3 modèles SAP Analytics Cloud

Dans la story, on crée un nouveau graphique grâce au modèle de données eFashionSales en sélectionnant la dimension commune Store Name. Ce modèle constituera notre modèle primaire. Deux possibilités s’offrent à nous pour commencer la fusion :

  • Dans fenêtre Présentation, à droite de la fenêtre dans le menu Concepteur :
Lancement fusion première option
  • Ce bouton est également présent dans la fenêtre Données :
Lancement fusion seconde option

Dans la fenêtre suivante, on sélectionne les deux modèles à lier, puis la ou les dimensions communes :

Liaison modèle SAP Analytics Cloud

Dans les dimensions communes, assurez-vous d’avoir sélectionné Lier par l’ID.

Liaison du modèle par ID

Revenez sur votre graphique, dans l’onglet Concepteur. On spécifie maintenant quels sont les modèles liés pour ce graphique en cliquant sur Ajouter modèles liés.

Les deux modèles secondaires sont maintenant liés au premier modèle. On peut désormais fusionner les dimensions et les mesures provenant des trois modèles.

Modèles seconaires liés avec le modèle primaire

Lors de la sélection des mesures, on peut ainsi voir les trois modèles :

Affichage des 3 modèles

On note que la sélection de la dimension commune (ici Store Name) ne peut s’effectuer qu’avec le modèle principal (marqué notamment d’un point bleu devant les dimensions et mesures).

Plusieurs choix comme type de jointure sont possibles :

  • Toutes les données primaires (LEFT JOIN)
  • Toutes les données : (FULL OUTER JOIN)
  • Données d’intersection uniquement (INNER JOIN)

Voici notre graphique croisant les données de nos trois modèles différents :

Graphique croisant les 3 modèles de données

Avantages et inconvénients

Combiner les données

Combiner les données dans votre modèle vous offrira de meilleures performances. De plus, il sera nécessaire d’effectuer la combinaison des données qu’une seule fois, et réutiliser le modèle dans plusieurs stories.

Combiner les données comporte cependant quelques limites :

  • Le nombre de sources est limité à 5
  • Le nombre maximum de cellules combinées est de 30 millions
  • Le nombre maximum de lignes est de 1 million
  • Le nombre maximum de colonnes est de 100
  • Vous ne pouvez pas utiliser une colonne calculée comme clé de jointure de vos modèles

Fusionner les données

L’avantage de la fusion des données dans la story est de mélanger des données provenant de modèle Live et Data Acquisition. Vos modèles existants resteront également inchangés.

Cependant, l’inconvénient est de devoir répéter l’opération pour chaque story et chaque composant de votre story, ce qui peut compliquer la maintenance. Les performances peuvent elles aussi être affectées par les besoins de calcul en temps réel de la fusion de données.

CONCLUSION DE L’EXPERT

La fusion des données provenant de différentes sources est une fonctionnalité appréciée des utilisateurs. Ces derniers disposent souvent de données éparses, et souhaitent croiser ces informations afin d’en tirer des décisions. SAC facilite ces croisements, et permet l’harmonisation de votre reporting grâce à des modèles aux sources multiples.

Pour des besoins ponctuels, la solution privilégiée sera d’effectuer une fusion de données. Pour les besoins d’une solution à long terme, il sera préférable d’opter pour la combinaison de données.



Laisser un commentaire