Microsoft BI

Dataflow : le nouvel outil d’intégration de données

Introduction

Depuis sa création en 2014, Microsoft n’a eu de cesse de faire évoluer son logiciel de data visualisation. Power BI jusqu’à atteindre la place de numéro 1 sur le marché des solutions d’analyses de données. Dataflow fait partie de ces nouveaux outils disponibles dans l’environnement Power BI qui permettent d’aller encore plus loin dans l’intégration et l’analyse de données.

Présentation de Dataflow

Dataflow (ou flux de données) est un outil disponible dans Power BI Service, l’environnement cloud de Microsoft. Il permet de croiser différentes sources de données et d’effectuer des transformations sur ces dernières. Pour les habitués de l’environnement Power BI, il s’agit en fait de Power Query mais optimisé pour le cloud.

Avec Dataflow, on peut créer facilement des pipelines d’intégration de données pouvant être réutilisés librement dans plusieurs rapports Power BI. Il est aussi possible de partager les flux de données avec d’autres utilisateurs au sein de l’organisation.

Dans le monde de la donnée, quand on parle de flux de données on pense immédiatement à ETL (extraction, transformation, chargement), le but étant de créer des pipelines de transformations de données. Et c’est exactement la fonction de Power Query dans Power BI Desktop mais aussi de Dataflow dans Power BI Service. Selon Microsoft, les Dataflows ne sont pas un remplacement pour une architecture Data Warehouse ou les procédures ETL, mais une addition à un environnement analytique.  L’utilisation de Dataflow ne nécessite aucune connaissance d’un langage de traitement de données particulier. Il n’est pas nécessaire d’écrire la moindre ligne de code pour créer des transformations de données tout comme son homologue Power Query.

Flux de données Power BI Dataflow

Dataflow vs Power Query

Voici quelques avantages de Dataflow par rapport à Power Query :

  • Aucune installation nécessaire: Dataflow étant un outil cloud de Power BI Service, il nécessite aucune installation ni de mises à jour contrairement à Power Query qui est une version On-premise embarquée dans l’outil Power BI Desktop.
  • Réutilisation des transformations: le plus gros point faible de Power Query est de ne pas pouvoir réutiliser les transformations que l’on a effectuées sur une ou plusieurs tables dans un nouveau rapport. Problème réglé par Dataflow qui permet de créer des transformations de tables à partir de transformation effectuée auparavant.
  • Partage: Il est aussi possible de partager les Dataflows avec d’autres utilisateurs au sein de l’organisation. Ces derniers pourront également les exploiter librement. Ils peuvent être mis à disposition au sein d’un workspace Power BI partagé.
  • Utilisation d’une passerelle de données: Dataflow étant un service cloud de Microsoft, il possède une adresse IP différente de celle de votre organisation. Afin de pouvoir faire communiquer Dataflow aux sources de données, il est nécessaire d’avoir une passerelle de données locales.

Cas d’utilisations de Dataflow

Cas d'utilisation Power BI Dataflow

Avant d’effectuer une démonstration de l’outil, il est important de comprendre dans quels cas il peut nous être utile. L’image ci-dessus est le point de départ dans la création de notre flux de données.  Quatre choix s’offrent à nous, il est donc important de les décrire :

  • Définir de nouvelles tables : C’est le cas le plus commun car il permet de créer un flux de données à partir de rien. Si l’on passe par cette option, une ou plusieurs sources de données (Excel ou Base de données) vont nous être demandées pour créer notre Dataflow.
  • Lier des tables d’autres flux de données : Cette option permet d’utiliser un jeu de données ainsi que les tables qui le composent d’un autre Dataflow. On va donc récupérer toutes les transformations qui ont été faites sur les tables du jeu de données et ainsi gagner du temps dans l’analyse de nos données.
  • Importer le modèle : Cette option reste dans la même optique que la deuxième : ne pas repartir de rien pour créer notre flux de données et ne pas refaire nos transformations. Avec cette option on va choisir d’importer le modèle entier de notre flux de données. Cela passe par un fichier JSON que l’on obtient de la manière suivante sur un Dataflow existant.
  • Joindre un dossier Common Data Model : Le dernier choix étant en préversion, il ne sera pas détaillé dans cet article.

Prérequis

Avant de créer notre premier Dataflow il est important de comprendre certaines choses autour de cet outil mis à disposition par l’environnement Power BI.

  • Les Dataflow ne sont disponibles que sur les versions Pro et Premium de Power BI. La version standard n’offre pas cette option. De plus si on veut effectuer des traitements plus complexes, comme des jointures entre deux tables contenant de grandes quantités de données, la version premium devient indispensable.
  • L’utilisation des Dataflows pour la création de rapport ne peut se faire que depuis Power BI Desktop. C’est une notion importante pour les utilisateurs métier uniquement familiers avec Power BI Service.
  • L’existence d’une passerelle de données est indispensable si on veut se connecter aux données on-premise (bases de données, fichiers plats, … etc.) pour la création d’un Dataflow.
Restons connectés !

Inscrivez-vous à la newsletter DeciVision !

Soyez notifiés de nos derniers articles de blog, de nos prochains webinars et nos actualités !

Exemple de création d’un Dataflow

Pour créer un Dataflow il faut, premièrement se placer dans un espace de travail puis cliquer sur nouveau > Flux de données. Ensuite on vient choisir l’option « Définir de nouvelles tables ».

Exemple de création d'un Dataflow - Power BI 2
Exemple de création d'un Dataflow - Power BI 3

L’onglet suivant nous propose de choisir une source de données. On retrouve ici tous les connecteurs de Power BI, que ça soit des fichiers Excel ou CSV, des connecteurs ODBC en passant par tous les services AZURE. Dans notre exemple nous allons choisir un fichier texte/CSV.

Choisir une source de données - Power BI Dataflow

Une nouvelle fenêtre s’ouvre, celle qui va nous permettre d’importer notre fichier CSV présent en local. Ensuite il suffit de remplir les champs indiqués :

Connexion jeu de données Dataflow - Power BI

Une fois connecté à notre jeu de données, nous pouvons enfin commencer la création/modification de notre Dataflow. La fenêtre suivante représente notre espace de travail (très similaire à Power Query) pour la transformation de nos données. On retrouve de gauche à droite, les différentes requêtes (tables) que l’on a importées, la vue données, le ruban de transformation et les différentes étapes de modifications.

Espace de travail - Transformation de données

La nouveauté présente par rapport à Power Query est la vue diagramme (Afficher >Affichage des diagrammes). Cette option permet d’avoir une vue graphique de nos différentes transformations à l’instar d’un ETL « classique ».

Vue diagramme Dataflow - Power BI

Enfin le ruban de transformation, où l’on retrouve tous les types de transformations de données de Power Query.

Ruban de transformation Power Query

Une fois nos tables chargées et nos transformations effectuées, il est temps de créer notre rapport Power BI. Comme spécifié dans les remarques c’est uniquement faisable via le Desktop. On trouve le connecteur Dataflow à l’endroit suivant dans Power BI Desktop :

Une fois connecté avec votre compte Power BI, on peut accéder à notre Dataflow.

Remarque :  Pour faire fonctionner le Dataflows. Une fois la connexion créée sur Power BI Desktop, il ne faut pas oublier d’actualiser les données sur Power BI Service, puis actualiser les données dans Power Query .

Rapport Power BI Dataflow Connecteur

CONCLUSION DE L’EXPERT

L’outil Dataflow devient une brique supplémentaire dans l’architecture Microsoft Power BI. Le fait de disposer d’un Power Query dans le Cloud permet de gagner du temps au niveau de la chaine du retraitement de la donnée.

Microsoft insiste beaucoup sur le fait que les Dataflows sont réutilisables autant de fois que nécessaire et surtout partageable dans les différentes espaces de travail. Reste à savoir si cet outil deviendra indispensable pour les développeurs Power BI, peut-être trop habitué à l’utilisation de Power Query Desktop.

Un projet ? Une question ?

Laissez-nous vos coordonnées et nous vous recontactons dans les plus brefs délais !

Articles récents
Évènements à venir
Newsletter DeciVision

Soyez notifiés de nos derniers articles de blog, de nos prochains webinars et nos actualités !