Comment choisir son ETL : les spécificités de Microsoft SSIS

La concurrence entre les éditeurs d’outils ETL augmente de jours en jours. Cela vient en partie du fait que les entreprises utilisent de nombreux outils et de nombreux progiciels. Ils souhaitent de plus en plus analyser, croiser, fiabiliser et maîtriser leurs données dans un but décisionnel. De nombreux outils d’extractions, de transformations et de chargements des données existent actuellement sur le marché, ce qui rend le choix difficile.

Dans cet article, nous allons nous intéresser plus particulièrement à l’ETL Microsoft SSIS.

Qu’est-ce qu’un ETL ?

L’abréviation ETL signifie Extract Transform Load (Extraction Transformation Chargement). Il a pour objectif d’uniformiser des données en provenance de différentes sources de données disparates (bases de données, fichiers plats…), de les nettoyer pour ensuite les transformer (agrégations des données par exemple) et enfin de les charger dans une cible (une base de données le plus souvent). On peut ainsi concevoir un DataWarehouse ou mettre en place des interfaces entre les applications

La première question que l’on se pose est souvent la suivante : « Quel outil ETL choisir et pourquoi ? »

Pour répondre de manière objective à cette question, il faut prendre en compte un certain nombre de critères même si le principe de base reste le même entre tous les ETL. Ainsi, en fonction de ses besoins et de ses moyens, chacun pourra décider quel ETL privilégier.

SQL Server Integration Services (SSIS)

Depuis de nombreuses années, Microsoft édite une suite de logiciels décisionnels (notamment SSIS, SSAS et SSRS). Sorti en 2006, son ETL connu sous le nom SQL Server Integration Services (SSIS) est le premier service à entrer en action. SQL Server Integration Services est la version améliorée de Data Transformation Services (DTS), présent dans les versions de SQL Server antérieures à 2005.

SQL Server integration Services

Cet outil permet d’extraire des données issues de plusieurs sources, de les transformer et de les charger le plus souvent dans un entrepôt de données. Ce dernier est fondé sur la technologie SQL Server. Le développement des flux ETL sur cet outil se fait à travers une interface graphique qui rend son utilisation agréable et intuitive.

Interface Microsoft SSIS

Microsoft SQL Server Integration Services (SSIS) est une plateforme permettant la mise en place de solutions d’intégration pour de gros volumes de données à hautes performances. Dans cet outil, nous utilisons la notion de package pour gérer les extractions, les transformations et les chargements des données dans un infocentre. Ces packages permettent de faciliter le processus de transformation des données afin d’éviter des développements lourds et complexes.

L’utilisation des outils graphiques et des assistants permet de créer et de déboguer des packages. De plus, cet outil comprend de multiples fonctions de transformations prédéfinies (agrégation, fusion des données, tri…) sans avoir à les coder. Ils sont présents dans une boite à outils.

Il comprend également un large choix de tâches prédéfinies comme l’envoie de mail, le traitement de fichiers XML, le traitement de répertoires complets, l’exécution d’instructions SQL et bien d’autres.

D’autre part, cet outil possède une base de données de gestion nommée « SSISDB » qui permet d’administrer et de superviser l’exécution et le stockage des packages.

L’outil Microsoft SQL Server Agent permet quant à lui de planifier les packages SSIS souhaités. En effet, en plus de fournir un contrôle total sur ses données, les packages «.dtsx » peuvent être lancés automatiquement. L’entreprise peut donc automatiser des tâches prédéfinies : les données seront extraites, modifiées et consolidées dans l’infocentre selon les paramètres définis.

Microsoft SQL Server Agent

En outre, il est également possible, à l’aide de scripts, de coder de nouvelles fonctions ou de faire appel à d’autres DLL fournissant de nouvelles fonctionnalités. Ceci est un atout fort de ce produit car il ne nous cloisonne pas aux blocs disponibles dans la boîte à outils.

Installation de Microsoft SSIS

SSIS étant un composant parmi un ensemble de produits décisionnels de Microsoft, il faut donc exécuter un programme d’installation complet fournit par SQL Server. Ce programme vous permettra, soit d’installer tous les outils, soit seulement une partie. Le programme d’installation de SQL Server installe les composants logiciels suivants requis par le produit : SQL Server Native Client et les fichiers de support du programme d’installation de SQL Server. L’installation complète de SQL Server se fait sur un serveur aux ressources dédiées.

En parallèle, il vous est également possible d’installer les outils client de Microsoft (SSIS, SSAS et SSRS) sur votre poste.

Vous trouverez ci-après, les pré-requis matériels pour réaliser l’installation :

Pré-requis SSIS

Points Forts de Microsoft SSIS

  • Mise à disposition d’un grand nombre de fonctions d’intégration de données pertinentes
  • Vitesse de mise en œuvre
  • Son interface graphique intuitive rend son utilisation facile
  • Intégration étroite avec d’autres produits de la famille Microsoft SQL
  • Stabilité et maturité
  • La licence SQL Server suffit pour avoir accès à toute la gamme de produits Microsoft
  • Documentation du produit et soutien communautaire très présents
  • Marque reconnue

Cet outil est performant pour l’intégration de gros volumes de données que ça soit en masse ou par lots. De plus, il s’intègre parfaitement aux produits Microsoft SQL Server, ce qui permet d’offrir aux utilisateurs une réponse complète aux besoins réels du marché.

Points Faibles de Microsoft SSIS

  • Impossibilité de dupliquer un flux existant
  • SQL Server Integration Services peut être installé uniquement sur l’environnement Microsoft Windows ce qui montre une limite importante de l’outil
  • Son intégration avec d’autres produits est complexe
  • Pour accéder au rapport d’exécution du package, vous avez besoin de l’outil Management Studio
  • L’exécution en parallèle de plusieurs packages peut faire apparaitre très rapidement des erreurs de mémoire. En effet, SSIS puise beaucoup de ressource tout comme le serveur SQL. Si l’allocation des ressources entre SSIS et SQL n’est pas correctement établit, vous rencontrerez des problèmes de mémoire et les performances de SSIS seront fortement impactées

CONCLUSION DE L’EXPERT

Tout d’abord, il est important de choisir l’outil d’intégration des données qui correspond le plus à vos besoins, le plus à vos moyens et qui peut être mis en œuvre avec les ressources et les compétences dont vous disposez.

Si vous travailler sur un environnement Microsoft avec des bases de données SQL Server, et que vous possédez déjà d’une licence SQL Server alors le choix de l’outil SSIS sera le plus judicieux.

De plus les flux ETL développés s’intègrent dans la console d’administration SQL Server (Management Console), ceci permet de centraliser l’administration des bases de données SQL et des flux ETL dans une même console.

Nous vous invitons également à lire les autres articles de cette série qui permettent de voir les points forts et points faibles de SAP Data Services et Talend.



Laisser un commentaire

Etes-vous un humain ? *