News information : IBM 8.X Information Server (DataStage): Méthodes de traitement parallèles

Un référentiel de données est une base de données centrale intégrée contenant des données provenant de systèmes sources hétérogènes dans une organisation. Les données sont transformées pour éliminer les écarts, collectées pour résumer les données et téléchargées dans le référentiel de données. Cette base de données est accessible à plusieurs utilisateurs, garantissant que chaque groupe d'une organisation a accès à des données précieuses et cohérentes.

Pour traiter efficacement de gros volumes de données provenant de systèmes sources hétérogènes, le logiciel ETL (Extraction, Transform et Load) a mis en œuvre un traitement parallèle.

Divisez le traitement parallèle en parallélisme de pipeline et divisez le parallélisme.

Le serveur d'informations IBM ou DataStage nous permet d'utiliser les deux méthodes de traitement parallèles.

Parallélisme de pipeline:

Les données du pipeline DataStage (lorsque cela est possible) d'une étape à l'autre et rien ne doit être fait pour y arriver. ETL (extraction, transformation et chargement) Les processus traitent simultanément les données à toutes les étapes d'un travail et s'exécutent simultanément. Le processus en aval commencera dès que les données seront disponibles en amont. Le parallélisme de pipeline élimine le besoin de stockage intermédiaire sur un disque.

Parallélisme de division:

L'objectif de la plupart des opérations de partitionnement est de se retrouver avec une série de partitions de taille aussi égale que possible, fournissant une charge égale entre les processeurs. Cette partition est idéale pour gérer de très grandes quantités de données en divisant les données en partitions. Chaque partition est traitée par un exemple distinct des étapes de travail.

Combiner le parallélisme et la séparation des pipelines:

Un gain de performances supérieur peut être obtenu en combinant le parallélisme de pipeline et de partition. Les données sont divisées et les données divisées remplissent le pipeline de sorte que la phase aval du traitement des données fractionnées pendant que l'amont fonctionne toujours. DataStage nous permet d'utiliser ces méthodes de traitement parallèle dans des travaux parallèles.

La réparation des données fractionnées en fonction des besoins de l'entreprise peut être effectuée sur DataStage et les données de répartition ne seront pas téléchargées sur le disque.

Installations de traitement parallèle:

L'environnement dans lequel vous exécutez vos travaux DataStage est déterminé par l'architecture de votre système et les ressources matérielles.

Tous les environnements de traitement parallèles peuvent être classés comme

  • SMP (Multi Symmetric Processing)
  • Clusters ou MPP (Parallel Mass Processing)

SMP (multiprocessing symétrique), mémoire partagée:

  • Certaines ressources matérielles peuvent être partagées entre les processeurs.
  • Les processeurs communiquent via la mémoire partagée et ont un seul système d'exploitation.
  • Toutes les ressources du système de stockage CPU

MPP (Parallel Mass Processing), rien de commun:

  • Un MPP en tant que groupe de SMP connexes.
  • Chaque processeur a un accès exclusif aux ressources matérielles.
  • Les systèmes MPP sont physiquement logés dans la même boîte.

Systèmes de clustering:

  • Systèmes UNIX connectés via des réseaux
  • Les systèmes de grappes peuvent être physiquement dispersés.

La compréhension de ces concepts pour différentes méthodes de traitement et environnements m'a permis de comprendre l'architecture globale des travaux parallèles dans DataStage.