L'utilisation des données à l'ère de l'IA va radicalement changer ! Quelle est l'infrastructure de données nouvelle génération créée avec Azure ADF et Databricks ?
Bonjour,AIJe suis John, un blogueur technologique !
Récemment, dans le monde des affaires, il est devenu courant d'entendre parler d'« utiliser l'IA pour créer de la valeur à partir des données ». Cependant, nombreux sont ceux qui se demandent peut-être : « Comment combiner IA et données ? »
Dans un article de blog précédent, nous avons expliqué comment les métadonnées (des informations telles qu’un plan sur les données) peuvent être utilisées pour traiter les données de manière plus intelligente.automatisationCette fois, nous avons encore fait évoluer ce mécanisme,Une nouvelle architecture (structure du système) pour maximiser la puissance de l'IAÀ proposDébutantJ'aimerais l'expliquer de manière simple à comprendre pour ceux qui ne connaissent pas le sujet !
Ajoutez l'IA au mécanisme de base ! Élargissez le « plan »
Commençons par passer en revue les mécanismes actuels d’utilisation des données.Azure Usine de données (ADF)ADF est un outil qui gère le processus de collecte de données à partir de divers endroits, de leur traitement et de leur livraison à un emplacement spécifique (appelé pipeline de données).« Chef d'orchestre de l'informatique »C'est comme.
Les « métadonnées » sont comparables à la « partition » utilisée par le chef d'orchestre. En y inscrivant « quelles données », « d'où elles proviennent » et « comment elles doivent être traitées », la force de ce système réside dans sa capacité à traiter automatiquement diverses données sans avoir à écrire un nouveau programme à chaque fois.
Le point le plus important de cette évolution est le suivantIl est désormais possible d'écrire des instructions liées à l'IA dans la « partition musicale (métadonnées) »Afin d’intégrer en douceur l’analyse de l’IA dans le processus de traitement des données, nous avons ajouté de nouvelles informations aux métadonnées.
- ML_Models (informations sur le modèle d'IA): Enregistrez les détails du modèle d'IA que vous utiliserez (par exemple, modèle de prévision des ventes, modèle de classification des clients) et les détails du modèle.
- Feature_Engineering (étapes de prétraitement des données): Définissez les étapes de préparation des données afin qu'elles soient plus faciles à comprendre pour l'IA, comme la conversion des nombres dans une plage spécifique.
- Pipeline_Dependencies (ordre des opérations):Il garantit l'ordre correct des tâches, telles que « collecter des données puis faire des prédictions à l'aide de l'IA » et « enregistrer les résultats des prédictions ».
- Output_Storage (où les résultats sont enregistrés)Comment analyser les résultats de prédiction produits par l'IA ?Base de donnéesIndiquez si les données doivent être enregistrées dans un tableau ou dans un fichier.
En étendant le score de cette manière, le traitement des données et l’analyse de l’IA peuvent être effectués automatiquement dans le cadre d’un processus continu.
« MLOps piloté par les métadonnées » facilite la gestion des modèles d'IA
「MLOpsAvez-vous déjà entendu parler du terme « ML-Ops » ? Il désigne un ensemble de mécanismes opérationnels permettant de développer un modèle d'IA, de l'utiliser dans un système réel et d'en maintenir et gérer en permanence les performances.
En règle générale, le MLOps est complexe, car il implique de nombreux spécialistes, tels que des ingénieurs et des data scientists. Cependant, avec cette architecture,Gérer divers processus MLOps avec des « métadonnées »Cela rend le fonctionnement des modèles d’IA beaucoup plus simple et plus efficace.
- Entraîner le modèleEn écrivant simplement des règles telles que « recycler le modèle d'IA avec les dernières données le premier jour de chaque mois » dans les métadonnées, le processus d'apprentissage sera exécuté automatiquement.
- Faire des prédictions (inférence)Même si vous souhaitez mettre à niveau vers une version plus récente du modèle d'IA, vous n'avez pas besoin de réécrire le programme du pipeline. Il vous suffit de mettre à jour la description des métadonnées de « version 1.0 » à « version 2.0 ».
- モ ニ タ リ ン グIl est également possible d’automatiser le processus de surveillance constante de la précision prédictive du modèle d’IA et d’envoyer une alerte à la personne responsable si elle tombe en dessous d’un seuil défini dans les métadonnées.
L’un des principaux avantages est que les métadonnées agissent comme un langage commun, facilitant la collaboration entre les équipes et réduisant considérablement le temps nécessaire à l’introduction d’une nouvelle IA dans votre entreprise.
La fonctionnalité clé du système ! Une « boucle de rétroaction » générant une analyse continue.
L’aspect le plus révolutionnaire de cette architecture est« Boucle de rétroaction »C'est l'idée.
Il s'agit d'un mécanisme qui utilise les résultats de prédiction de l'IA comme déclencheur pour lancer automatiquement le prochain traitement ou analyse de données. Plutôt que de laisser les données circuler dans un sens puis dans l'autre, ce mécanisme crée un cycle dans lequel les résultats de l'analyse de l'IA génèrent l'action suivante.
Par exemple, cela devient possible :
- Si une IA de prévision de la demande pour un certain produit prédit qu'« il y aura probablement une pénurie d'approvisionnement la semaine prochaine », le résultat de cette prédiction déclenchera un processus automatique de compilation des données d'inventaire actuelles et des informations sur les fournisseurs, permettant au personnel des achats de prendre des mesures immédiates.
- L'IA qui détecte les anomalies du réseau identifiera les « communications suspectes ». En fonction des résultats de la détection, un processus sera automatiquement lancé pour collecter des journaux détaillés et des données sur le comportement des utilisateurs.セ キ ュ リ テ ィAider le personnel dans son enquête.
De cette façon, le système répond de manière dynamique aux résultats de l’analyse de l’IA, vous permettant de réagir rapidement plutôt que d’attendre qu’un problème survienne.Utilisation proactive des données pour prendre des mesures proactivesCela peut être réalisé.
Dans les coulisses : le puissant partenariat entre ADF et Databricks
Ce mécanisme astucieux estMicrosoft Ceci est soutenu par la puissante collaboration entre deux services Azure.
Usine de données Azure (ADF)Comme mentionné précédemment, il s'agit du « conducteur » qui gère l'ensemble du flux. Il lit les métadonnées et exécute les mouvements de données, les appels à Databricks, etc. dans l'ordre.
一方,Azure Databricksest un « analyste de génie » chargé de tâches nécessitant des capacités de traitement extrêmement puissantes, telles que les calculs d'IA et l'analyse d'énormes quantités de données.
ADF fait office de centre de commande pour contrôler l'ensemble du système, tandis que Databricks, expert en traitement de l'IA, se charge des tâches les plus complexes. Cette excellente répartition des rôles est au cœur de cette architecture avancée.
Un mot de John
Ce système est comparable à un assistant intelligent qui lit constamment au-delà des données et vous indique : « Voici ce que vous devez faire ensuite. » J'ai trouvé cette approche excellente, qui nous a ouvert les portes d'un avenir où les données ne sont plus seulement stockées, mais utilisées en temps réel comme des « informations vivantes ».
Cet article est basé sur les articles originaux suivants et est résumé du point de vue de l'auteur :
Orchestration de pipelines de données pilotés par l'IA avec Azure ADF et
Databricks : une évolution architecturale
