Die Kraft des Open Source erschließen: Wie IBM Watson X Innovation nutzt

Entdecken Sie, wie IBM Watson X die Innovation von Open-Source nutzt, um Enterprise-KI und Daten anzutreiben. Erkunden Sie die Open-Source-Tools und -Technologien, darunter Codeflare, PyTorch, KServe und Presto, die das Training, die Abstimmung und die Datenanalyse in großem Maßstab auf OpenShift vorantreiben.

15. Januar 2025

party-gif

Entdecken Sie, wie die Watson X-Plattform von IBM die Kraft von Open Source nutzt, um innovative KI- und Datenlösungen zu liefern. Erkunden Sie die Open-Source-Technologien, die eine effiziente Modellausbildung, -abstimmung und -inferenz sowie nahtlose Datenerfassung und -analyse ermöglichen. Dieser Blogbeitrag bietet einen umfassenden Überblick darüber, wie Open Source die Innovation innerhalb von Watson X vorantreibt und Unternehmen dabei unterstützt, das Beste aus KI und Daten zu schöpfen.

Die Vorteile von Open Source in Watson X

IBM hat eine lange Geschichte der Beiträge zu und der Nutzung von Open Source in seinen Angeboten. Diese Tradition setzt sich mit Watson X, der neuen Enterprise-Plattform von IBM für KI und Daten, fort. Durch die Nutzung von Open Source profitiert Watson X von den besten KI-Modellen, Innovationen und Modellen, die verfügbar sind.

Die Verwendung von Open Source in Watson X erstreckt sich auf drei Schlüsselaspekte: Modelltraining und -validierung, Modellabstimmung und Inferenz sowie Datenerfassung und -analyse.

Für das Modelltraining und die Modellvalidierung nutzt Watson X das Open-Source-Projekt Codeflare. Codeflare bietet benutzerfreundliche Abstraktionen zum Skalieren, Anstellen und Bereitstellen von Machine-Learning-Workloads, die mit Ray, Kubernetes und PyTorch integriert sind.

PyTorch, das Open-Source-Framework für maschinelles Lernen, wird verwendet, um die Modelle in Watson X darzustellen. PyTorch bietet Schlüsselmerkmale wie Tensor-Unterstützung, GPU-Beschleunigung und verteiltes Training, die eine effiziente Handhabung großer, komplexer Modelle ermöglichen.

Für die Modellabstimmung und Inferenz nutzt Watson X die Open-Source-Projekte KServe und Model Mesh. Diese Technologien ermöglichen das effiziente Bereitstellen von Tausenden von KI-Modellen auf der OpenShift-Plattform. Darüber hinaus bietet das Open-Source-Projekt KKIT APIs für das Prompt-Tuning, um die Inferenzfähigkeiten weiter zu verbessern.

Schließlich nutzt Watson X für die Datenerfassung und -analyse den Open-Source-SQL-Abfragemotor Presto. Die hohe Leistung, Skalierbarkeit und Fähigkeit von Presto, Daten dort abzufragen, wo sie sich befinden, machen es zu einer wertvollen Komponente des Watson X-Daten-Ökosystems.

Modelltraining und -validierung mit Codeflare

Das Training und die Validierung von Modellen können eine große Menge an Clusterressourcen in Anspruch nehmen, insbesondere wenn es sich um riesige Multi-Milliarden-Parameter-Foundation-Modelle handelt. Um einen Cluster effizient zu nutzen und Datenwissenschaftlern die Arbeit zu erleichtern, hat IBM ein Open-Source-Projekt namens Codeflare.

Codeflare bietet benutzerfreundliche Abstraktionen zum Skalieren, Anstellen und Bereitstellen von Machine-Learning-Workloads. Es integriert Ray, Kuberay und PyTorch, um diese Funktionen bereitzustellen. Mit Ray bietet es eine Auftragsabstraktion, und Kuberay ermöglicht es Ray, auf Kubernetes-Plattformen wie OpenShift zu laufen.

In einem typischen Codeflare-Anwendungsfall startet es zunächst einen Ray-Cluster. Der Datenwissenschaftler kann dann Trainingsjobs an den Cluster senden. Wenn der OpenShift-Cluster stark ausgelastet ist und keine Ressourcen verfügbar sind, kann Codeflare die Jobs in eine Warteschlange stellen und warten, bis Ressourcen verfügbar werden. In manchen Fällen kann es den Cluster sogar hochskalieren, um die Workload unterzubringen. Wenn das Training und die Validierung abgeschlossen sind, kann Codeflare die Ray-Jobs löschen und sie aus dem Cluster entfernen.

Der Hauptvorteil von Codeflare ist, dass es Datenwissenschaftlern ermöglicht, einen Cluster oder sogar mehrere OpenShift-Cluster effizient zu nutzen, ohne sich um die zugrunde liegende Infrastruktur kümmern zu müssen.

Darstellung von Modellen mit PyTorch

PyTorch bietet Schlüsselmerkmale zur Darstellung von Modellen, einschließlich Tensor-Unterstützung, GPU-Unterstützung und verteiltes Training.

Tensoren sind mehrdimensionale Arrays, die die gewichteten Werte oder Wahrscheinlichkeiten speichern, die im Laufe der Zeit angepasst werden, um die Vorhersagefähigkeiten des Modells zu verbessern. Die Tensor-Unterstützung von PyTorch ermöglicht eine effiziente Darstellung dieser komplexen Modellparameter.

Die GPU-Unterstützung von PyTorch ermöglicht eine sehr effiziente Berechnung während des Modelltrainings, was für große, komplexe Modelle entscheidend ist. Darüber hinaus ermöglichen die verteilten Trainingsfähigkeiten von PyTorch das Training von Modellen, die zu groß sind, um auf einer einzigen Maschine zu passen, indem das Training auf mehrere Maschinen verteilt wird.

Weitere Schlüsselmerkmale von PyTorch für die Modelldarstellung sind:

  • Erstellung neuronaler Netzwerke: PyTorch erleichtert das Erstellen verschiedener Arten neuronaler Netzwerke.
  • Datenladen: PyTorch bietet einfach zu verwendende Datenlade-Funktionen.
  • Trainingsschleifen: PyTorch enthält integrierte Trainingsschleifen, die die Modellparameter effizient aktualisieren, um die Vorhersagegenauigkeit zu verbessern.
  • Modellanpassungen: PyTorchs Funktion zur automatischen Gradientenberechnung vereinfacht den Prozess der Vornahme kleinerer Anpassungen am Modell, um seine Leistung zu verbessern.

Durch die Nutzung dieser von PyTorch bereitgestellten Open-Source-Funktionen kann Watson X komplexe KI-Modelle effizient darstellen und trainieren, als Teil seiner unternehmensweiten KI- und Datenplattform.

Modellabstimmung und Inferencing mit Open-Source-Technologien

Wir möchten in der Lage sein, eine große Anzahl von KI-Modellen zu bedienen und dies auf OpenShift in großem Maßstab zu tun. Die Open-Source-Projekte, die wir dafür nutzen, sind KServ Model Mesh und KKit.

KServ Model Mesh ermöglicht es uns, Tausende von Modellen in einem einzigen Pod effizient zu bedienen. Ursprünglich konnte KServ nur ein Modell pro Pod bedienen, was nicht sehr effizient war. Durch die Fusion von KServ mit dem Model Mesh-Projekt können wir nun große Mengen von Modellen effizient auf einem OpenShift-Cluster bedienen.

Um diese Modelle zu finden, nutzen wir das Hugging Face-Repository, das über 200.000 Open-Source-Modelle enthält. IBM hat eine Partnerschaft mit Hugging Face, was es zu einer hervorragenden Quelle für Modelle macht, die wir in unseren Watson X-Angeboten verwenden können.

Darüber hinaus verwenden wir KKit, ein Open-Source-Projekt, das APIs für das Prompt-Tuning bereitstellt. Dies ermöglicht es uns, die Modelle auf der Inferenzseite nachzujustieren, um die Ergebnisse zu verbessern.

Zusammen ermöglichen diese Open-Source-Technologien es uns, eine große Anzahl von KI-Modellen in großem Maßstab auf OpenShift zu bedienen und abzustimmen, was die Modell-Inferenzfähigkeiten von Watson X antreibt.

Datenerfassung und -analyse mit Presto

Presto ist das Open-Source-Projekt, das IBM für die Datenerfassung und -analyse in Watson X nutzt. Presto ist ein leistungsfähiger SQL-Abfragemotor, der die offene Datenanalyse und das offene Daten-Lakehouse ermöglicht.

Schlüsselmerkmale von Presto sind:

  • Hohe Leistung: Presto ist hochskalierbar und bietet eine schnelle Abfrageausführung, was es für große Datenanalysen gut geeignet macht.

  • Föderierte Abfragen: Presto ermöglicht es, Daten aus mehreren Datenquellen abzufragen und so eine einheitliche Sicht auf die Daten zu erhalten.

  • Abfrage von Daten dort, wo sie sich befinden: Presto kann Daten direkt an ihrem Quellort abfragen, ohne dass die Daten in ein zentrales Repository verschoben werden müssen.

Durch die Verwendung von Presto kann Watson X Daten aus verschiedenen Quellen effizient erfassen und analysieren, um datengesteuerte Erkenntnisse zu gewinnen und die KI- und Machine-Learning-Fähigkeiten der Plattform zu unterstützen.

Schlussfolgerung

IBM hat eine reiche Geschichte der Beiträge zu Open Source und der Nutzung von Open Source in seinen Angeboten, und Watson X setzt diese Tradition fort. Watson X ist IBMs neue Enterprise-Plattform für KI und Daten, und sie nutzt Open Source, um die besten KI, Innovationen und Modelle bereitzustellen.

Die Open-Source-Projekte, die in Watson X verwendet werden, erstrecken sich auf verschiedene Aspekte der KI- und Daten-Pipeline, einschließlich Modelltraining und -validierung, Modelldarstellung, Modellabstimmung und Inferenz sowie Datenerfassung und -analyse.

Für das Modelltraining und die Modellvalidierung nutzt Watson X das Open-Source-Projekt Codeflare, das benutzerfreundliche Abstraktionen zum Skalieren, Anstellen und Bereitstellen von Machine-Learning-Workloads bietet. Es integriert mit Ray, Kubeflow und PyTorch, um eine effiziente Nutzung von Clusterressourcen zu ermöglichen.

PyTorch ist das Open-Source-Projekt, das verwendet wird, um die Modelle in Watson X darzustellen, und bietet Schlüsselmerkmale wie Tensor-Unterstützung, GPU-Unterstützung und verteilte Trainingsfähigkeiten.

Für die Modellabstimmung und Inferenz nutzt Watson X die Open-Source-Projekte KServ Model Mesh und Hugging Face, die das effiziente Bedienen Tausender von KI-Modellen auf einem OpenShift-Cluster ermöglichen. Darüber hinaus bietet das Open-Source-Projekt KKit APIs für das Prompt-Tuning, um die Ergebnisse zu verbessern.

Schließlich verwendet Watson X für die Datenerfassung und -analyse das Open-Source-Projekt Presto, einen leistungsfähigen SQL-Abfragemotor für die offene Datenanalyse und das offene Daten-Lakehouse.

Durch die Nutzung von Open Source setzt Watson X die Tradition von IBM fort, Innovation voranzutreiben und die besten KI- und Daten-Lösungen für seine Kunden bereitzustellen.

FAQ