Раскрывая силу открытого исходного кода: как IBM Watson X использует инновации

Узнайте, как IBM Watson X использует инновации с открытым исходным кодом для питания корпоративного искусственного интеллекта и данных. Исследуйте инструменты и технологии с открытым исходным кодом, включая Codeflare, PyTorch, KServe и Presto, которые обеспечивают обучение моделей, настройку и аналитику данных в масштабе на OpenShift.

15 января 2025 г.

party-gif

Узнайте, как платформа IBM Watson X использует силу открытого исходного кода для предоставления передовых решений в области искусственного интеллекта и данных. Исследуйте технологии с открытым исходным кодом, которые обеспечивают эффективное обучение, настройку и вывод моделей, а также бесшовный сбор данных и аналитику. Этот блог-пост предоставляет всестороннее представление о том, как открытый исходный код стимулирует инновации в Watson X, позволяя бизнесу использовать лучшее в области искусственного интеллекта и данных.

Преимущества открытого исходного кода в Watson X

IBM имеет долгую историю участия и использования открытого исходного кода в своих предложениях. Эта традиция продолжается с Watson X, новой корпоративной платформой IBM для ИИ и данных. Используя открытый исходный код, Watson X получает выгоду от лучших доступных ИИ, инноваций и моделей.

Использование открытого исходного кода в Watson X охватывает три ключевых аспекта: обучение и проверка моделей, настройка и вывод моделей, а также сбор и аналитика данных.

Для обучения и проверки моделей Watson X использует проект с открытым исходным кодом Codeflare. Codeflare предоставляет удобные для пользователя абстракции для масштабирования, очереди и развертывания рабочих нагрузок машинного обучения, интегрируясь с Ray, Kubernetes и PyTorch.

PyTorch, фреймворк машинного обучения с открытым исходным кодом, используется для представления моделей в Watson X. PyTorch предлагает ключевые функции, такие как поддержка тензоров, ускорение GPU и распределенное обучение, что позволяет эффективно обрабатывать большие и сложные модели.

Обучение и проверка моделей с помощью Codeflare

Обучение и проверка моделей могут занимать большое количество ресурсов кластера, особенно когда модели являются огромными многомиллиардными параметрическими фундаментальными моделями. Чтобы эффективно использовать кластер и облегчить работу ученых-данных, IBM имеет проект с открытым исходным кодом под названием Codeflare.

Codeflare предоставляет удобные для пользователя абстракции для масштабирования, очереди и развертывания рабочих нагрузок машинного обучения. Он интегрируется с Ray, Kuberay и PyTorch, чтобы предоставить эти функции. С помощью Ray он предоставляет абстракцию задачи, а Kuberay позволяет Ray работать на платформах Kubernetes, таких как OpenShift.

Представление моделей с помощью PyTorch

PyTorch предоставляет ключевые функции для представления моделей, включая поддержку тензоров, поддержку GPU и распределенное обучение.

Тензоры - это многомерные массивы, которые хранят взвешенные значения или вероятности, которые корректируются со временем для улучшения прогнозирующих возможностей модели. Поддержка тензоров PyTorch позволяет эффективно представлять эти сложные параметры модели.

Поддержка GPU в PyTorch позволяет выполнять высокоэффективные вычисления во время обучения модели, что имеет решающее значение для больших и сложных моделей. Кроме того, распределенные возможности обучения PyTorch позволяют обучать модели, которые слишком велики, чтобы поместиться на одной машине, распределяя обучение по нескольким машинам.

Настройка и вывод моделей с помощью технологий с открытым исходным кодом

Мы хотим иметь возможность обслуживать большое количество моделей ИИ и делать это в масштабе на OpenShift. Открытые проекты, которые мы используем для этого, - это KServ Model Mesh и KKit.

KServ Model Mesh позволяет нам эффективно обслуживать тысячи моделей в одном поде. Первоначально KServ мог обслуживать только одну модель на под, что было не очень эффективно. Объединив KServ с проектом Model Mesh, мы теперь можем эффективно обслуживать большое количество моделей на кластере OpenShift.

Для поиска этих моделей мы используем репозиторий Hugging Face, в котором более 200 000 открытых моделей. У IBM есть партнерство с Hugging Face, что делает его отличным источником моделей для использования в наших предложениях Watson X.

Сбор и анализ данных с помощью Presto

Presto - это проект с открытым исходным кодом, который IBM использует для сбора и аналитики данных в Watson X. Presto - это высокопроизводительный SQL-движок запросов, который позволяет проводить открытую аналитику данных и питает открытое озеро данных.

Основные функции Presto включают:

  • Высокая производительность: Presto является высокомасштабируемым и обеспечивает быстрое выполнение запросов, что делает его подходящим для крупномасштабной аналитики данных.

  • Федеративные запросы: Presto позволяет выполнять запросы к данным из нескольких источников, обеспечивая единый вид ваших данных.

  • Запрос данных там, где они находятся: Presto может запрашивать данные непосредственно в их исходном местоположении, устраняя необходимость перемещения данных в централизованное хранилище.

Часто задаваемые вопросы