오픈 소스의 힘 unleashing: IBM Watson X가 혁신을 활용하는 방법
IBM Watson X가 오픈 소스 혁신을 활용하여 엔터프라이즈 AI와 데이터를 구동하는 방법을 발견하세요. Codeflare, PyTorch, KServe, Presto를 포함한 오픈 소스 도구와 기술을 탐색하여 OpenShift에서 대규모 모델 교육, 튜닝 및 데이터 분석을 수행하세요.
2025년 1월 24일
IBM의 Watson X 플랫폼이 오픈 소스의 힘을 활용하여 최첨단 AI 및 데이터 솔루션을 제공하는 방법을 발견하세요. 효율적인 모델 학습, 튜닝 및 추론, 그리고 원활한 데이터 수집 및 분석을 가능하게 하는 오픈 소스 기술을 탐색하세요. 이 블로그 게시물은 Watson X 내에서 오픈 소스가 혁신을 주도하는 방식에 대한 종합적인 개요를 제공합니다. 이를 통해 기업은 AI와 데이터의 최고를 활용할 수 있습니다.
Watson X의 오픈 소스 장점
Codeflare를 사용한 모델 학습 및 검증
PyTorch를 사용한 모델 표현
오픈 소스 기술을 사용한 모델 튜닝 및 추론
Presto를 사용한 데이터 수집 및 분석
결론
Watson X의 오픈 소스 장점
Watson X의 오픈 소스 장점
IBM은 오랜 역사 동안 오픈 소스에 기여하고 이를 활용해 왔습니다. 이러한 전통은 IBM의 새로운 엔터프라이즈 AI 및 데이터 플랫폼인 Watson X에서도 계속됩니다. 오픈 소스를 포용함으로써 Watson X는 최고의 AI, 혁신 및 모델을 활용할 수 있습니다.
Watson X에서 오픈 소스의 사용은 모델 학습 및 검증, 모델 튜닝 및 추론, 데이터 수집 및 분석의 세 가지 핵심 측면에 걸쳐 있습니다.
모델 학습 및 검증을 위해 Watson X는 오픈 소스 프로젝트 Codeflare를 활용합니다. Codeflare는 Ray, Kubernetes, PyTorch와 통합되어 기계 학습 워크로드의 확장, 대기열 관리 및 배포를 위한 사용자 친화적인 추상화를 제공합니다.
PyTorch, 오픈 소스 기계 학습 프레임워크는 Watson X에서 모델을 표현하는 데 사용됩니다. PyTorch는 텐서 지원, GPU 가속, 분산 학습 등의 핵심 기능을 제공하여 대규모 복잡 모델을 효율적으로 처리할 수 있게 합니다.
모델 튜닝 및 추론을 위해 Watson X는 오픈 소스 프로젝트 KServe와 Model Mesh를 활용합니다. 이러한 기술을 통해 OpenShift 플랫폼에서 수천 개의 AI 모델을 효율적으로 서비스할 수 있습니다. 또한 오픈 소스 프로젝트 KKIT은 프롬프트 튜닝을 위한 API를 제공하여 추론 기능을 더욱 향상시킵니다.
마지막으로 데이터 수집 및 분석을 위해 Watson X는 오픈 소스 SQL 쿼리 엔진 Presto를 활용합니다. Presto의 높은 성능, 확장성 및 데이터 원본 직접 쿼리 기능은 Watson X 데이터 생태계의 중요한 구성 요소입니다.
오픈 소스 기술을 포용함으로써 Watson X는 최고의 AI, 혁신 및 모델을 활용할 수 있게 되어, 사용자들이 대규모로 지능형 애플리케이션을 구축하고 배포할 수 있게 됩니다.
Codeflare를 사용한 모델 학습 및 검증
Codeflare를 사용한 모델 학습 및 검증
모델 학습 및 검증에는 특히 수십억 개의 매개변수를 가진 대규모 Foundation 모델의 경우 클러스터 리소스가 많이 필요합니다. 클러스터를 효율적으로 사용하고 데이터 과학자들의 작업을 더 쉽게 만들기 위해 IBM은 Codeflare라는 오픈 소스 프로젝트를 개발했습니다.
Codeflare는 기계 학습 워크로드의 확장, 대기열 관리 및 배포를 위한 사용자 친화적인 추상화를 제공합니다. Ray, Kuberay, PyTorch와 통합되어 이러한 기능을 제공합니다. Ray를 통해 작업 추상화를 제공하며, Kuberay를 통해 Ray가 OpenShift와 같은 Kubernetes 플랫폼에서 실행될 수 있게 합니다.
일반적인 Codeflare 사용 사례에서는 먼저 Ray 클러스터를 시작합니다. 그 후 데이터 과학자가 클러스터에 학습 작업을 제출할 수 있습니다. OpenShift 클러스터가 과도하게 사용되어 리소스를 사용할 수 없는 경우, Codeflare는 작업을 대기열에 넣고 리소스를 사용할 수 있게 될 때까지 기다릴 수 있습니다. 경우에 따라서는 워크로드를 수용하기 위해 클러스터를 확장할 수도 있습니다. 학습 및 검증이 완료되면 Codeflare는 Ray 작업을 삭제하고 클러스터에서 제거할 수 있습니다.
Codeflare의 핵심 장점은 데이터 과학자가 기반 인프라에 대해 걱정하지 않고도 클러스터 또는 여러 OpenShift 클러스터를 효율적으로 사용할 수 있게 해준다는 것입니다.
PyTorch를 사용한 모델 표현
PyTorch를 사용한 모델 표현
PyTorch는 텐서 지원, GPU 지원, 분산 학습 등의 모델 표현을 위한 핵심 기능을 제공합니다.
텐서는 가중치 값 또는 확률을 저장하는 다차원 배열로, 모델의 예측 성능을 향상시키기 위해 시간이 지남에 따라 조정됩니다. PyTorch의 텐서 지원은 이러한 복잡한 모델 매개변수를 효율적으로 표현할 수 있게 합니다.
PyTorch의 GPU 지원은 모델 학습 중 매우 효율적인 계산을 가능하게 하며, 이는 대규모 복잡 모델에 매우 중요합니다. 또한 PyTorch의 분산 학습 기능을 통해 단일 머신에 맞지 않는 모델도 여러 머신에 걸쳐 학습할 수 있습니다.
PyTorch의 기타 주요 모델 표현 기능에는 다음이 포함됩니다:
- 신경망 생성: PyTorch를 통해 다양한 유형의 신경망을 쉽게 생성할 수 있습니다.
- 데이터 로딩: PyTorch는 사용하기 쉬운 데이터 로딩 기능을 제공합니다.
- 학습 루프: PyTorch에는 모델 매개변수를 효율적으로 업데이트하여 예측 정확도를 높이는 내장 학습 루프가 있습니다.
- 모델 조정: PyTorch의 자동 기울기 계산 기능은 모델 성능 향상을 위한 작은 조정 과정을 단순화합니다.
PyTorch가 제공하는 이러한 오픈 소스 기능을 활용하여 Watson X는 엔터프라이즈급 AI 및 데이터 플랫폼의 일부로 복잡한 AI 모델을 효율적으로 표현하고 학습할 수 있습니다.
오픈 소스 기술을 사용한 모델 튜닝 및 추론
오픈 소스 기술을 사용한 모델 튜닝 및 추론
OpenShift에서 대규모로 많은 AI 모델을 효율적으로 서비스하고자 합니다. 이를 위해 우리가 활용하는 오픈 소스 프로젝트는 KServe, Model Mesh, KKit입니다.
KServe Model Mesh를 통해 단일 pod에서 수천 개의 모델을 효율적으로 서비스할 수 있습니다. 원래 KServe는 pod당 하나의 모델만 서비스할 수 있었지만, Model Mesh 프로젝트와 통합되면서 OpenShift 클러스터에서 많은 수의 모델을 효율적으로 서비스할 수 있게 되었습니다.
이러한 모델을 찾기 위해 Hugging Face 리포지토리를 활용합니다. Hugging Face에는 20만 개 이상의 오픈 소스 모델이 있으며, IBM은 Hugging Face와 파트너십을 맺고 있어 Watson X 제품에 활용할 수 있는 좋은 모델 소스가 되고 있습니다.
또한 프롬프트 튜닝을 위한 API를 제공하는 오픈 소스 프로젝트 KKit을 사용하여 추론 단계에서 모델을 미세 조정할 수 있습니다.
이러한 오픈 소스 기술들이 결합되어 OpenShift에서 대규모로 AI 모델을 서비스하고 튜닝할 수 있게 하며, Watson X의 모델 추론 기능을 지원합니다.
Presto를 사용한 데이터 수집 및 분석
Presto를 사용한 데이터 수집 및 분석
Presto는 Watson X에서 데이터 수집 및 분석을 위해 활용하는 오픈 소스 프로젝트입니다. Presto는 고성능 SQL 쿼리 엔진으로, 오픈 데이터 분석과 오픈 데이터 레이크하우스를 지원합니다.
Presto의 주요 특징은 다음과 같습니다:
-
고성능: Presto는 높은 확장성과 빠른 쿼리 실행 속도를 제공하여 대규모 데이터 분석에 적합합니다.
-
연합 쿼리: Presto를 통해 다양한 데이터 소스에 걸쳐 쿼리를 실행할 수 있어 데이터에 대한 통합된 뷰를 제공합니다.
-
데이터 원본 직접 쿼리: Presto는 데이터를 중앙 저장소로 이동할 필요 없이 원본 위치에서 직접 쿼리할 수 있습니다.
Presto를 사용함으로써 Watson X는 다양한 소스의 데이터를 효율적으로 수집하고 분석할 수 있어, 데이터 기반 인사이트를 얻고 플랫폼의 AI 및 기계 학습 기능을 강화할 수 있습니다.
자주하는 질문
자주하는 질문