게시글
- KServe의 Inference Batcher KServe Inference Batcher는 여러 개의 개별 예측 요청을 하나의 배치로 묶어 처리함으로써 전체적인 처리량을 증가시키는 기능이다. 주요 특징구현 위치: KServe 모델 에이전트 사이드카주입 메커니즘: 웹훅을 통한 InferenceService 파드에 주입내부 통신: Go 채널을 사용한 데이터 전송프로토콜 지원: KServe v1 HTTP 프로토콜 (gRPC 미지원) 작동 방식예측 요청이 모델 에이전트 사이드카에 도착Batcher가 요청을 모아 배치 생성배치 완성 시 예측기 컨테이너로 추론 요청 전송 배치 트리거maxBatchSize: 최소 배치 크기. HTTP 요청의 수가 아닌 배치에 포함된 데이터 인스턴스의 수를 의미한다. 최소한 maxBatchSize 만큼의 데이터 인스턴스가 입력.. 2024.10.12
- JuiceFS CSI driver를 이용해 MinIO와 HDFS를 Kubernetes와 연동하기 Kubernetes 환경에서 JuiceFS CSI(Container Storage Interface) 드라이버를 사용하여 MinIO와 HDFS를 스토리지 백엔드로 통합하는 방법을 설명한다.JuiceFS CSI 드라이버를 통해 StorageClass를 생성하고, 이를 이용해 PVC를 만들어 Kubernetes POD에서 MinIO와 HDFS 스토리지를 마운트 하여 사용할 수 있다. JuiceFS CSI 드라이버 설치1. Helm 저장소 추가 및 업데이트helm repo add juicefs https://juicedata.github.io/charts/helm repo update 2. 기본 설정 파일 다운로드설정 파일을 다운로드 한 후 필요한 부분은 수정한다. 이 예제에서는 기본 설정을 그대로 사용했다... 2024.10.11
- KServe Autoscaler KPA와 HPA 비교 KServe는 Knative Pod Autoscaler (KPA)와 Horizontal Pod Autoscaler (HPA) 두 가지 유형의 auto scaler를 지원한다.KPA는 Knative Serving 설치 시 기본적으로 활성화되지만, HPA를 사용하기 위해서는 별도 설치 및 설정이 필요하다. KPA 제로 스케일링(scale to zero) 기능을 지원한다. Knative Serving 코어의 일부로, Knative Serving 설치 시 기본적으로 활성화된다. CPU, MEMORY 기반 auto scaling을 지원하지 않는다. HTTP 기반 워크로드에 최적화되어 있다.HPA Knative Serving 설치 후 별도로 설치해야 한다. 제로 스케일링(scale to zero) 기능을 지원하지 .. 2024.10.11
반응형