본문 바로가기

kPa2

KServe Autoscaler KPA와 HPA 비교 KServe는 Knative Pod Autoscaler (KPA)와 Horizontal Pod Autoscaler (HPA) 두 가지 유형의 auto scaler를 지원한다.KPA는 Knative Serving 설치 시 기본적으로 활성화되지만, HPA를 사용하기 위해서는 별도 설치 및 설정이 필요하다. KPA 제로 스케일링(scale to zero) 기능을 지원한다. Knative Serving 코어의 일부로, Knative Serving 설치 시 기본적으로 활성화된다. CPU, MEMORY 기반 auto scaling을 지원하지 않는다. HTTP 기반 워크로드에 최적화되어 있다.HPA Knative Serving 설치 후 별도로 설치해야 한다. 제로 스케일링(scale to zero) 기능을 지원하지 .. 2024. 10. 11.
KServe Autoscaling & Zero Scale KServe는 Knative를 기반으로 한 강력한 자동 확장 및 제로 스케일 기능을 제공한다. 이 기능들을 통해 사용자는 효율적인 추론 서비스를 구축할 수 있다. Autoscaling 개요 KServe의 자동 확장은 트래픽 패턴에 따라 pod의 수를 동적으로 조정한다. 주요 개념은 다음과 같다. scaleMetric: 확장의 기준이 되는 메트릭scaleTarget: 해당 메트릭의 목푯값. 이 값은 hard limit이 아닌 soft limit으로 요청이 갑자기 급증하여 이 값을 초과하면 새로운 pod가 생성되는 동안 기존 pod가 지정된 값을 초과하여 처리할 수 있다.  scaleMetric 옵션은 다음과 같다. concurrency: 동시 처리 중인 요청 수rps: 초당 요청 수cpu: CPU 사용률m.. 2024. 10. 9.
반응형