zero scale1 KServe Autoscaling & Zero Scale KServe는 Knative를 기반으로 한 강력한 자동 확장 및 제로 스케일 기능을 제공한다. 이 기능들을 통해 사용자는 효율적인 추론 서비스를 구축할 수 있다. Autoscaling 개요 KServe의 자동 확장은 트래픽 패턴에 따라 pod의 수를 동적으로 조정한다. 주요 개념은 다음과 같다. scaleMetric: 확장의 기준이 되는 메트릭scaleTarget: 해당 메트릭의 목푯값. 이 값은 hard limit이 아닌 soft limit으로 요청이 갑자기 급증하여 이 값을 초과하면 새로운 pod가 생성되는 동안 기존 pod가 지정된 값을 초과하여 처리할 수 있다. scaleMetric 옵션은 다음과 같다. concurrency: 동시 처리 중인 요청 수rps: 초당 요청 수cpu: CPU 사용률m.. 2024. 10. 9. 이전 1 다음 반응형