GPU Inferencing

On-Demand AI/ML Compute

Serverless GPU inference for AI workloads. Deploy models instantly, pay only for what you use. No GPU management required.

Supported Models

Text Generation

8B - 405B

Image Generation

6.6B

Speech to Text

1.5B

Vision

400M

Text Generation

7B - 8x7B

BYOM

Any

Estimate costs for serverless GPU inference. Scale up and down instantly.

GPU TypeNVIDIA T4

T4 (16GB)A10G (24GB)A100 (80GB)

Hours per Day4h

Requests per Hour1,000

Model SizeMedium (1-10B)

GPU compute (NVIDIA T4)$60.00

Inference requests$12.00

Total per month$72.00

Sub-second cold starts

Auto-scaling included

99.9% availability SLA