Gemma را با موتور Kubernetes اجرا کنید

Google Cloud Kubernetes Engine طیف وسیعی از گزینه‌های استقرار را برای اجرای مدل‌های Gemma با عملکرد بالا و تأخیر کم با استفاده از چارچوب‌های توسعه ترجیحی ارائه می‌کند. راهنماهای استقرار زیر را برای Hugging Face، vLLM، TensorRT-LLM در پردازنده‌های گرافیکی، و اجرای TPU با JetStream، به‌علاوه برنامه‌ها و راهنماهای تنظیم، بررسی کنید:

مستقر و خدمت کنید

تجزیه و تحلیل داده ها

تنظیم دقیق