Google Cloud Kubernetes Engine طیف وسیعی از گزینههای استقرار را برای اجرای مدلهای Gemma با عملکرد بالا و تأخیر کم با استفاده از چارچوبهای توسعه ترجیحی ارائه میکند. راهنماهای استقرار زیر را برای Hugging Face، vLLM، TensorRT-LLM در پردازندههای گرافیکی، و اجرای TPU با JetStream، بهعلاوه برنامهها و راهنماهای تنظیم، بررسی کنید:
مستقر و خدمت کنید
سرویس Gemma در GPU با Hugging Face TGI : مدلهای Gemma را در GKE با استفاده از GPU و چارچوب استنتاج تولید متن Hugging Face (TGI) اجرا کنید.
سرویس Gemma در GPU با vLLM : برای مدیریت راحت بار مدل و بازده بالا، Gemma را با vLLM اجرا کنید.
سرویس Gemma در GPU با TensorRT-LLM : برای به حداکثر رساندن راندمان عملکرد مدل، Gemma را با NVIDIA TensorRT-LLM اجرا کنید.
سرویس Gemma در TPU ها با JetStream : Gemma را با JetStream در پردازنده های TPU برای عملکرد بالا و تاخیر کم استفاده کنید.
تجزیه و تحلیل داده ها
- تجزیه و تحلیل داده ها در GKE با استفاده از BigQuery، Cloud Run و Gemma : یک خط لوله تجزیه و تحلیل داده با BigQuery و Gemma بسازید.
تنظیم دقیق
- مدلهای باز Gemma را با استفاده از چندین GPU تنظیم کنید : رفتار Gemma را بر اساس مجموعه دادههای خود سفارشی کنید.