Gemma 3n با ورودی صدا منتشر شد و برای استفاده در دستگاه های روزمره بهینه شده است! بیشتر بدانید

این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

Gemma را با موتور Kubernetes اجرا کنید

Google Cloud Kubernetes Engine طیف وسیعی از گزینه‌های استقرار را برای اجرای مدل‌های Gemma با عملکرد بالا و تأخیر کم با استفاده از چارچوب‌های توسعه ترجیحی ارائه می‌کند. راهنماهای استقرار زیر را برای Hugging Face، vLLM، TensorRT-LLM در پردازنده‌های گرافیکی، و اجرای TPU با JetStream، به‌علاوه برنامه‌ها و راهنماهای تنظیم، بررسی کنید:

مستقر و خدمت کنید

سرویس Gemma در GPU با Hugging Face TGI : مدل‌های Gemma را در GKE با استفاده از GPU و چارچوب استنتاج تولید متن Hugging Face (TGI) اجرا کنید.
سرویس Gemma در GPU با vLLM : برای مدیریت راحت بار مدل و بازده بالا، Gemma را با vLLM اجرا کنید.
سرویس Gemma در GPU با TensorRT-LLM : برای به حداکثر رساندن راندمان عملکرد مدل، Gemma را با NVIDIA TensorRT-LLM اجرا کنید.
سرویس Gemma در TPU ها با JetStream : Gemma را با JetStream در پردازنده های TPU برای عملکرد بالا و تاخیر کم استفاده کنید.

تجزیه و تحلیل داده ها

تجزیه و تحلیل داده ها در GKE با استفاده از BigQuery، Cloud Run و Gemma : یک خط لوله تجزیه و تحلیل داده با BigQuery و Gemma بسازید.

تنظیم دقیق

مدل‌های باز Gemma را با استفاده از چندین GPU تنظیم کنید : رفتار Gemma را بر اساس مجموعه داده‌های خود سفارشی کنید.