Gemma 3n została wydana z wejściowym sygnałem audio i zoptymalizowana pod kątem urządzeń do codziennego użytku. Więcej informacji

Ta strona została przetłumaczona przez Cloud Translation API.

Uruchamianie Gemma w Kubernetes Engine

Google Cloud Kubernetes Engine oferuje szeroki zakres opcji wdrażania, które umożliwiają uruchamianie modeli Gemma z wysoką wydajnością i niskim opóźnieniem przy użyciu preferowanych frameworków programistycznych. Zapoznaj się z tymi przewodnikami dotyczącymi wdrożenia HuggingFace, vLLM, TensorRT-LLM na GPU oraz wykonywania kodu na TPU z JetStream, a także z przewodnikami dotyczącymi stosowania i dostrajania:

Wdrażanie i obsługa

Udostępnianie modelu Gemma na GPU z wykorzystaniem Hugging Face TGI: Wdróż modele Gemma w GKE przy użyciu GPU i ramy wnioskowania o generowaniu tekstu (TGI) Hugging Face.
Udostępnianie modelu Gemma na GPU za pomocą vLLM: wdróż model Gemma z vLLM, aby wygodnie zarządzać obciążeniem modelu i uzyskać wysoką przepustowość.
Obsługa Gemma na GPU z użyciem TensorRT-LLM: wdróż Gemma z użyciem NVIDIA TensorRT-LLM, aby zmaksymalizować wydajność działania modelu.
Udostępnianie Gemma na procesorach TPU za pomocą JetStream: wdróż Gemma z JetStream na procesorach TPU, aby uzyskać wysoką wydajność i niską latencję.

Analizowanie danych

Analizowanie danych w GKE za pomocą BigQuery, Cloud Run i Gemma:: twórz potok analizy danych za pomocą BigQuery i Gemma.

Dostrój

Dostosowywanie otwartych modeli Gemma za pomocą wielu procesorów graficznych: dostosuj działanie Gemma na podstawie własnego zbioru danych.