Google Cloud Kubernetes Engine oferuje szeroki zakres opcji wdrażania, które umożliwiają uruchamianie modeli Gemma z wysoką wydajnością i niskim opóźnieniem przy użyciu preferowanych frameworków programistycznych. Zapoznaj się z tymi przewodnikami dotyczącymi wdrożenia HuggingFace, vLLM, TensorRT-LLM na GPU oraz wykonywania kodu na TPU z JetStream, a także z przewodnikami dotyczącymi stosowania i dostrajania:
Wdrażanie i obsługa
Udostępnianie modelu Gemma na GPU z wykorzystaniem Hugging Face TGI: Wdróż modele Gemma w GKE przy użyciu GPU i ramy wnioskowania o generowaniu tekstu (TGI) Hugging Face.
Udostępnianie modelu Gemma na GPU za pomocą vLLM: wdróż model Gemma z vLLM, aby wygodnie zarządzać obciążeniem modelu i uzyskać wysoką przepustowość.
Obsługa Gemma na GPU z użyciem TensorRT-LLM: wdróż Gemma z użyciem NVIDIA TensorRT-LLM, aby zmaksymalizować wydajność działania modelu.
Udostępnianie Gemma na procesorach TPU za pomocą JetStream: wdróż Gemma z JetStream na procesorach TPU, aby uzyskać wysoką wydajność i niską latencję.
Analizowanie danych
- Analizowanie danych w GKE za pomocą BigQuery, Cloud Run i Gemma:: twórz potok analizy danych za pomocą BigQuery i Gemma.
Dostrój
- Dostosowywanie otwartych modeli Gemma za pomocą wielu procesorów graficznych: dostosuj działanie Gemma na podstawie własnego zbioru danych.