Google Cloud Kubernetes Engine offre un'ampia gamma di opzioni di deployment per eseguire i modelli Gemma con alte prestazioni e bassa latenza utilizzando i framework di sviluppo preferiti. Consulta le seguenti guide di deployment per Hugging Face, vLLM, TensorRT-LLM su GPU ed esecuzione su TPU con JetStream, oltre alle guide di applicazione e ottimizzazione:
Esegui il deployment e pubblica
Gestisci Gemma su GPU con Hugging Face TGI: esegui il deployment dei modelli Gemma su GKE utilizzando le GPU e il framework Hugging Face Text Generation Inference (TGI).
Gestisci Gemma su GPU con vLLM: esegui il deployment di Gemma con vLLM per una comoda gestione del carico del modello e un throughput elevato.
Gestisci Gemma su GPU con TensorRT-LLM: esegui il deployment di Gemma con NVIDIA TensorRT-LLM per massimizzare l'efficienza del funzionamento del modello.
Pubblica Gemma su TPU con JetStream: esegui il deployment di Gemma con JetStream su processori TPU per prestazioni elevate e bassa latenza.
Analizzare i dati
- Analizza i dati su GKE utilizzando BigQuery, Cloud Run e Gemma: crea una pipeline di analisi dei dati con BigQuery e Gemma.
Ottimizza
- Ottimizza i modelli open di Gemma utilizzando più GPU: personalizza il comportamento di Gemma in base al tuo set di dati.