Gemma 3n è stata rilasciata con input audio e ottimizzata per l'utilizzo nei dispositivi di uso quotidiano. Scopri di più

Questa pagina è stata tradotta dall'API Cloud Translation.

Esegui Gemma con Kubernetes Engine

Google Cloud Kubernetes Engine offre un'ampia gamma di opzioni di deployment per eseguire i modelli Gemma con alte prestazioni e bassa latenza utilizzando i framework di sviluppo preferiti. Consulta le seguenti guide di deployment per Hugging Face, vLLM, TensorRT-LLM su GPU ed esecuzione su TPU con JetStream, oltre alle guide di applicazione e ottimizzazione:

Esegui il deployment e pubblica

Gestisci Gemma su GPU con Hugging Face TGI: esegui il deployment dei modelli Gemma su GKE utilizzando le GPU e il framework Hugging Face Text Generation Inference (TGI).
Gestisci Gemma su GPU con vLLM: esegui il deployment di Gemma con vLLM per una comoda gestione del carico del modello e un throughput elevato.
Gestisci Gemma su GPU con TensorRT-LLM: esegui il deployment di Gemma con NVIDIA TensorRT-LLM per massimizzare l'efficienza del funzionamento del modello.
Pubblica Gemma su TPU con JetStream: esegui il deployment di Gemma con JetStream su processori TPU per prestazioni elevate e bassa latenza.

Analizzare i dati

Analizza i dati su GKE utilizzando BigQuery, Cloud Run e Gemma: crea una pipeline di analisi dei dati con BigQuery e Gemma.

Ottimizza

Ottimizza i modelli open di Gemma utilizzando più GPU: personalizza il comportamento di Gemma in base al tuo set di dati.