Esegui Gemma con Kubernetes Engine

Google Cloud Kubernetes Engine offre un'ampia gamma di opzioni di deployment per eseguire i modelli Gemma con alte prestazioni e bassa latenza utilizzando i framework di sviluppo preferiti. Consulta le seguenti guide di deployment per Hugging Face, vLLM, TensorRT-LLM su GPU ed esecuzione su TPU con JetStream, oltre alle guide di applicazione e ottimizzazione:

Esegui il deployment e pubblica

Analizzare i dati

Ottimizza