Google Cloud Kubernetes Engine ofron një gamë të gjerë opsionesh vendosjeje për ekzekutimin e modeleve Gemma me performancë të lartë dhe vonesë të ulët duke përdorur kornizat e preferuara të zhvillimit. Shikoni udhëzuesit e mëposhtëm të vendosjes për Hugging Face, vLLM, TensorRT-LLM në GPU dhe ekzekutimin e TPU me JetStream, plus aplikacionet dhe udhëzuesit e akordimit:
Vendosni dhe shërbeni
Shërbejeni Gemma në GPU me Hugging Face TGI : Vendosni modele Gemma në GKE duke përdorur GPU dhe kornizën Hugging Face Text Generation Inference (TGI).
Shërbejeni Gemma në GPU me vLLM : Vendosni Gemma me vLLM për menaxhim të përshtatshëm të ngarkesës së modelit dhe performancë të lartë.
Shërbejeni Gemma në GPU me TensorRT-LLM : Vendosni Gemma me NVIDIA TensorRT-LLM për të maksimizuar efikasitetin e funksionimit të modelit.
Shërbejeni Gemma në TPU me JetStream : Vendosni Gemma me JetStream në procesorët TPU për performancë të lartë dhe vonesë të ulët.
Analizoni të dhënat
- Analizoni të dhënat në GKE duke përdorur BigQuery, Cloud Run dhe Gemma : Ndërtoni një tubacion analize të të dhënave me BigQuery dhe Gemma.
akorduar imët
- Përshtatja e modeleve të hapura Gemma duke përdorur GPU të shumëfishta : Personalizoni sjelljen e Gemma bazuar në të dhënat tuaja.