Gemma 3n lëshuar me hyrje audio dhe optimizuar për përdorim në pajisjet e përditshme! Mësoni më shumë

Kjo faqe është përkthyer nga Cloud Translation API.

Drejtoni Gemma me Kubernetes Engine

Google Cloud Kubernetes Engine ofron një gamë të gjerë opsionesh vendosjeje për ekzekutimin e modeleve Gemma me performancë të lartë dhe vonesë të ulët duke përdorur kornizat e preferuara të zhvillimit. Shikoni udhëzuesit e mëposhtëm të vendosjes për Hugging Face, vLLM, TensorRT-LLM në GPU dhe ekzekutimin e TPU me JetStream, plus aplikacionet dhe udhëzuesit e akordimit:

Vendosni dhe shërbeni

Shërbejeni Gemma në GPU me Hugging Face TGI : Vendosni modele Gemma në GKE duke përdorur GPU dhe kornizën Hugging Face Text Generation Inference (TGI).
Shërbejeni Gemma në GPU me vLLM : Vendosni Gemma me vLLM për menaxhim të përshtatshëm të ngarkesës së modelit dhe performancë të lartë.
Shërbejeni Gemma në GPU me TensorRT-LLM : Vendosni Gemma me NVIDIA TensorRT-LLM për të maksimizuar efikasitetin e funksionimit të modelit.
Shërbejeni Gemma në TPU me JetStream : Vendosni Gemma me JetStream në procesorët TPU për performancë të lartë dhe vonesë të ulët.

Analizoni të dhënat

Analizoni të dhënat në GKE duke përdorur BigQuery, Cloud Run dhe Gemma : Ndërtoni një tubacion analize të të dhënave me BigQuery dhe Gemma.

akorduar imët

Përshtatja e modeleve të hapura Gemma duke përdorur GPU të shumëfishta : Personalizoni sjelljen e Gemma bazuar në të dhënat tuaja.