Com as GPUs, você não tem essa visibilidade ou flexibilidade para solicitar: “Quero quatro gigabytes dessa GPU e só quero um gigahertz dessa GPU para acompanhá-la”. Em vez disso, a configuração mais comum hoje é tudo ou nada – você solicita a GPU inteira ou nada dela. O desafio da transparência é que as GPUs exigem uma abordagem própria para monitorar e compreender o uso, porque as GPUs são especializadas e combinam aspectos de CPU e memória. Esse desafio é agravado pelo fato de que um nó pode ter múltiplas GPUs físicas em um sistema (às vezes até oito). Também é possível adicionar ou remover GPUs dos sistemas. Isso é algo normalmente visto em ambientes locais e algo que você normalmente não veria em CPUs. Essas dinâmicas ilustram por que ganhar visibilidade da GPU requer uma abordagem nova.
Como Kubecost permite monitoramento e otimização de GPU
Kubecost atende ao desafio de visibilidade da GPU entendendo quais nós possuem GPUs e se esses nós estão em um provedor de nuvem pública ou em um ambiente local. Kubecost também entende quanto custam esses nós e, portanto, entende proporcionalmente quanto custa a GPU. Isso é verdade quer uma empresa use um dos “três grandes” provedores de nuvem ou auto-forneça custos de nó com base em sua própria configuração de nuvem privada.
Com esses custos de GPU em mãos, a próxima etapa é observar a utilização da GPU. Kubecost identifica a alocação de custos com base não apenas nas GPUs solicitadas, mas também no uso da GPU, a fim de reconhecer a capacidade ociosa. Kubecost também elimina métricas padrão, incluindo informações de utilização, fornecidas pelo software Nvidia. (Planejamos expandir para AMD e outras marcas de GPU.) Ao combinar informações de custo e utilização, o Kubecost pode determinar a eficiência da GPU, que é uma das maiores questões nas mentes dos líderes empresariais à medida que as GPUs se tornam cada vez mais poderosas e mais caras.