Equipe PyTorch revela estrutura para programação de clusters

A equipe PyTorch da Meta, administradores da estrutura de aprendizado de máquina de código aberto PyTorch, revelou o Monarch, uma estrutura de programação distribuída destinada a levar a simplicidade do PyTorch a clusters inteiros. Monarch combina um front-end baseado em Python, suportando integração com código e bibliotecas existentes, como PyTorch, e um back-end baseado em Rust, que facilita desempenho, escalabilidade e robustez, disse a equipe. .

Anunciado em 22 de outubro, o Monarch é uma estrutura baseada em mensagens escalonáveis de atores que permite aos usuários programar sistemas distribuídos da mesma forma que uma única máquina seria programada, ocultando assim a complexidade da computação distribuída, disse a equipe PyTorch. Monarch está atualmente em fase experimental; instruções de instalação podem ser encontradas em meta-pytorch.org.

O Monarch organiza processos, atores e hosts em uma matriz multidimensional escalável, ou malha, que pode ser manipulada diretamente. Os usuários podem operar em malhas inteiras, ou em fatias delas, com APIs simples, com o Monarch lidando com distribuição e vetorização automaticamente. Os desenvolvedores podem escrever código como se nada falhasse, de acordo com a equipe PyTorch. Mas quando algo falha, o Monarch falha rapidamente ao interromper todo o programa. Mais tarde, os usuários podem adicionar tratamento de falhas refinado quando necessário, capturando e recuperando-se de falhas.