O Google lançou uma API experimental que permite que grandes modelos de linguagem sejam executados totalmente no dispositivo em plataformas Android, iOS e web.
Introduzida em 7 de março, a API MediaPipe LLM Inference foi projetada para agilizar a integração LLM no dispositivo para desenvolvedores web e oferece suporte a plataformas web, Android e iOS. A API fornece suporte inicial para quatro LLMs: Gemma, Phi 2, Falcon e Stable LM.
O Google alerta que a API é experimental e ainda está em desenvolvimento ativo, mas dá aos pesquisadores e desenvolvedores a capacidade de prototipar e testar modelos disponíveis abertamente no dispositivo. Para Android, o Google observou que os aplicativos de produção com LLMs podem usar a API Gemini ou Gemini Nano no dispositivo por meio do Android AICore, um recurso de nível de sistema introduzido no Android 14 que fornece soluções com tecnologia Gemini para dispositivos de última geração, incluindo integrações com aceleradores, filtros de segurança e adaptadores LoRA.
Os desenvolvedores podem experimentar a API de inferência do MediaPipe LLM por meio de uma demonstração na web ou criando aplicativos de demonstração de amostra. Uma amostra oficial está disponível no GitHub. A API permite que os desenvolvedores tragam LLMs para o dispositivo em poucas etapas, usando SDKs específicos da plataforma. Por meio de otimizações significativas, a API pode fornecer latência de última geração no dispositivo, com foco na CPU e GPU para suportar múltiplas plataformas, disse o Google. A empresa planeja expandir a API para mais plataformas e modelos no próximo ano.