De acordo com o tweet oficial do Ollama em 27 de abril, o modelo de ponta DeepSeek V4 Pro, lançado em 24 de abril pela empresa chinesa de IA DeepSeek, agora oficialmente entrou no catálogo oficial do Ollama no modo de nuvem; com apenas um comando em uma linha, os usuários podem chamar esse modelo com ferramentas de agentes populares como Claude Code, Hermes Agent, OpenClaw, Codex, OpenCode etc. Esta é uma sincronização das mais rápidas já feitas pela Ollama ao integrar modelos de linguagem populares — desde a liberação dos pesos pela DeepSeek até o lançamento do Ollama Cloud, apenas três dias de intervalo.
DeepSeek V4 Pro: 1,6T de parâmetros, 1M de contexto
O V4 Pro adota uma arquitetura Mixture-of-Experts, com um tamanho total de parâmetros de 1,6 trilhão (4,9 bilhões de parâmetros ativos), e uma janela de contexto de 1M tokens. Benchmark de terceiros Artificial Analysis aponta que o V4 Pro, em benchmarks de escrita de código como SWE-bench (80,6%), LiveCodeBench (93,5%), Terminal-Bench (67,9%) etc., empata com o modelo de código aberto do grupo da frente Kimi K2.6, e no geral o Intelligence Index fica uma posição atrás do Kimi K2.6.
Na mesma época, a DeepSeek também lançou o modelo mais leve V4 Flash; ambos adotam licença MIT de código aberto e os pesos podem ser baixados no Hugging Face.
Inferência em nuvem do Ollama Cloud, sem baixar os pesos localmente
deepseek-v4-pro:cloud é o modelo do Ollama Cloud — a inferência é feita na nuvem do Ollama, sem que os pesos sejam baixados para o dispositivo do usuário. Este é o método padrão que o Ollama utiliza para lidar com modelos extremamente grandes; anteriormente, o Kimi K2.6 também foi incluído com a mesma abordagem. Para os usuários, a maior vantagem é não precisar ter dezenas de GPUs próprias para chamar um modelo de nível flagship; a desvantagem é que ainda é necessário manter conexão com a internet e a distribuição do poder computacional depende da carga no Ollama Cloud.
Para executar totalmente localmente, é necessário obter os pesos de deepseek-ai/DeepSeek-V4-Pro no Hugging Face, combinando uma versão quantizada em INT4 (como o GGUF lançado pela Unsloth) e uma configuração com múltiplas GPUs para haver viabilidade. Em geral, o hardware de consumo não é suficiente para suportar o modelo completo.
Uma linha de comando para encadear Claude Code, Hermes Agent, OpenClaw
Ollama também lançou, em sincronia, um comando launcher de integração para ferramentas de agentes populares:
O sentido disso é: no passado, se os desenvolvedores quisessem trocar o DeepSeek dentro do Claude Code, precisavam fazer a integração manual via uma API compatível com OpenAI, lidando com endpoints e autenticação; agora, isso pode ser feito com um comando em uma linha via Ollama. Para usuários pesados do Claude Code, isso oferece um caminho rápido para substituir modelos da Anthropic por DeepSeek (ou, de forma análoga, trocar por Kimi) e reduzir custos.
Feedback de testadores iniciais: da velocidade de 30 tok/s ao pico de 1,1 tok/s
As discussões da comunidade abaixo do tweet mostram que a velocidade da inferência em nuvem varia conforme a carga do Ollama Cloud. Vários testadores iniciais relataram que, nos horários de pico, a velocidade é mais lenta: de 30 tokens/s no ritmo comum para a faixa de 1,1 tokens/s; o usuário @benvargas compartilhou diretamente um screenshot reclamando de “Need More Compute”. Em outra resposta, a Ollama admitiu que a equipe oficial “também está testando esse modelo”, o que indica que o tráfego ainda está na fase de exploração, e que ainda não houve planejamento completo de capacidade.
Para desenvolvedores que buscam uma velocidade de produção estável, a recomendação atual é: usar o modo de nuvem como teste de protótipo e avaliação de custo; já em produtos oficiais, ainda é necessário montar infraestrutura de inferência com GPU própria ou escolher uma API comercial. O tutorial completo da Ollama também foi atualizado para incluir o item do V4 Pro e as explicações das escolhas entre nuvem/local.
Este artigo DeepSeek V4 Pro no Ollama Cloud: Claude Code encadeado em um clique apareceu pela primeira vez em 鏈新聞 ABMedia.
Related Articles
MoonPay Lança o Cartão MoonAgents, uma Mastercard Virtual para Agentes de IA, na sexta-feira
Agente de IA Manfred forma empresa e se prepara para negociar criptomoedas até o fim de maio
Usuários do ChatGPT agora podem acessar assinaturas na plataforma OpenClaw, anuncia Sam Altman
O agente de IA Manfred funda empresa e planeja começar a operar criptomoedas até o fim de maio
Agentes de IA operam empresas inteiras! Máquina automática de venda de inteligência artificial em São Francisco revela uma oportunidade de negócio inédita
Agente de IA Manfred forma empresa, recebe carteira cripto antes do lançamento das negociações no fim de maio