Pesadelo da OpenAI! DeepSeek-V3 roda em qualquer máquina

O novo modelo da DeepSeek roda a 20 tokens por segundo no Mac Studio, mostrando que a revolução da IA de código aberto pode mudar o jogo A startup chinesa de IA DeepSeek lançou discretamente um novo modelo de linguagem grande que já está causando impacto na indústria de inteligência artificial — não apenas por […] O post Pesadelo da OpenAI! DeepSeek-V3 roda em qualquer máquina apareceu primeiro em O Cafezinho.

Mar 26, 2025 - 01:08
 0
Pesadelo da OpenAI! DeepSeek-V3 roda em qualquer máquina

O novo modelo da DeepSeek roda a 20 tokens por segundo no Mac Studio, mostrando que a revolução da IA de código aberto pode mudar o jogo


A startup chinesa de IA DeepSeek lançou discretamente um novo modelo de linguagem grande que já está causando impacto na indústria de inteligência artificial — não apenas por suas capacidades, mas pela forma como está sendo implantado. O modelo de 641 gigabytes, apelidado de DeepSeek-V3-0324 , apareceu no repositório de IA Hugging Face hoje praticamente sem nenhum anúncio, continuando o padrão da empresa de lançamentos discretos, mas impactantes.

O que torna esse lançamento particularmente notável é a licença MIT do modelo — tornando-o disponível gratuitamente para uso comercial — e os primeiros relatos de que ele pode ser executado diretamente em hardware de nível de consumidor, especificamente o Mac Studio da Apple com chip M3 Ultra.

“O novo Deep Seek V3 0324 em 4 bits roda a > 20 toks/seg em um M3 Ultra de 512 GB com mlx-lm”

“O novo DeepSeek-V3-0324 em 4 bits roda a > 20 tokens/segundo em um M3 Ultra de 512 GB com mlx-lm!” escreveu o pesquisador de IA Awni Hannun nas redes sociais. Embora o Mac Studio de US$ 9.499 possa esticar a definição de “hardware de consumidor”, a capacidade de executar um modelo tão grande localmente é um grande afastamento dos requisitos de data center normalmente associados à IA de última geração.

A estratégia de lançamento furtivo da DeepSeek interrompe as expectativas do mercado de IA

O modelo de 685 bilhões de parâmetros chegou sem nenhum whitepaper, postagem de blog ou push de marketing — apenas um arquivo vazio e os próprios pesos do modelo. Essa abordagem contrasta fortemente com os lançamentos de produtos cuidadosamente orquestrados típicos de empresas ocidentais de IA, onde meses de hype geralmente precedem os lançamentos reais.

Os primeiros testadores relatam melhorias significativas em relação à versão anterior. O pesquisador de IA Xeophon proclamou em um post no X.com: “Testei o novo DeepSeek V3 em meu banco interno e ele teve um salto enorme em todas as métricas em todos os testes. Agora é o melhor modelo não racional, destronando o Sonnet 3.5.”

Testei o novo DeepSeek V3 em meu banco de dados interno e ele teve um grande salto em todas as métricas em todos os testes. Agora é o melhor modelo não-raciocinador, destronando o Soneto 3.5

Essa alegação, se validada por testes mais amplos, posicionaria o novo modelo do DeepSeek acima do Claude Sonnet 3.5 da Anthropic, um dos sistemas comerciais de IA mais respeitados. E, diferentemente do Sonnet, que requer uma assinatura, os pesos do DeepSeek-V3-0324 estão disponíveis gratuitamente para qualquer um baixar e usar.

Como a arquitetura inovadora do DeepSeek V3-0324 alcança eficiência incomparável

O DeepSeek-V3-0324 emprega uma arquitetura de mistura de especialistas (MoE) que fundamentalmente reimagina como grandes modelos de linguagem operam. Os modelos tradicionais ativam toda a contagem de parâmetros para cada tarefa, mas a abordagem do DeepSeek ativa apenas cerca de 37 bilhões de seus 685 bilhões de parâmetros durante tarefas específicas.

Essa ativação seletiva representa uma mudança de paradigma na eficiência do modelo. Ao ativar apenas os parâmetros “especialistas” mais relevantes para cada tarefa específica, o DeepSeek atinge desempenho comparável a modelos totalmente ativados muito maiores, ao mesmo tempo em que reduz drasticamente as demandas computacionais.

O modelo incorpora duas tecnologias inovadoras adicionais: Multi-Head Latent Attention (MLA) e Multi-Token Prediction (MTP). O MLA aprimora a capacidade do modelo de manter o contexto em longas passagens de texto, enquanto o MTP gera vários tokens por etapa em vez da abordagem usual de um por vez. Juntas, essas inovações aumentam a velocidade de saída em quase 80%.

Simon Willison , criador de ferramentas para desenvolvedores, observou em uma postagem de blog que uma versão quantizada de 4 bits reduz o espaço de armazenamento para 352 GB, tornando-a viável para execução em hardware de consumo de ponta, como o Mac Studio com chip M3 Ultra .

Isso representa uma mudança potencialmente significativa na implantação de IA. Enquanto a infraestrutura de IA tradicional normalmente depende de várias GPUs Nvidia consumindo vários quilowatts de energia, o Mac Studio consome menos de 200 watts durante a inferência. Essa lacuna de eficiência sugere que o setor de IA pode precisar repensar as suposições sobre os requisitos de infraestrutura para desempenho de modelo de primeira linha.

A revolução da IA ​​de código aberto da China desafia o modelo de jardim fechado do Vale do Silício

A estratégia de lançamento da DeepSeek exemplifica uma divergência fundamental na filosofia de negócios de IA entre empresas chinesas e ocidentais. Enquanto líderes dos EUA como OpenAI e Anthropic mantêm seus modelos atrás de paywalls, empresas chinesas de IA adotam cada vez mais o licenciamento permissivo de código aberto.

Essa abordagem está transformando rapidamente o ecossistema de IA da China. A disponibilidade aberta de modelos de ponta cria um efeito multiplicador, permitindo que startups, pesquisadores e desenvolvedores construam sobre tecnologia de IA sofisticada sem grandes gastos de capital. Isso acelerou as capacidades de IA da China em um ritmo que chocou os observadores ocidentais.

A lógica de negócios por trás dessa estratégia reflete as realidades de mercado na China. Com vários concorrentes bem financiados, manter uma abordagem proprietária se torna cada vez mais difícil quando os concorrentes oferecem capacidades semelhantes de graça. O open-sourcing cria caminhos de valor alternativos por meio da liderança do ecossistema, serviços de API e soluções empresariais construídas sobre modelos de fundação disponíveis gratuitamente.

Até mesmo gigantes tecnológicas chinesas estabelecidas reconheceram essa mudança. A Baidu anunciou planos para tornar sua série de modelos Ernie 4.5 de código aberto até junho, enquanto a Alibaba e a Tencent lançaram modelos de IA de código aberto com capacidades especializadas. Esse movimento contrasta fortemente com a estratégia centrada em API empregada pelos líderes ocidentais.

A abordagem de código aberto também aborda desafios únicos enfrentados por empresas chinesas de IA. Com restrições de acesso a chips Nvidia de ponta , as empresas chinesas enfatizaram eficiência e otimização para atingir desempenho competitivo com recursos computacionais mais limitados. Essa inovação orientada pela necessidade agora se tornou uma vantagem competitiva potencial.

DeepSeek V3-0324: A base para uma revolução no raciocínio de IA

O momento e as características do DeepSeek-V3-0324 sugerem fortemente que ele servirá como base para o DeepSeek-R2 , um modelo aprimorado focado em raciocínio esperado para os próximos dois meses. Isso segue o padrão estabelecido do DeepSeek, onde seus modelos base precedem modelos de raciocínio especializados por várias semanas.

“Isso se alinha com a forma como eles lançaram o V3 perto do Natal, seguido pelo R1 algumas semanas depois. Há rumores de que o R2 será em abril, então pode ser isso”, observou o usuário do Reddit mxforest .

As implicações de um modelo avançado de raciocínio de código aberto não podem ser exageradas. Modelos de raciocínio atuais como o o1 da OpenAI e o R1 da DeepSeek representam a vanguarda das capacidades de IA, demonstrando habilidades de resolução de problemas sem precedentes em domínios da matemática à codificação. Tornar essa tecnologia disponível gratuitamente democratizaria o acesso a sistemas de IA atualmente limitados àqueles com orçamentos substanciais.

O potencial modelo R2 chega em meio a revelações significativas sobre as demandas computacionais dos modelos de raciocínio. O CEO da Nvidia, Jensen Huang, observou recentemente que o modelo R1 da DeepSeek “ consome 100 vezes mais computação do que uma IA não raciocinante ”, contradizendo suposições anteriores da indústria sobre eficiência. Isso revela a conquista notável por trás dos modelos da DeepSeek, que oferecem desempenho competitivo enquanto operam sob maiores restrições de recursos do que suas contrapartes ocidentais.

Se o DeepSeek-R2 seguir a trajetória definida pelo R1, ele pode apresentar um desafio direto ao GPT-5 , o próximo modelo principal da OpenAI com lançamento previsto para os próximos meses. O contraste entre a abordagem fechada e fortemente financiada da OpenAI e a estratégia aberta e eficiente em recursos da DeepSeek representa duas visões concorrentes para o futuro da IA.

Como experimentar o DeepSeek V3-0324: um guia completo para desenvolvedores e usuários

Para aqueles ansiosos para experimentar o DeepSeek-V3-0324 , existem vários caminhos dependendo das necessidades técnicas e recursos. Os pesos completos do modelo estão disponíveis no Hugging Face , embora o tamanho de 641 GB torne o download direto prático apenas para aqueles com armazenamento substancial e recursos computacionais.

Para a maioria dos usuários, as opções baseadas em nuvem oferecem o ponto de entrada mais acessível. O OpenRouter fornece acesso gratuito à API para o modelo, com uma interface de bate-papo amigável. Basta selecionar DeepSeek V3 0324 como o modelo para começar a experimentar.

A própria interface de chat do DeepSeek em chat.deepseek.com provavelmente foi atualizada para a nova versão também, embora a empresa não tenha confirmado isso explicitamente. Os primeiros usuários relatam que o modelo é acessível por meio desta plataforma com desempenho melhorado em relação às versões anteriores.

Desenvolvedores que buscam integrar o modelo em aplicativos podem acessá-lo por meio de vários provedores de inferência. A Hyperbolic Labs anunciou disponibilidade imediata como “o primeiro provedor de inferência que atende a este modelo no Hugging Face”, enquanto o OpenRouter oferece acesso à API compatível com o OpenAI SDK.