DeepSeek lança mHC: ceticismo precede validação por pares em estreia polêmica

O mercado de IA generativa ganha novo protagonista—e uma dose saudável de desconfiança.
DeepSeek revela seu modelo mHC, prometendo revolucionar benchmarks de linguagem. A demonstração impressiona, mas especialistas mantêm o pé atrás até revisão independente. Afinal, em tecnologia, demonstrações são marketing; validação é ciência.
O jogo das métricas
Relatórios internos apontam saltos de 40% em compreensão contextual e 35% em eficiência computacional. Números bonitos, mas ainda confinados aos servidores da empresa. A comunidade acadêmica aguarda os datasets e metodologias—sem eles, são apenas gráficos coloridos em slides corporativos.
O dilema da adoção
Startups já sinalizam interesse, enquanto gigantes estabelecidos adotam postura observadora. O timing é crucial: lançar antes da validação significa capturar atenção, mas arrisca credibilidade se os resultados não se sustentarem sob escrutínio externo.
Um paralelo inevitável
O ceticismo lembra os primeiros dias das criptomoedas—promessas revolucionárias enfrentando resistência institucional. Talvez o mHC precise de seu próprio 'momento Bitcoin', onde a utilidade prática supere o debate acadêmico. Ou talvez seja apenas mais uma solução procurando um problema—especialidade do Vale do Silício.
O veredito aguarda revisão. Até lá, o mercado assiste, analisa e, principalmente, duvida. Porque em tecnologia como em finanças, quando algo parece bom demais para ser verdade… geralmente é. Principalmente se vier com roadmap em PowerPoint e projeções que ignoram ciclos de mercado.
DeepSeek repensa o design de rede para escalar a IA
Um dos principais componentes do trabalho é uma reavaliação de como a informação é transferida entre as várias camadas de uma rede neural multicamadas.
Cada camada em uma rede neural transmite uma forma de informação processada para a próxima camada do modelo, criando o que foi denominado de 'Rede de Aprendizagem Residual' ( ResNet ). Desenvolvida por Kaiming He, da Microsoft Research, e outros, há aproximadamente dez anos, a ResNet forneceu a base fundamental para diversos dos sistemas de IA mais avançados da atualidade.
Um conceito desenvolvido pela DeepSeek foi criado após a ByteDance introduzir as Hiperconexões em 2024. As Hiperconexões permitem que a informação percorra múltiplas rotas através de uma rede, em vez de apenas um caminho principal, o que pode aumentar a velocidade de aprendizagem e a riqueza da experiência.
No entanto, embora possam ser benéficos, também podem levar a ocorrênciasmatic de treinamento, em que os modelos apresentam instabilidade ou falha completa durante o treinamento.
Segundo Song Linqi (Universidade da Cidade de Hong Kong), a pesquisa da DeepSeek é uma progressão de uma ideia já existente, uma continuação da forma como a DeepSeek analisa o trabalho de outras empresas, em vez de inventar algo do zero.
A ResNet é comparada a uma via expressa de uma única faixa, enquanto as Hiperconexões se assemelham a uma via expressa de múltiplas faixas; no entanto, Song alertou que ter várias faixas sem regras adequadas pode levar a mais colisões.
O professor Guo Song, da Universidade de Ciência e Tecnologia de Hong Kong, acredita que este artigo de pesquisa pode indicar uma mudança no comportamento da pesquisa em IA . Em vez de continuar a fazer pequenas modificações nos projetos de modelos existentes, ele acredita que a pesquisa pode evoluir para o desenvolvimento de novos modelos baseados em construções teóricas.
Pesquisadores testam o mHC, mas levantam preocupações práticas
Embora haja entusiasmo com o recente marco alcançado nos testes do mHC para aprendizado profundo, especialistas enfatizaram que a pesquisa ainda não está concluída. Os testes realizados pela DeepSeek utilizaram apenas quatro caminhos de dados ao testar modelos com 27 bilhões de parâmetros .
“Os experimentos validaram modelos com até 27 bilhões de parâmetros, mas como eles se comportariam nos modelos de vanguarda atuais, que são uma ordem de magnitude maiores?”
Professor Guo Song.
Os modelos de IA disponíveis atualmente são maiores e normalmente possuem centenas de bilhões de parâmetros, em comparação com os 30 bilhões de parâmetros que eram padrão há apenas alguns anos.
Guo fez coro com essas opiniões e afirmou que ninguém pode concluir ainda se o mHC será capaz de realizar trabalhos na vanguarda da tecnologia de IA. Ele também afirmou que a infraestrutura necessária para o funcionamento do mHC pode ser avançada demais para ser utilizada por instituições de pesquisa menores e por empresas em dispositivos móveis.
Segundo o Cryptopolitan , a popularidade do DeepSeek surgiu com o lançamento do modelo de linguagem DeepSeek V3 e, posteriormente, com o lançamento do modelo de raciocínio DeepSeek-R1 apenas algumas semanas depois.
Ao comparar os resultados dos modelos com os de seus concorrentes durante os testes de benchmark, ambos os modelos conseguiram atingir ou superar os resultados dos concorrentes, apesar de terem sido lançados usando apenas uma fração dos dados de treinamento utilizados pelos outros modelos de linguagem concorrentes.
Ganhe US$ 50 grátis para negociar criptomoedas ao se inscrever no Bybit agora