Conhecimento Técnico que Transforma
Categorias
Novo Sky-T1: IA de Raciocínio Otimizada para Engenharia

Sky-T1: Modelo de IA open source treinado por menos de $450 é revelado pela UC Berkeley

A inovação tecnológica continua a avançar a um ritmo estonteante, e a recente liberação do modelo de IA open source Sky-T1-32B-Preview pelo time NovaSky da UC Berkeley representa mais um passo significativo nesse caminho. Este desenvolvimento destaca a democratização do acesso à tecnologia de ponta, permitindo que profissionais da área de engenharia e ciência da computação explorem novas aplicações e aprimorem seus projetos com ferramentas altamente eficientes e menos custosas.

Introdução ao Modelo

O modelo Sky-T1-32B-Preview é um inovador modelo de raciocínio de IA que consegue competir com versões anteriores desenvolvidas por grandes empresas, como a OpenAI. A singularidade deste modelo reside no fato de ser totalmente open source, significando que qualquer desenvolvedor ou pesquisador pode replicá-lo inteiramente do zero, utilizando o conjunto de dados e o código de treinamento disponibilizados. Este avanço representa uma vitória significativa para a comunidade de IA, promovendo a colaboração e a inovação através do compartilhamento de conhecimento técnico.

Custo e Eficiência do Treinamento

Um dos aspectos mais impressionantes do Sky-T1 é seu custo de treinamento, que ficou abaixo de 450 dólares. Esse custo extremamente baixo, em comparação aos modelos anteriores que exigiam investimentos milionários, se deve à utilização de dados sintéticos gerados por outros modelos, tornando a operação não apenas acessível, mas também altamente eficiente. Esta prática de reutilização e refino de dados destaca uma tendência crescente na pesquisa de IA, que enfatiza a sustentabilidade e a eficiência econômica no desenvolvimento de tecnologias.

Processo de Treinamento

O treinamento do Sky-T1 utilizou inicialmente dados gerados pelo modelo de raciocínio QwQ-32B-Preview da Alibaba. Após essa etapa, a equipe NovaSky refinou a mistura de dados com a ajuda do GPT-4o-mini da OpenAI, realizando uma reestruturação que tornou os dados mais utilizáveis. O processo inteiro de treinamento do modelo de 32 bilhões de parâmetros foi concluído em aproximadamente 19 horas, empregando um rack de 8 GPUs Nvidia H100, uma abordagem que evidencia o potencial das novas tecnologias na aceleração dos processos de modelagem em IA.

Benchmarks de Desempenho

Nos benchmarks de desempenho, o Sky-T1 oferece resultados impressionantes, superando o preview inicial do modelo o1 da OpenAI em vários testes importantes. Em MATH500, um conjunto de desafios matemáticos de competição, o Sky-T1 teve um desempenho superior. O modelo também se destacou em resolução de problemas complexos no LiveCodeBench, uma avaliação para habilidades de codificação. Entretanto, o modelo ainda não atinge a excelência nos problemas de GPQA-Diamond, especialmente os que envolvem questões de física, biologia e química, áreas onde se espera um conhecimento avançado de nível de doutorado.

Características do Modelo

Os modelos de raciocínio, como o Sky-T1, possuem a capacidade de auto-verificação, permitindo que evitem erros comuns e se tornem mais confiáveis em domínios como física, ciências e matemática. Embora esses modelos possam levar mais tempo para chegar a uma solução, sua capacidade de raciocínio e autoavaliação promete uma precisão consideravelmente maior, tornando-os ideais para aplicações acadêmicas e de pesquisa mais complexas.

Reflexão do Blog da Engenharia sobre mercado Chinês

  1. A China permanece na vanguarda do desenvolvimento de IA, apoiada por empresas como Alibaba, que influenciam significativamente a evolução mundial do setor.
  2. O aumento da acessibilidade à tecnologia de ponta devido aos modelos open-source pode nivelar o cenário competitivo global.
  3. Modelos inovadores como o Sky-T1 enfatizam a importância da colaboração e da partilha de recursos no avanço tecnológico.

Com o contínuo desenvolvimento de modelos mais eficientes pelo time NovaSky, espera-se que o campo da IA de raciocínio ganhe ainda mais força e relevância em aplicações práticas. Para quem está ansioso por saber “What’s New” no setor de IA e descobrir novidades surpreendentes, recomendamos estar atento aos eventos futuros onde essas inovações serão detalhadamente discutidas.

Fonte: https://techcrunch.com/2025/01/11/researchers-open-source-sky-t1-a-reasoning-ai-model-that-can-be-trained-for-less-than-450/

Share this article
Shareable URL
Prev Post

MPU lança concurso com salários de até R$ 21 mil e inclusão garantida

Next Post

Loft Orbital capta US$ 170 milhões na Série C, liderada por Tikehau Capital e Axial Partners.

Read next