Deep Cogito entra no mercado com modelos híbridos de IA ‘raciocínio’

Uma nova empresa, a Deep Cogito, surgiu da clandestinidade com uma família de modelos de IA abertamente disponíveis que podem alternar entre modos “raciocínio” e não-raciocínio. Modelos de raciocínio como o o1 da OpenAI têm mostrado grande promessa em domínios como matemática e física, graças à sua capacidade de efetivamente verificar fatos trabalhando através de problemas complexos passo a passo. Esse raciocínio, no entanto, tem um custo: maior computação e latência. Por isso, laboratórios como a Anthropic estão buscando arquiteturas de modelos “híbridos” que combinam componentes de raciocínio com elementos padrão, não-raciocínio. Modelos híbridos podem responder rapidamente a perguntas simples enquanto dedicam mais tempo a considerar consultas desafiadoras.

Todos os modelos da Deep Cogito, chamados Cogito 1, são modelos híbridos. A Cogito afirma que eles superam os melhores modelos abertos do mesmo tamanho, incluindo modelos da Meta e da startup chinesa de IA DeepSeek. “Cada modelo pode responder diretamente […] ou refletir antes de responder (como modelos de raciocínio)”, explicou a empresa em um post de blog. “Foram desenvolvidos por uma pequena equipe em aproximadamente 75 dias.” Os modelos Cogito 1 variam de 3 bilhões a 70 bilhões de parâmetros, e a empresa diz que modelos com até 671 bilhões de parâmetros se juntarão a eles nas próximas semanas e meses. Parâmetros correspondem aproximadamente às habilidades de resolução de problemas de um modelo, sendo geralmente mais parâmetros melhores.

O Cogito 1 não foi desenvolvido do zero, para deixar claro. A Deep Cogito se baseou nos modelos abertos Llama da Meta e Qwen da Alibaba para criar seu próprio. A empresa diz que aplicou abordagens de treinamento inovadoras para melhorar o desempenho dos modelos base e permitir o raciocínio alternável. De acordo com os resultados da avaliação interna da Cogito, o maior modelo Cogito 1, Cogito 70B, com raciocínio supera o modelo de raciocínio R1 da DeepSeek em algumas avaliações de matemática e linguagem. O Cogito 70B com raciocínio desativado também supera o modelo Llama 4 Scout da Meta lançado recentemente no LiveBench, um teste de IA de propósito geral.

LEIA  DeepSeek afirma que seu modelo de "raciocínio" supera o o1 da OpenAI em alguns benchmarks
Imagem destacada

Cada modelo Cogito 1 está disponível para download ou uso via APIs nos provedores de nuvem Fireworks AI e Together AI. A performance do Cogito 1 em comparação com outros modelos de IA abertos populares.

“Atualmente, ainda estamos nos estágios iniciais da curva de escalonamento, tendo usado apenas uma fração da computação normalmente reservada para o treinamento pós-continuação de modelos de linguagem grandes tradicionais”, escreveu a Cogito em seu post de blog. “Daqui em diante, estamos investigando abordagens complementares de pós-treinamento para auto-aperfeiçoamento.” De acordo com documentos apresentados ao Estado da Califórnia, a Deep Cogito, com sede em São Francisco, foi fundada em junho de 2024. A página do LinkedIn da empresa lista dois co-fundadores, Drishan Arora e Dhruv Malhotra. Malhotra era anteriormente gerente de produto no laboratório de IA da Google DeepMind, onde trabalhou em tecnologia de busca generativa. Arora era engenheiro de software sênior na Google.

A Deep Cogito, cujos apoiadores incluem South Park Commons, de acordo com o PitchBook, ambiciosamente pretende construir “superinteligência geral”. Os fundadores da empresa entendem a frase como uma IA que pode realizar tarefas melhor do que a maioria dos humanos e “descobrir completamente novas capacidades que ainda não imaginamos”.

Veja mais..

Leave a Reply