Cientistas afirmam ter encontrado uma nova maneira de expandir a IA: será que podemos confiar?

Pesquisadores descobriram uma nova “lei de escala” para a inteligência artificial? É o que algumas postagens nas redes sociais sugerem – mas especialistas estão céticos. Leis de escala de IA, um conceito um pouco informal, descrevem como o desempenho dos modelos de IA melhora à medida que o tamanho dos conjuntos de dados e dos recursos computacionais usados para treiná-los aumenta. Até aproximadamente um ano atrás, a ampliação do “pré-treinamento” – treinando modelos cada vez maiores em conjuntos de dados cada vez maiores – era a lei dominante, pelo menos no sentido de que a maioria dos laboratórios de ponta em IA a adotava.

O pré-treinamento não desapareceu, mas duas leis adicionais de escala, escalonamento pós-treinamento e escalonamento no tempo de teste, surgiram para complementá-lo. O escalonamento pós-treinamento é essencialmente ajustar o comportamento de um modelo, enquanto o escalonamento no tempo de teste implica aplicar mais computação à inferência – ou seja, executar modelos – para impulsionar uma forma de “raciocínio” (veja: modelos como R1). Pesquisadores do Google e da UC Berkeley propuseram recentemente em um artigo o que alguns comentaristas online descreveram como uma quarta lei: “busca no tempo de inferência”.

A busca no tempo de inferência faz com que um modelo gere muitas respostas possíveis a uma consulta em paralelo e depois selecione a “melhor” delas. Os pesquisadores afirmam que isso pode impulsionar o desempenho de um modelo antigo de um ano, como o Google’s Gemini 1.5 Pro, a um nível que supera o modelo de “raciocínio” o1-preview da OpenAI em benchmarks de ciências e matemática.

“Apenas ao amostrar aleatoriamente 200 respostas e fazer autoverificação, o Gemini 1.5 – um antigo modelo de 2024 – supera o o1-preview e se aproxima do o1”, escreveu Eric Zhao, um pesquisador do Google e um dos co-autores do artigo, em uma série de postagens no X. “A magia é que a autoverificação naturalmente se torna mais fácil em escala! Você esperaria que escolher uma solução correta se tornasse mais difícil quanto maior fosse seu conjunto de soluções, mas o oposto é verdade!”.

LEIA  Sindicato de professores dos EUA afirma que hackers roubaram dados pessoais de mais de 500.000 membros.
Imagem destacada

Vários especialistas dizem que os resultados não são surpreendentes, no entanto, e que a busca no tempo de inferência pode não ser útil em muitos cenários. Matthew Guzdial, pesquisador de IA e professor assistente da Universidade de Alberta, disse ao TechCrunch que a abordagem funciona melhor quando há uma boa “função de avaliação” – ou seja, quando a melhor resposta para uma pergunta pode ser facilmente determinada. Mas a maioria das consultas não é tão direta.

“Se não podemos escrever código para definir o que queremos, não podemos usar [a busca no tempo de inferência]”, disse ele. “Para algo como interação de linguagem geral, não podemos fazer isso[…] Geralmente não é uma boa abordagem para resolver a maioria dos problemas”.

Eric Zhao, um pesquisador do Google e um dos co-autores do estudo, discordou levemente das afirmações de Guzdial. “Nosso artigo na verdade se concentra em casos em que você não tem acesso a uma ‘função de avaliação’ ou ‘código para definir o que queremos’, que normalmente nos referimos como um verificador de verdade de referência”, disse ele. “Em vez disso, estamos estudando quando a avaliação é algo que o modelo precisa descobrir tentando se verificar. Na verdade, o ponto principal do nosso artigo é que o intervalo entre este regime e o regime em que você tem verificadores de verdade de referência […] pode diminuir bem com a escala”. Mas Mike Cook, um pesquisador da King’s College London especializado em IA, concordou com a avaliação de Guzdial, acrescentando que destaca a diferença entre “raciocinar” no sentido de IA e os processos de pensamento humano.

“A busca no tempo de inferência não ‘eleva o processo de raciocínio’ do modelo”, disse Cook. “É apenas uma maneira de contornarmos as limitações de uma tecnologia propensa a cometer erros com forte confiança[…] Intuitivamente, se seu modelo comete um erro 5% do tempo, então verificar 200 tentativas do mesmo problema deve tornar esses erros mais fáceis de serem detectados”.

Veja mais..

Leave a Reply