Cohere lança novo modelo de IA Aya Vision e afirma ser o melhor do mercado

A Cohere For AI, laboratório de pesquisa sem fins lucrativos da startup de IA Cohere, lançou nesta semana um modelo de AI multimodal “aberto”, Aya Vision, que o laboratório afirmou ser o melhor da categoria.

Aya Vision pode realizar tarefas como escrever legendas de imagens, responder perguntas sobre fotos, traduzir texto e gerar resumos em 23 idiomas principais. Cohere, que também está disponibilizando o Aya Vision gratuitamente através do WhatsApp, chamou-o de “um passo significativo para tornar as descobertas técnicas acessíveis a pesquisadores em todo o mundo”.

“Embora a IA tenha feito progressos significativos, ainda há uma grande lacuna na forma como os modelos se saem em diferentes idiomas – algo que se torna ainda mais perceptível em tarefas multimodais que envolvem tanto texto quanto imagens”, escreveu Cohere em um post no blog. “A Aya Vision tem como objetivo ajudar explicitamente a fechar essa lacuna”.

Aya Vision vem em dois tipos: Aya Vision 32B e Aya Vision 8B. O mais sofisticado dos dois, Aya Vision 32B, estabelece uma “nova fronteira”, segundo a Cohere, superando modelos com o dobro do seu tamanho, incluindo o Llama-3.2 90B Vision da Meta, em certos benchmarks de compreensão visual. Enquanto isso, o Aya Vision 8B se sai melhor em algumas avaliações do que modelos dez vezes maiores, de acordo com a Cohere.

Ambos os modelos estão disponíveis na plataforma de desenvolvimento de IA Hugging Face sob uma licença Creative Commons 4.0 com adendo de uso aceitável da Cohere. Eles não podem ser utilizados para aplicações comerciais.

Imagem destacada

Cohere afirmou que o Aya Vision foi treinado usando um “conjunto diverso” de conjuntos de dados em inglês, que o laboratório traduziu e utilizou para criar anotações sintéticas. As anotações, também conhecidas como marcadores ou rótulos, ajudam os modelos a entender e interpretar os dados durante o processo de treinamento. Por exemplo, uma anotação para treinar um modelo de reconhecimento de imagem pode assumir a forma de marcações em torno de objetos ou legendas que se referem a cada pessoa, lugar ou objeto representado em uma imagem.

LEIA  Meta dividirá sua equipe de IA para acelerar o desenvolvimento de produtos

A Cohere também lançou uma nova suíte de benchmarks, AyaVisionBench, projetada para testar as habilidades de um modelo em tarefas de “visão-linguagem”, como identificar diferenças entre duas imagens e converter capturas de tela em código.

A indústria de AI está no meio do que alguns chamam de “crise de avaliação”, consequência da popularização de benchmarks que fornecem pontuações agregadas que se correlacionam mal com a proficiência nas tarefas mais importantes para a maioria dos usuários de AI. A Cohere afirma que o AyaVisionBench é um passo para corrigir isso, fornecendo um quadro “amplo e desafiador” para avaliar a compreensão cruzada e multimodal de um modelo.

Com sorte, isso é de fato o caso.

“[O] conjunto de dados serve como um benchmark robusto para avaliar modelos de visão-linguagem em ambientes multilíngues do mundo real”, escreveram os pesquisadores da Cohere em um post no Hugging Face. “Disponibilizamos este conjunto de avaliação para a comunidade de pesquisadores para impulsionar as avaliações multilíngues multimodais”.

Veja mais..

Leave a Reply