Volta e meia notícias relatam como uma inteligência artificial superou a capacidade humana em algum teste. Essas avaliações, porém, estão com os dias contados, porque já não conseguem mensurar o avanço dessas ferramentas, cada vez mais poderosas.

No novo episódio de Deu Tilt, o podcast do UOL por trás das máquinas, Diogo Cortiz e Helton Simões Gomes contam como cientistas contornaram esse gargalo que está para acontecer. Mais de mil deles, vindos de 500 instituições ao redor do mundo, se uniram para criar a "Última Prova da Humanidade", um teste impossível de tão difícil.

Perguntas muito difíceis, muito sofisticadas mesmo. Se a IA passar nisso aqui, quer dizer que não temos mais conhecimentos para testar essa inteligência artificial, do ponto de vista de conteúdo

Benchmark de respeito

Para avaliar a capacidade de um determinado modelo de IA, pesquisadores usam benchmarks. Eles são avaliações para mensurar o nível de proficiência de uma ferramenta em um conjunto de habilidades. Por exemplo, se uma IA é boa em traduzir de um idioma para outro, programar códigos, fazer cálculos ou reconhecer e elaborar imagens.

Esses testes possuem algo como uma "nota de corte", que é a pontuação mais alta feita por um ser humano. Quando uma IA passa essa marca, os observadores dizem que ela superou a capacidade humana em determinada área.

Muitas vezes a gente coloca que a IA é melhor que o humano para fazer determinada tarefa. A gente assume isso. Mas, na verdade, o que a gente quer dizer é que o modelo é melhor que o humano para fazer essa tarefa dentro dessa avaliação específica

Elaborada pelo Center for AI Safety e pela Scale AI, a "Última Prova da Humanidade" é um desses benckmarks.

Mas é elaborado para ser bastante exigente a respeito de questões específicas sobre diversas especialidades do conhecimento humano.

O teste aborda uma variedade ampla de assuntos, da ecologia aos grandes clássicos, passando por engenharia e filosofia. Até mesmo especialistas experientes consideram a tarefa muito difícil.

Estão sendo desenvolvidas aproximadamente 3 mil perguntas de múltipla escolha. São questões como:

Os beija-flores dentro dos Apodiformes têm exclusivamente um osso oval pareado bilateralmente, um sesamoide embutido na porção caudolateral da aponeurose cruzada expandida de inserção do m. depressor caudae. Quantos tendões pareados são suportados por este osso sesamoide? Responda com um número

Dado o ineditismo da "Última Prova da Humanidade" e sua complexidade, ainda não há sequer uma "nota de corte".

Quando estamos falando de avaliar o modelo, podemos fazer de diferentes formas. Nesse aqui ele está focando muito no conhecimento da humanidade

Como as IA se saíram até o momento?

O Center for AI Safety e a Scale AI liberaram os resultados de testes prévios feitos com algumas das principais plataformas de IA do mundo.

Nenhum deles foi bem:

o3 mini (OpenAI): 14%

Claude 3.7 (Anthropic): 8,9%

DeepSeek - R1: 8,6%

Gemini (Google): 7,2%

Grok-2 (X): 3,9%

GPT 4.o (OpenAI): 3,1%

Todos os modelos alcançam baixa precisão no teste, destacando espaço significativo para melhoria na redução da lacuna entre os LLMs atuais e as capacidades acadêmicas de nível especializado em questões fechadas

Isso quer dizer que nem mesmo os modelos de IA com capacidade para recorrer à internet se deram bem.

Ou seja, a humanidade pode dormir tranquila por muito tempo porque esses LLMs [grandes modelos de linguagem] não vão conseguir resolver esse teste

Esse muito tempo eu não sei

Os resultados sinalizam que há muito para melhorar nas ferramentas de IA. Ainda assim, as organizações responsáveis pelo teste afirmam que esse até pode ser o último exame acadêmico dado aos modelos, mas está "longe de ser o último dos benchmarks".

E a avaliação não contempla a futura AI geral, os modelos que serão competentes em diversas áreas do conhecimento e terão capacidade de aprender aquilo que não sabem.

A alta precisão no teste demonstraria desempenho de nível especializado em questões fechadas e verificáveis cia artificial geral'

Tíquete para Apple driblar tarifas de Trump fica US$ 150 bi mais caro

Dessa vez, não foi o iPhone que fez as atenções se voltarem para a Apple. A companhia anunciou que investirá US$ 500 bilhões só nos Estados Unidos. O valor é um aceno ao governo norte-americano, mas indica que a empresa repete a mesma estratégia usada para driblar o "tarifômetro de Donald Trump" e evitar que as taxas aplicadas à China impactassem a importação de seus relógios inteligentes.

Em 2018, a empresa da maçã anunciou investimento de US$ 350 bilhões ao longo de cinco anos e a criação de 20 mil empregos. O afago à primeira gestão Trump deu certo.

Agora, Trump anunciou 10% de tarifa para a China e parece que o valor que a Apple está investindo para dar uma contrapartida para obter uma exceção subiu em pelo menos US$ 150 bilhões. Ficou muito mais caro conseguir driblar as doideiras e loucuras do Trump

Apple e Google na mira: batalha inaugural da regulação das redes tem 'arma importada'

Você pode até não ter percebido, mas começou. O governo brasileiro deu a largada para regular as redes sociais e plataformas digitais.

Diogo Cortiz e Helton Simões Gomes explicam que a batalha inaugural tem Apple e Google na mira. Sob investigação, estão plataformas para lá de conhecidas do brasileiro: App Store, Google Play e Android. Engajado na disputa, o Brasil vem trabalhando para ter em campo uma "arma importada". A dupla conta o que ela faz, de onde veio e quais são as consequências.

É o fim da 'IA com esteróide'? 'Robô que pensa' muda o jogo da tecnologia

Os modelos de IA capazes de refletir ou raciocinar já não são exclusividade da OpenAI.

Essas ferramentas são um avanço em relação à versão tradicional do ChatGPT.

Além disso, elas mudam o jogo da tecnologia, pois exigem uma capacidade de processamento em um momento completamente diferente da execução de uma tarefa.

E isso altera os paradigmas com que a indústria se acostumou a lidar.

