IA ainda erra em tarefas que humanos resolvem facilmente
Análise dos modelos mais recentes (GPT-5.5 e Opus 4.7) revelou três padrões sistemáticos de erro que os fazem falhar em menos de 1% de tarefas simples. Estas limitações fundamentais mostram que a IA ainda tem grandes lacunas no raciocínio lógico.
Fonte:
the-decoder
Transcrição
Bem-vindos ao inteligência Hoje Hoje falamos de algo que muitos utilizadores já sentiram, mas que raramente é dito de forma tão direta. Os modelos de inteligência artificial mais avançados do mundo continuam a falhar em tarefas que qualquer pessoa resolveria sem esforço. OGPT 5.5 da open Eye e Opus 4.7 da Antropic, que foram submetidos ao benchmark, a RCAGI3. E os resultados levantam perguntas sérias, Ficamos por Aqui nesta introdução. Aí está a vossa Cinthia síntese essencial sobre as falhas, a estruturais da inteligência artificial. Modelos incríveis como OJPT 5.5 do openaire e o Opus 4.7 estão literalmente a chumbar no ARK agi 3. Sabem, é um teste do François chulé, da Google, focado em raciocínio lógico tão básico que qualquer criança resolve brincar. Então CEIA é tão avançada noutras coisas, porque é que falha catastroficamente no básico? Em primeiro lugar, temos o grande paradoxo do teste. Os modelos acertam em menos de 1% das tarefas mais simples. Pois é, não é um erro ocasional, é um problema estrutural. Imaginem é um génio literário que escreva um romance num segundo, mas que entra logo em curto-circuito quando tenta montar um puzzle infantil de 4 peças. É exatamente isso que está a acontecer. Em segundo lugar, esbarramos numa verdadeira barreira técnica. Há 3 padrões claros de erro, zero, raciocínio espacial, dificuldade em abstrair regras novas e incapacidade de generalizar. Ou seja, ISTO mostra que há mais memorização pura do que raciocínio real e a questão que tira. Indústria é esta, será que a tirar mais poder computacional para o problema vai resolver a coisa ou a própria Fundação Técnica das IAS bateu numa Parede intransponível? Por fim, o alerta prático para o nosso dia a dia aqui em Portugal. ISTO explica perfeitamente porque é que AIAS escreve e-mails brilhantes, mas falha redondamente, perante lógicas inesperadas no trabalho de advogados, médicos ou pequenas empresas, encarem AIA como estagiário hiperrápido, mas vá demasiado confiante como ela não dá sinais de alerta quando erra no básico a vossa. Humana não é opcional, é absolutamente obrigatória. Usem a inteligência artificial como um motor para acelerar o vosso trabalho, mas nunca lhe entreguem o volante do vosso raciocínio crítico. Obrigado por teres ouvido o episódio de Hoje. Se este Tema te fez pensar, partilha com alguém que use inteligência artificial no trabalho. Subscrevam inteligência Hoje, onde quer que ouças os teus podcasts até amanhã.