Ifølge studien mislykkes såkalte «simulerte resonnementmodeller» som OpenAI:s o1 og o3, DeepSeek-R1 og Claude 3.7 Sonnet Thinking med problemer som krever systematisk tenkning. De produserer resultater som ikke er bedre enn om man bare leter etter tidligere svar på problemet i treningsdataene deres. Det er det tradisjonelle store språkmodeller gjør. Studien, som går under navnet «The illusion of thinking», kommer fram til et lignende resultat som en annen nylig publisert studie fra USA Mathematical Olympiad.

Forskerne undersøkte såkalte Large Reasoning Models, som forsøker å simulere en logisk resonerende prosess ved å bryte ned komplekse problemer til enklere og løse dem trinn for trinn.

Les også Nyhet: ChatGPT tatt i løgn og unnskyldninger KI-verktøyet forsøkte å bryte regler og unngå nedstengning på en urovekkende måte.

Undersøkelsen besto av å utsette AI-modellene for klassiske tankenøtter som Tower of Hanoi, spille Checkers (dam), tankenøtten med å krysse en elv og Blocks World. Man begynte på nybegynnernivå og økte vanskelighetsgraden til ekstremt vanskelig. For eksempel krever en 20-ringers Tower of Hanoi over en million trekk.

Kan AI virkelig resonnere seg frem til løsninger? 1 — Foto: Illustrasjon fra «The Illusion of Thinking».

Resultatet var at de bare klarte å vise en løsning i under 5 prosent av tilfellene, og bare én klarte å nå 25 prosent. Ingen av dem klarte å vise en perfekt løsning til tross for 200 forsøk. Dette til tross for at KI-forskeren Herb Simon viste en løsning på Tower of Hanoi allerede i 1957, og det finnes mange ferdige algoritmer for løsningen på nettet. Ikke engang da forskerne utstyrte modellene med algoritmen, ble resultatet bedre. Noe som en forsker mente betydde at «prosessen deres ikke er logisk og intelligent».

Les også Kommentar: DeepSeek: Kinesiske AI for god til å være sann? DeepSeek lover en revolusjon i kunstig intelligens for bare en brøkdel av kostnadene. Men når vi undersøker hva denne nye kinesiske AI-en faktisk kan levere, tegner det seg et annet bilde.

Forskerne mener at problemet med dagens evalueringer av resonerende modeller er at de kun bryr seg om resultatet blir riktig. Om svaret fantes i treningsdataene deres er irrelevant, så ingen stiller spørsmål ved om de virkelig resonerer seg frem til svaret eller bare kopierer det.

Annonse

Det skal sies at studien kommer fra Apples forskere, det eneste store teknologiselskapet som ikke har lansert en egen AI-løsning. Den har også fått kritikk da andre forskere påpeker at dagens modeller er bygget for å ikke bruke for mye tid på et problem. Hvis de ikke kan løse det raskt, gjetter de. Apples forskere sier også selv at «tankeøtter er et smalt område og kanskje ikke er representativt for problemløsning generelt», og advarer mot å ekstrapolere resultatet og trekke for vidtrekkende konklusjoner.

Kan AI virkelig resonnere seg frem til løsninger? 2 — Skjermbilde: Robert Jr. Carusos LinkedIn

Når det er sagt, ble ChatGPT 4o slått av en Atari 2600 spillkonsoll fra 1977 når det gjaldt å spille sjakk…

Les studien hos Apple Research

Jonas Ekelund

(f. 1969): Journalist og nyhetsredaktør. Jonas har jobbet for Lyd & Bilde siden 2007 med det meste som kan kalles bærbart. Det vill si mobiler, trådløse høyttalere og hodetelefoner. Iblant kommer testingen inn på kollegaenes områder innenfor multiromslyd, hjemmekino og foto. Han startet sin bane som teknikkjournalist på IDG og skrev blant annet for PC för Alla, Internetworld og det som senere ble M3.

Nyhet

Kan AI virkelig resonnere seg frem til løsninger?

Legg igjen en kommentar Avbryt svar

Les videre med LB+

Full tilgang 1 uke uten bindingstid!

Tilbud - 4 uker 4,-

LB+ total 12 måneder

Googles nye KI kan lese håndskrevne oppskrifter og planlegge reisen din

OpenAIs strømregning blir større enn Indias

Den eksistensielle frykten av å være en støvsuger

Barbie Girl saksøker Suno

Kina kaster servere i havet

Kan husholdningsroboten forbedre hverdagen?

OpenAI prøver seg på musikkskaping

Nike lager robotsneakers

Tre som er sterkere enn stål

OpenAI utfordrer Chrome med ny KI-nettleser

"Halve internett" er nede - slik rammes du av Amazon-feil

Isende favoritt i jakten på liv i verdensrommet

Hold deg oppdatert!