TESTER Bil & El-kjøretøy Data Sport & Trening Gaming Mobil Smart Home Teknologi
Full tilgang 1 uke uten bindingstid!

Nyhet

Kan AI virkelig resonnere seg frem til løsninger?

Studier viser at resonerende AI-modeller ikke klarer klassiske tankepuslespill.

Av / 12.06.25 - 15:00
Kan AI virkelig resonnere seg frem til løsninger?

Ifølge studien mislykkes såkalte «simulerte resonnementmodeller» som OpenAI:s o1 og o3, DeepSeek-R1 og Claude 3.7 Sonnet Thinking med problemer som krever systematisk tenkning. De produserer resultater som ikke er bedre enn om man bare leter etter tidligere svar på problemet i treningsdataene deres. Det er det tradisjonelle store språkmodeller gjør. Studien, som går under navnet «The illusion of thinking», kommer fram til et lignende resultat som en annen nylig publisert studie fra USA Mathematical Olympiad.

Forskerne undersøkte såkalte Large Reasoning Models, som forsøker å simulere en logisk resonerende prosess ved å bryte ned komplekse problemer til enklere og løse dem trinn for trinn.

Les også Nyhet: ChatGPT tatt i løgn og unnskyldninger KI-verktøyet forsøkte å bryte regler og unngå nedstengning på en urovekkende måte.

Undersøkelsen besto av å utsette AI-modellene for klassiske tankenøtter som Tower of Hanoi, spille Checkers (dam), tankenøtten med å krysse en elv og Blocks World. Man begynte på nybegynnernivå og økte vanskelighetsgraden til ekstremt vanskelig. For eksempel krever en 20-ringers Tower of Hanoi over en million trekk.

Kan AI virkelig resonnere seg frem til løsninger? 1
Foto: Illustrasjon fra «The Illusion of Thinking».

Resultatet var at de bare klarte å vise en løsning i under 5 prosent av tilfellene, og bare én klarte å nå 25 prosent. Ingen av dem klarte å vise en perfekt løsning til tross for 200 forsøk. Dette til tross for at KI-forskeren Herb Simon viste en løsning på Tower of Hanoi allerede i 1957, og det finnes mange ferdige algoritmer for løsningen på nettet. Ikke engang da forskerne utstyrte modellene med algoritmen, ble resultatet bedre. Noe som en forsker mente betydde at «prosessen deres ikke er logisk og intelligent».

Les også Kommentar: DeepSeek: Kinesiske AI for god til å være sann? DeepSeek lover en revolusjon i kunstig intelligens for bare en brøkdel av kostnadene. Men når vi undersøker hva denne nye kinesiske AI-en faktisk kan levere, tegner det seg et annet bilde.

Forskerne mener at problemet med dagens evalueringer av resonerende modeller er at de kun bryr seg om resultatet blir riktig. Om svaret fantes i treningsdataene deres er irrelevant, så ingen stiller spørsmål ved om de virkelig resonerer seg frem til svaret eller bare kopierer det.

Annonse

Det skal sies at studien kommer fra Apples forskere, det eneste store teknologiselskapet som ikke har lansert en egen AI-løsning. Den har også fått kritikk da andre forskere påpeker at dagens modeller er bygget for å ikke bruke for mye tid på et problem. Hvis de ikke kan løse det raskt, gjetter de. Apples forskere sier også selv at «tankeøtter er et smalt område og kanskje ikke er representativt for problemløsning generelt», og advarer mot å ekstrapolere resultatet og trekke for vidtrekkende konklusjoner.

Kan AI virkelig resonnere seg frem til løsninger? 2
Skjermbilde: Robert Jr. Carusos LinkedIn

Når det er sagt, ble ChatGPT 4o slått av en Atari 2600 spillkonsoll fra 1977 når det gjaldt å spille sjakk…

Les studien hos Apple Research

(f. 1969): Journalist og nyhetsredaktør. Jonas har jobbet for Lyd & Bilde siden 2007 med det meste som kan kalles bærbart. Det vill si mobiler, trådløse høyttalere og hodetelefoner. Iblant kommer testingen inn på kollegaenes områder innenfor multiromslyd, hjemmekino og foto. Han startet sin bane som teknikkjournalist på IDG og skrev blant annet for PC för Alla, Internetworld og det som senere ble M3.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Les videre med LB+

Stoppes automatisk

Full tilgang 1 uke uten bindingstid!

Tilgang til ALT innhold i 1 UKE!

Populær

LB+ Total tilbud - Første mnd KUN 79,-

Tilgang til ALT LB+ innhold

Spar mest!

LB+ total 12 måneder

Tilgang til ALT innhold i 12 måneder

Kun 89 kr/uke
79 kr/md
Kun 154 kr/md
Med et LB+ får du:
  • Tilgang til mer enn 7800 produkttester!
  • Store rabatter hos våre samarbeidspartnere i LB+ Fordelsklubb
  • Ukentlige nyhetsbrev med siste nytt
  • L&B TechCast – en podcast av L&B
  • Magsinet digitalt – ny utgave hver måned
  • Deaktiver annonser
  • L&B+ Video – bli med L&B redaksjonen behind the scenes, på de store tech-messene og mye mer!

Hvor dum er AI?

Lad AA-batteriene med USB

ChatGPT-chatter lagres nå permanent

Europas første månebil lander

ChatGPT blir superassistent

Ukjent liv oppdaget i rommet

Forsinket iPad-robot

Snart kan du se i mørket

ChatGPT sikrer Apple-design for milliardbeløp

Alt nytt fra Google I/O

Robotene skal drømme seg til kunskap

Jakten på utenomjordiske megastrukturer er kanskje umulig

Lyd & Bilde