
Dit onderzoeksrapport van Apple-wetenschappers onthult verrassende inzichten over de nieuwste generatie kunstmatige intelligentie (AI) die beweert te "denken" voordat ze antwoorden geeft. Door puzzelspellen te gebruiken, testten ze of deze geavanceerde AI-systemen echt kunnen redeneren of vooral goed zijn in het nabootsen van denkprocessen.
Wat zijn "Denkende" AI-Modellen?
Large Reasoning Models (LRMs) zoals OpenAI's o1/o3, DeepSeek-R1 en Claude 3.7 Sonnet Thinking genereren uitgebreide redeneerprocessen voordat ze antwoorden. In tegenstelling tot oudere AI die direct reageert, tonen LRMs hun "berekeningen" - vergelijkbaar met een leerling die alle tussenstappen opschrijft bij wiskunde. Het idee is dat dit "hardop denken" complexe problemen beter oplost, vooral bij wiskunde, programmeren en logische puzzels. Bedrijven investeren fors in deze modellen, maar de resultaten zijn wisselvallig.
Hoe werden de AI-Modellen getest?
De onderzoekers kozen vier klassieke puzzels waarvan ze de complexiteit precies konden aanpassen:
-
Toren van Hanoi: Schijven verplaatsen tussen drie pinnen met vaste regels.
-
Dammen Springen: Rode en blauwe schijven verwisselen via glijden/springen.
-
Rivieroversteek: Acteurs en agenten veilig overzetten met een bootje.
-
Blokken Wereld: Gekleurde blokken stapelen volgens specifieke patronen.
Deze puzzels zijn ideaal omdat:
-
De moeilijkheidsgraad eenvoudig aan te passen is (bijv. meer schijven toevoegen).
-
Elke tussenstap gecontroleerd kan worden.
-
Ze weinig voorkomen in trainingsdata, zodat AI niet kan "spieken".
Drie verrassende prestatiezones
Uit de tests bleken drie duidelijk verschillende gedragspatronen:
Zone 1: Eenvoudige Problemen - Traditionele AI Wint
Bij simpele puzzels presteerden oude AI-modellen beter. LRMs verspilden rekenkracht aan overbodige denkstappen - zoals een rekenmachine gebruiken voor 2+2. Voorbeeld: bij 3 schijven in de Toren van Hanoi hadden standaardmodellen 85% precisie tegenover 72% bij LRMs.
Zone 2: Middelmatige Complexiteit - LRMs Tonen Hun Kracht
Vanaf ±5 schijven in de Toren van Hanoi draaiden de rollen om. LRMs behielden 60% precisie, terwijl standaardmodellen naar 30% zakten. Hun vermogen om tussenstappen te doorlopen gaf hier voordeel.
Zone 3: Complexe Problemen - Beide Typen Falen
Vanaf 8 schijven faalden alle modellen volledig. Paradoxaal genoeg gingen LRMs minder nadenken naarmate problemen moeilijker werden, ook al hadden ze voldoende rekenkracht. Bijvoorbeeld: Claude 3.7 Sonnet gebruikte bij 10 schijven 40% minder denktokens dan bij 7 schijven.
Het "Overdenk"-probleem
LRMs vertoonden opvallend inefficiënt gedrag:
-
Eenvoudige puzzels: Vonden snel de oplossing maar bleven daarna foute opties verkennen (tokens verspillen).
-
Middelmatige puzzels: Ontdekten eerst foute routes, daarna pas de juiste.
-
Complexe puzzels: Slaagden er nooit in een correcte oplossing te genereren.
Zelfs wanneer onderzoekers een stapsgewijs oplossingsalgoritme gaven (bijv. voor de Toren van Hanoi), faalden LRMs op hetzelfde complexiteitsniveau. Dit wijst op een fundamenteel probleem in logisch stappenplanvolgen, niet alleen in oplossingen bedenken. Voorbeeld: Met een voorgeschreven algoritme zakte de precisie van DeepSeek-R1 van 80% naar 45% bij 5 schijven.
LRMs presteerden sterk uiteenlopend bij puzzels met vergelijkbare complexiteit:
-
Claude 3.7 Sonnet voltooide 100 zetten correct in de Toren van Hanoi (10 schijven), maar slechts 4 bij Rivieroversteek (3 paren).
-
Dit suggereert dat ze afhankelijk zijn van trainingsdata-patronen (Toren van Hanoi komt vaker voor online) in plaats van algemeen redeneervermogen.
Implicaties voor de Toekomst van AI
-
Geen Waar Begrip: LRMs lijken op geavanceerde patroonherkenning, niet op logisch redeneren.
-
Schaalbeperkingen: In tegenstelling tot mensen geven LRMs juist minder moeite bij complexere problemen.
-
Betrouwbaarheidsissues: Prestaties variëren sterk tussen vergelijkbare taken.
-
Instructiegevoeligheid: Zelfs expliciete stappenplannen worden niet consistent gevolgd.
Deze resultaten benadrukken het blijvende belang van menselijk kritisch denken. Voor Vlaamse scholieren betekent dit:
-
Focus op vakken die probleemoplossend vermogen trainen (wiskunde, informatica).
-
AI als hulpmiddel gebruiken, niet als vervanging voor eigen redenering.
-
Experimenteren met educatieve puzzels om logica te ontwikkelen.
Onderzoekers pleiten voor meer transparantie in AI-training en alternatieve evaluatiemethoden buiten standaard wiskundige benchmarks. Recente initiatieven zoals het Nederlandse "AI for Education"-programma sluiten hierop aan door AI-gestuurde tutors te combineren met klassieke didactiek.
Hoewel denkende AI-modellen vooruitgang boeken, tonen deze tests fundamentele beperkingen. Net zoals een rekenmachine niet alle wiskunde vervangt, blijft menselijk inzicht cruciaal. Toekomstige ontwikkelingen vereisen nauwere samenwerking tussen AI-onderzoekers, onderwijsexperts en cognitiewetenschappers om systemen te bouwen die écht begrijpen wat ze doen.
Rudi D'Hauwers - AI-optimist maar ook kritisch denken - 10 juni 2025
Disclaimer: dit document bevat deels AI-gegenereerde inhoud. Alle intellectuele input en redactionele controle berust bij de auteur.
Reactie plaatsen
Reacties