ცნობილია, რომ ხელოვნური ინტელექტი მუშაობის დროს შეცდომებს არც თუ ისე იშვიათად უშვებს. თუმცა, კომპანია Apple-ის მიერ ჩატარებული ბოლო ექსპერიმენტით ირკვევა, რომ ყველაზე ხშირად ხარვეზები AI-ს მათემატიკური ამოცანების ამოხსნის დროს აქვს- ნაკლოვანია ის მათემატიკური მოდელი, რომლის საშუალებითაც ხელოვნური ინტელექტი ფიქრობს.

მეცნიერებმა AI-ის ყველაზე განვითარებულ მოდელს რამდენჯერმე დაუსვეს ერთი და იგივე კითხვა, ოღონდ სახეცვლილი ფორმულირებით. ყოველ ჯერზე ხელოვნურმა ინტელექტმა პასუხი შეცვალა, განსაკუთრებით შესამჩნევი ცვლილება მაშინ ხდებოდა, როცა კითხვებში რიცხვითი სიმბოლოები იყო გამოყენებული.

arxiv.org-ზე გამოქვეყნებული კვლევა ადასტურებს, რომ Al-ის პასუხები მნიშვნელოვნად იცვლება, თუ ერთი და იმავე კითხვას სხვადასხვა ფორმულირებით სვამ.

მეცნიერების აზრით, ეს ეჭვქვეშ აყენებს GSM8K-ის მიმდინარე შედეგების სანდოობას, რომლებიც ერთწერტილიანი სიზუსტის მეტრიკებს ეხება.

ცნობისთვის, GSM8K სწორედ იმ მონაცემთა ნაკრებია, რომელიც მოდელების შესამოწმებლად გამოიყენება. დღეისთვის, GSM8K 8 ათასზე მეტ კითხვასა და პასუხს GSM8K , დაწყებითი სკოლის მათემატიკიდან დასრულებული უმაღლეს მათემატიკამდე.

Apple-ის მკვლევრების თქმით, პროდუქტიულობის სხვაობამ შეიძლება 10%-ს მიაღწიოს, მაშინ, როცა თუნდაც მცირე ცვლილებაც კი სერიოზული ეჭვის ქვეშ აყენებს მათემატიკური გამოთვლის სანდოობას.

 საქმე ისაა, რომ AI ლოგიკურ მსჯელობაზე კი არა, არამედ პატერნების ამოცნობაზე არის დამოკიდებული. შესაბამისად, თუ რამდენიმე უმნიშვნელო სიტყვას შევცვლით, ეს გავლენას ახდენს პატერნების ამოცნობაზე. რამდენიმე დღის წინ მეცნიერებმა ხელოვნურ ინტელექტს შეგროვებული კივის დათვლა სთხოვეს. უფრო კონკრეტულად,  Apple-ის მკვლევრებმა ჩაატარეს საკონტროლო ექსპერიმენტი, ხოლო შემდეგ კივის ზომის შესახებ ინფორმაცია დაამატეს. Llama-მა Meta-დან და o1-მა OpenAI-დან შეცვალეს თავიანთი პასუხები საკონტროლო ექსპერიმენტთან შედარებით, მიუხედავად იმისა, რომ კივის ზომის მონაცემები შედეგზე გავლენას არ ახდენდა. პრობლემები ასევე აღმოჩნდა GPT-4o-შიც.