ไม่ฉลาดอย่างที่คิด! Apple โชว์งานวิจัย พบจุดอ่อนเรื่องภาษาใน OpenAI, Google และ Meta

เผยแพร่ : 16 ต.ค. 2567 14:12:06

KEY POINTS

• แอปเปิลวิจัยเผยจุดอ่อน AI ในโมเดลภาษา: AI ใน LLM จากค่ายใหญ่ (OpenAI, Google, Meta) มีข้อบกพร่องในด้านทักษะการใช้เหตุผล

• ผลการวิจัยชี้ AI ไม่ก้าวหน้าอย่างที่คิด: ทักษะการใช้เหตุผลของ AI ใน LLM ยังไม่ดีพอ

• เป็นเครื่องเตือนใจ: การวิจัยนี้แสดงให้เห็นว่า AI ยังมีข้อจำกัด และการพัฒนา AI ให้ก้าวหน้าอย่างแท้จริงยังคงเป็นเรื่องท้าทาย

แอปเปิล (Apple) โชว์งานวิจัยเผยจุดบกพร่องที่สำคัญของปัญญาประดิษฐ์ในโมเดลภาษาของค่ายใหญ่ทั้งโอเพ่นเอไอ (OpenAI) กูเกิล (Google) และ เมตา (Meta) ชี้ทักษะการใช้เหตุผลของ AI ใน LLM อาจไม่ก้าวหน้าอย่างที่คิดกัน

ถือเป็นเครื่องเตือนใจให้ลดความตื่นเต้นเกี่ยวกับความเก่งของ AI ลง สำหรับการศึกษาวิจัยล่าสุดของนักวิจัย Apple ที่ทำให้เกิดข้อกังขาเกี่ยวกับความชาญฉลาดที่แท้จริงของโมเดลภาษาขนาดใหญ่ (LLM) จากบริษัทต่างๆ เช่น OpenAI, Google และ Meta แม้ว่าโมเดลเหล่านี้มักได้รับคำชมเชยในเรื่องความสามารถในการให้เหตุผลที่น่าประทับใจ แต่การศึกษาวิจัยล่าสุดชี้ให้เห็นว่าความชาญฉลาดของโมเดลเหล่านี้อาจคล้ายกับ "การจับคู่รูปแบบที่ซับซ้อน" หรือ sophisticated pattern matching มากกว่าที่จะเป็นการใช้เหตุผลเชิงตรรกะที่แท้จริง (true logical reasoning)

เกณฑ์มาตรฐานที่ใช้กันอย่างแพร่หลายในการประเมินทักษะการใช้เหตุผลใน LLM คือการทดสอบที่เรียกว่า GSM8K แต่เนื่องจาก LLM ได้รับความนิยมใช้งานแพร่หลาย จึงมีความเสี่ยงที่จะเกิด "การปนเปื้อนของข้อมูล" ซึ่งหมายความว่า LLM อาจทำงานได้ดีแม้จะไม่ได้ใช้เหตุผล แต่เพราะได้รับการฝึกฝนจากข้อมูลเต็มที่ เพื่อแก้ปัญหานี้ นักวิจัยของ Apple จึงสร้างเกณฑ์มาตรฐานใหม่ที่เรียกว่า GSM-Symbolic ซึ่งยังคงโครงสร้างหลักของปัญหาการใช้เหตุผลไว้ แต่เปลี่ยนองค์ประกอบสำคัญ เช่น ชื่อ ตัวเลข และความซับซ้อน ในขณะที่เพิ่มข้อมูลที่ไม่เกี่ยวข้องเพื่อท้าทายโมเดล
การวิจัยของ Apple พบว่า LLM อาจตอบคำถามโดยอาศัยการจดจำรูปแบบมากกว่าความเข้าใจเชิงลึก

การวิจัยของ Apple พบว่า LLM อาจตอบคำถามโดยอาศัยการจดจำรูปแบบมากกว่าความเข้าใจเชิงลึก

ผลลัพธ์ที่ได้นั้นน่าประหลาดใจมาก โดยโมเดลทั้ง 20 โมเดลที่ทดสอบ รวมถึง o1 และ GPT-4o ของ OpenAI, Gemini 2 ของ Google และ LLaMA 3 ของ Meta ล้วนแสดงให้เห็นถึงประสิทธิภาพที่ลดลงเมื่อมีการปรับเปลี่ยนตัวแปรเหล่านี้

รายงานระบุว่า ความแม่นยำของโมเดลลดลงเล็กน้อยเมื่อมีการปรับเปลี่ยนชื่อและตัวแปร แม้ว่าโมเดลของ OpenAI จะทำงานได้ดีกว่าโมเดลโอเพ่นซอร์สอื่นๆ แต่ยังไม่ชัดเจนถึงความสามารถในการใช้เหตุผลของโมเดลเหล่านี้ โดยเฉพาะเมื่อนักวิจัยนำ "รายละเอียดที่ไม่เกี่ยวข้อง" แต่ดูเหมือนว่าจะสำคัญมาใส่ในปัญหา

เพื่อศึกษาเพิ่มเติมว่า LLM พึ่งพาการจดจำรูปแบบมากกว่าการใช้เหตุผลที่แท้จริงหรือไม่ การศึกษาได้เพิ่มรายละเอียดที่ไม่เกี่ยวข้องลงในโจทย์ปัญหาทางคณิตศาสตร์ เพื่อดูว่าโมเดลจะจัดการกับรายละเอียดเหล่านี้อย่างไร ตัวอย่างเช่น คำถามว่า "โอลิเวอร์เก็บกีวี 44 ผลในวันศุกร์ และ 58 ผลในวันเสาร์ และในวันอาทิตย์มีกีวีเป็น 2 เท่าของที่เก็บได้ในวันศุกร์ แต่ 5 ผลในจำนวนนั้นมีขนาดเล็กกว่าค่าเฉลี่ย สรุปแล้วโอลิเวอร์มีกีวีกี่ผล"

รายละเอียดเพิ่มเติมเกี่ยวกับกีวีขนาดเล็กไม่ควรส่งผลต่อการคำนวณ แต่โมเดลภาษาส่วนใหญ่หักลบ 5 ผลออกจากคำตอบสุดท้ายอย่างไม่ถูกต้อง ซึ่งเผยให้เห็นข้อบกพร่องที่สำคัญในกระบวนการคิดเหตุผล

โมเดล o1 Preview ของ OpenAI ทำงานได้ดีที่สุดในการทดสอบนี้ แต่ยังคงพบว่าความแม่นยำลดลง 17.5% ในขณะเดียวกัน โมเดล Phi 3 ของ Microsoft แสดงให้เห็นว่าแม่นยำลดลงมากกว่า โดยลดลงถึง 65%
OpenAI ทำงานได้ดีที่สุดในการทดสอบของ Apple แต่ยังคงพบว่าความแม่นยำลดลง 17.5%

OpenAI ทำงานได้ดีที่สุดในการทดสอบของ Apple แต่ยังคงพบว่าความแม่นยำลดลง 17.5%

การศึกษาสรุปว่า LLM มีแนวโน้มที่จะเปลี่ยนคำชี้แจงเป็นการดำเนินการ โดยไม่เข้าใจความหมายอย่างแท้จริง ซึ่งยืนยันสมมติฐานของนักวิจัยที่ว่า LLM มองหารูปแบบในการแก้ปัญหาที่ต้องใช้เหตุผล เป็นการอาศัยการจดจำรูปแบบมากกว่าความเข้าใจเชิงลึก

ผลการศึกษานี้ยังสรุปอย่างตรงไปตรงมาว่าโมเดลภาษายังจัดการข้อมูลที่ไม่เกี่ยวข้องได้ไม่ดี และมีข้อบกพร่องที่สำคัญเรื่องการเข้าใจแนวคิดทางคณิตศาสตร์อย่างแท้จริง ซึ่งทำให้ไม่สามารถแยกแยะข้อมูลที่เกี่ยวข้องเพื่อแก้ปัญหาได้ถูกต้อง

อย่างไรก็ตาม งานวิจัยนี้ถือเป็นผลการศึกษาของ Apple ที่เป็นคู่แข่งสำคัญของ Google, Meta และแม้แต่ OpenAI แม้ว่า Apple และ OpenAI จะมีความร่วมมือกัน แต่ Apple ก็ยังพัฒนาโมเดล AI ของตัวเอง ซึ่งที่สุดแล้ว การศึกษานี้เป็นอีกสัญญาณที่กระตุ้นให้ผู้ใช้ระบบ AI ควรเพิ่มความสงสัย และไม่วางใจคำตอบจาก LLM มากเกินไป โดยเฉพาะอย่างยิ่งเมื่อเกี่ยวข้องกับความสามารถในการใช้เหตุผล ซึ่งอาจทำให้ระบบแสดงคำตอบที่ผิดพลาด

ที่มา : MgrOnline