ทำไม agentic AI ต้องมีมาตรวัดของตัวเอง

การเรียกใช้โมเดลภาษาเพื่อตอบคำถามหนึ่งครั้งเปรียบได้กับการวิ่งระยะสั้น คือเรียกโมเดลหนึ่งครั้งแล้วได้คำตอบกลับมาหนึ่งชุด แต่ agent ทำงานคนละแบบ มันแตกเป้าหมายหนึ่งออกเป็นหลายขั้นตอนย่อย แล้วทำงานต่อเนื่องไปจนกว่างานจะเสร็จ ลักษณะนี้ทำให้เกิดการเรียกโมเดลตั้งแต่หลักสิบจนถึงหลักร้อยครั้งร้อยเรียงต่อกัน โดยแต่ละครั้งส่งบริบทที่ยาวขึ้นเรื่อย ๆ ไปยังขั้นถัดไป พร้อมแทรกการเรียกใช้เครื่องมือ เช่น คอมไพล์และรันโค้ด ค้นฐานข้อมูล และเปิดเว็บ ในทุกจุดเชื่อมต่อ

ความซับซ้อนจึงไม่ได้เพิ่มแบบบวกเข้าไป แต่ทวีคูณขึ้น และนี่คือจุดที่มาตรวัดเดิมตามไม่ทัน เพราะเกณฑ์วัดประสิทธิภาพการอนุมาน (inference) ที่ใช้กันอยู่ออกแบบมาเพื่อวัดการเรียกโมเดลครั้งเดียว คือดูว่าโมเดลตอบสนองเร็วแค่ไหนต่อคำขอหนึ่งรายการ และระบบรับคำขอพร้อมกันได้กี่รายการ เกณฑ์เหล่านี้ไม่ได้ถูกสร้างมาเพื่อภาระงานแบบ agent ที่การเรียกโมเดลต่อเนื่อง ความหน่วงจากการเรียกเครื่องมือ และบริบทที่โตขึ้นเรื่อย ๆ สร้างแรงกดดันต่อระบบประมวลผลในแบบที่การเรียกครั้งเดียวไม่เคยทำ

AgentPerf และผลทดสอบรอบแรก

AgentPerf จาก Artificial Analysis ถูกนำเสนอในฐานะเกณฑ์มาตรฐานสำหรับ agentic AI ชุดแรกของวงการ โดยให้นักพัฒนา องค์กร และผู้ให้บริการโครงสร้างพื้นฐานมีวิธีเปรียบเทียบระบบสำหรับงาน agent ได้อย่างเป็นรูปธรรม ในผลทดสอบรอบแรกที่เผยแพร่ แพลตฟอร์ม NVIDIA Blackwell Ultra NVL72 ทำผลงานนำในกลุ่มภาระงาน agent ที่ทดสอบ

ตัวเลขที่ถูกหยิบมาเป็นจุดเด่นคือ ระบบ NVIDIA GB300 NVL72 รองรับ agent ได้มากกว่าถึง 20 เท่าต่อกำลังไฟหนึ่งเมกะวัตต์ เมื่อเทียบกับระบบรุ่นก่อนหน้าบนสถาปัตยกรรม Hopper โดยในรอบนี้เทียบกับระบบ NVIDIA HGX H200 โดยตรง การวัดทำที่ระดับเป้าหมายการให้บริการ (service-level objective) สองค่า คือ 20 และ 60 โทเคนต่อวินาทีต่อ agent ซึ่งสะท้อนทั้งสถานการณ์ที่เน้นจำนวน agent และสถานการณ์ที่เน้นความเร็วในการตอบสนอง

เบื้องหลังตัวเลข: การออกแบบร่วมทั้งสแตก

ความได้เปรียบด้านประสิทธิภาพมาจากการออกแบบร่วม (codesign) ตลอดทั้งสแตก ไม่ใช่จากชิปตัวเดียว GB300 NVL72 เชื่อม GPU จำนวน 72 ตัวเข้าเป็นระบบระดับแร็คเดียว ทำให้โมเดลขนาดใหญ่แบบ mixture-of-experts สามารถกระจายการประมวลผลได้อย่างมีประสิทธิภาพในสเกลใหญ่

ในชั้นซอฟต์แวร์ เคอร์เนล CUDA ช่วยซ้อนการสื่อสารกับการคำนวณเข้าด้วยกัน ทำให้ต้นทุนของการประสานงานระหว่าง expert ถูกซับไว้แทนที่จะถูกบวกเพิ่มเข้าไปในความหน่วง ขณะที่ NVIDIA TensorRT LLM ช่วยรักษาประสิทธิภาพเมื่อจำนวนเซสชัน agent ที่ทำงานพร้อมกันเพิ่มขึ้น ตัวอย่างหนึ่งคือการแยกการประมวลผลข้อมูลขาเข้าออกจากการสร้างผลลัพธ์ขาออก เพื่อให้แต่ละส่วนถูกปรับให้เหมาะสมได้อย่างอิสระ

AgentPerf วัดอย่างไรให้สะท้อนงานจริง

วิธีวัดของ AgentPerf สร้างขึ้นจากร่องรอยการทำงานจริงของ coding agent กล่าวคือ agent รับโจทย์ อ่านไฟล์ เขียนและแก้โค้ด รันคำสั่ง แล้ววนซ้ำตามผลลัพธ์ที่ได้ ทั้งหมดดึงมาจากคลังโค้ดสาธารณะจริงที่ครอบคลุมภาษาโปรแกรมกว่า 12 ภาษา ความยาวของลำดับงาน รูปแบบการเรียกเครื่องมือ และความหน่วงต่าง ๆ จึงเป็นตัวแทนของเวิร์กโฟลว์การเขียนโค้ดในโลกจริง

จากนั้น AgentPerf วัดว่าแพลตฟอร์มหนึ่งรองรับงาน agent เหล่านี้พร้อมกันได้กี่งาน ภายใต้เกณฑ์ที่กำหนดไว้สำหรับการตอบสนองและอัตราการสร้างโทเคน จุดสำคัญเชิงระเบียบวิธีคือ การเรียกเครื่องมือไม่ได้ถูกรันจริง แต่จำลองด้วยเวลาประมวลผลของ CPU ที่เป็นตัวแทน เพื่อให้ความแตกต่างของผลลัพธ์สะท้อนเฉพาะประสิทธิภาพของระบบประมวลผลเร่งความเร็วเท่านั้น ไม่ปะปนกับความเร็วของเครื่องมือภายนอก

ผลที่ได้แปลงเป็นการตัดสินใจด้านโครงสร้างพื้นฐานได้โดยตรง คือบอกว่าจะรันงาน agent พร้อมกันได้กี่งานต่อหนึ่งตัวเร่งความเร็ว และต่อกำลังไฟหนึ่งเมกะวัตต์ สำหรับองค์กรที่นำ agent ไปใช้ในสเกลใหญ่ ตัวเลขเหล่านี้คือสิ่งที่กำหนดว่าการลงทุนโครงสร้างพื้นฐานก้อนหนึ่งจะให้ผลงานที่เป็นประโยชน์ได้มากเพียงใด

ระบบนิเวศที่ใช้งานจริงและก้าวต่อไป

ผู้ให้บริการอนุมานหลายรายเริ่มให้บริการภาระงาน agent บนโมเดลแนวหน้าอย่าง DeepSeek V4 Pro บน Blackwell แล้ว เช่น Baseten, DeepInfra และ Together AI โดย Together AI รองรับการอนุมานแบบเรียลไทม์ให้กับ Cursor ซึ่งเป็นแพลตฟอร์มเขียนโค้ดแบบ agent ที่ทำหน้าที่ดีบั๊ก สร้างฟีเจอร์ และรีแฟกเตอร์โค้ดไปพร้อมกับที่นักพัฒนายังทำงานอยู่ ส่วน DeepInfra รองรับ Pam.ai แพลตฟอร์มแรงงาน AI สำหรับตัวแทนจำหน่ายรถยนต์ ที่ใช้ agent นัดหมายงานบริการ รับสาย และทำแคมเปญขายเชิงรุก

NVIDIA ระบุว่าเมื่อซอฟต์แวร์อนุมานทั้งของบริษัทและของชุมชนโอเพนซอร์สถูกปรับให้ดีขึ้นต่อไป ประสิทธิภาพบนภาระงาน agent ก็จะดีขึ้นตามไปด้วย ขณะเดียวกันสถาปัตยกรรมรุ่นถัดไปอย่าง NVIDIA Vera Rubin ได้เข้าสู่การผลิตเต็มรูปแบบแล้ว ซึ่งจะเพิ่มกำลังโครงสร้างพื้นฐานเพื่อรองรับความต้องการของ agentic AI ที่กำลังขยายตัว สำหรับผู้ที่ต้องประเมินการลงทุนด้านโครงสร้างพื้นฐาน AI การมีเกณฑ์วัดที่อิงงานจริงเช่นนี้ถือเป็นจุดอ้างอิงใหม่ที่เปลี่ยนการเปรียบเทียบจาก "เร็วแค่ไหนต่อหนึ่งคำขอ" ไปเป็น "ทำงานที่มีประโยชน์ได้เท่าไรต่อหนึ่งดอลลาร์และหนึ่งวัตต์"