เหรียญทองโอลิมปิกคณิตศาสตร์

ปล่อยโมเดล AI ใหม่ Math-V2 เก่งในการให้เหตุผลทางคณิตศาสตร์ ระดับ “เหรียญทองโอลิมปิก (IMO)” เหนือกว่า Gemini DeepThink

(2 ธ.ค. 68) บริษัท DeepSeek จุดกระแสวงการ AI ด้านคณิตศาสตร์อีกครั้ง ด้วยการปล่อยโมเดลใหม่ DeepSeek-Math-V2 แบบโอเพนซอร์สบนแพลตฟอร์ม Hugging Face พร้อมประกาศว่าโมเดลนี้มีความสามารถด้านพิสูจน์โจทย์คณิตศาสตร์ระดับ “เหรียญทองโอลิมปิกคณิต (IMO)” และเหนือกว่า Gemini DeepThink ในหลายชุดทดสอบ เป้าหมายไม่ใช่แค่ให้ AI ตอบโจทย์ถูก แต่ให้ “คิดเป็น ตรวจตัวเองเป็น และยอมรับว่าตัวเองผิดได้”

DeepSeek-Math-V2 ถูกพัฒนาต่อยอดจาก DeepSeek-V3.2-Exp-Base และสานต่อจากรุ่นก่อนอย่าง DeepSeek-Math-7B ที่เคยสร้างชื่อเมื่อปีที่แล้ว ด้วยขนาดแค่ 7 พันล้านพารามิเตอร์แต่ทำคะแนนทัดเทียม GPT-4 และ Gemini-Ultra ในหลายเบนช์มาร์ก ขณะเดียวกันก็เปิดตัวเทคนิค GRPO ที่ช่วยดันสกิล reasoning ทางคณิตให้ดีขึ้นอย่างชัดเจน โดยรุ่นใหม่อย่าง V2 จึงถูกจับตาว่าจะพา AI คณิตไปไกลแค่ไหน

ในบทความวิจัย DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning ทีมวิจัยชี้ให้เห็นข้อจำกัดของงาน AI คณิตส่วนใหญ่ในปัจจุบัน ที่มักใช้ “คำตอบสุดท้ายถูกหรือผิด” เป็นรางวัลหลักในการฝึกโมเดล โดยไม่ตรวจว่าขั้นตอนเหตุผลระหว่างทางถูกต้องหรือไม่ วิธีนี้อาจทำให้คะแนนบนชุดทดสอบอย่าง AIME หรือ HMMT แตะเพดาน ไม่ตอบโจทย์งานที่ต้องพิสูจน์อย่างเข้มงวด เช่น ทฤษฎีบททางคณิต ที่ต้องการการให้เหตุผลทีละขั้น

คำตอบของ DeepSeek คือการหันมาเน้น “ตรวจสอบกระบวนการให้เหตุผล” และสร้างกรอบ self-verifiable reasoning ขึ้นมา ระบบนี้มี 3 บทบาทหลักที่เปรียบเทียบง่าย ๆ ได้กับ “นักเรียน–ครู–หัวหน้าครู” ขั้นแรกคือการฝึก “ผู้ตรวจข้อสอบ” หรือโมเดลตรวจพิสูจน์ (proof verifier) ให้ให้คะแนนกระบวนการพิสูจน์เป็น 0, 0.5 หรือ 1 คะแนน พร้อมเขียนคำอธิบายว่าตรงไหนดี ตรงไหนพลาด ไม่ใช่แค่เช็กว่าคำตอบถูกหรือผิด

จากนั้น DeepSeek เพิ่มชั้นความเข้มด้วย “เมตาเวอริฟิเคชัน” หรือการให้ “หัวหน้าครู” มาตรวจงานของครูอีกที เพราะพบว่าบางครั้งโมเดลผู้ตรวจอาจหักคะแนนผิดที่ หรือชี้จุดผิดที่ไม่มีอยู่จริง จึงมีโมเดลอีกตัวมาคอยตรวจว่า คอมเมนต์ของผู้ตรวจมีเหตุผลหรือไม่ ตรงกับวิธีทำจริงหรือเปล่า ช่วยลดอาการ “หลอน” ของ AI เวลาวิจารณ์คำตอบคณิตศาสตร์

บทบาทสุดท้ายคือการฝึก “นักเรียนที่สะท้อนตัวเองได้” หรือโมเดลสร้างคำตอบ (generator) ซึ่งต้องไม่เพียงแค่เขียนวิธีทำ แต่ยังต้องเขียน “ประเมินตัวเอง” ต่อท้าย ให้คะแนนตัวเองแบบเดียวกับผู้ตรวจ (0 / 0.5 / 1) แนวคิดสำคัญคือระบบรางวัลที่ให้โบนัสกับความซื่อสัตย์ — ถ้าทำผิดแต่กล้ายอมรับและชี้จุดผิดของตัวเอง จะมีการให้รางวัลมากกว่าโมเดลที่ทำผิดแต่ยังอวดดีว่าตัวเองถูก

DeepSeek ปิดวงจรทั้งหมดด้วยลูปอัตโนมัติ ให้ “นักเรียน” สร้างวิธีทำจำนวนมากในโจทย์เดียวกัน จากนั้นให้ “ครู” และ “หัวหน้าครู” ร่วมกันโหวตคัดกรองวิธีทำที่ถูกต้องและโจทย์ที่ยากเป็นพิเศษ เพื่อนำกลับมาฝึกซ้ำทั้งฝั่งผู้ตรวจและผู้สร้างคำตอบ ผลลัพธ์คือโมเดล DeepSeekMath-V2 ที่ทำคะแนนระดับเหรียญทองใน IMO 2025 และ CMO 2024 และได้เกือบเต็ม 118/120 ในการทดสอบสไตล์ Putnam 2024 พร้อมแสดงให้เห็นว่ากรอบ self-verifiable reasoning เป็นทิศทางที่ใช้งานได้จริงสำหรับการผลักดัน AI คณิตศาสตร์ยุคใหม่

สรุป วิธีของ DeepSeekMath-V2 ถือเป็นการขยับจาก “เอาคำตอบถูกไว้ก่อน” ไปสู่ “ตรวจเข้มทั้งกระบวนการให้เหตุผล” ลดการพึ่งพารีวอร์ดแบบสุดท้ายอย่างเดียวแบบ RL รุ่นเก่า ๆ และช่วยลดปัญหา AI มโนคำอธิบายผิด ๆ ขณะเดียวกัน การปล่อยโมเดลและโค้ดแบบโอเพนซอร์สก็เปิดโอกาสให้นักวิจัยและนักพัฒนาเข้ามาทดลองต่อยอด ทั้งในงานคณิตศาสตร์และงานอื่น ๆ ที่ต้องการการให้เหตุผลแบบเข้มข้นในอนาคต