โมเดล AI ในปัจจุบันฉลาดขึ้นมาก แต่ก็แลกมากับความต้องการหน่วยความจำที่มหาศาล โดยเฉพาะในช่วงการใช้งานจริง (Inference) ที่ต้องใช้พื้นที่เก็บข้อมูลบริบท หรือที่เรียกว่า KV Cache เป็นจำนวนมาก ล่าสุด SK Hynix ได้เสนอทางออกผ่านงานวิจัยบน IEEE ด้วยแนวคิดสถาปัตยกรรมไฮบริดที่ชื่อว่า H3

ปัญหาของชิป AI ตัวท็อปในตลาดตอนนี้คือการพึ่งพาหน่วยความจำความเร็วสูงอย่าง HBM เพียงอย่างเดียว ซึ่งแม้จะเร็วแต่ก็มี “ความจุ” จำกัด สถาปัตยกรรม H3 จึงเข้ามาแก้เกมด้วยการจับ HBF (High Bandwidth Flash ซึ่งเป็นการนำชิป 3D NAND มาเรียงซ้อนกัน) มาวางประกบคู่กับ HBM บนฐานวงจรเดียวกัน โดยแบ่งงานกันชัดเจนให้ HBM จัดการข้อมูลที่เปลี่ยนแปลงรวดเร็ว ส่วน HBF ทำหน้าที่เป็นคลังเก็บข้อมูลขนาดใหญ่ที่เน้นการอ่านอย่างเดียว
ผลการทดสอบจำลองการทำงานร่วมกับ GPU B200 พบว่าระบบนี้มีบัฟเฟอร์ช่วยพรางความหน่วงของ Flash ได้ดีเยี่ยม ทำให้ประสิทธิภาพต่อการใช้พลังงานเพิ่มขึ้นสูงสุดถึง 2.69 เท่า และสามารถดันสเกลงานให้ใหญ่ขึ้นได้ถึง 18.8 เท่า เมื่อต้องรัน KV Cache ขนาด 10 ล้านโทเค็น
แม้การนำ Flash memory มาใช้แบบนี้จะมีความท้าทายทางวิศวกรรมเรื่องอายุการใช้งานและการจัดการความหน่วง แต่ยักษ์ใหญ่อย่าง Samsung, SK Hynix และ SanDisk ก็กำลังจับมือกันพัฒนามาตรฐานนี้ โดยตั้งเป้าใช้งานจริงเชิงพาณิชย์ในปี 2027 ซึ่งท้ายที่สุดแล้ว H3 จะไม่ได้มาแทนที่ HBM แต่จะมาเป็นจิ๊กซอว์ชิ้นสำคัญที่ช่วยอุดช่องโหว่เรื่องความจุให้ระบบ AI ในอนาคต
คำศัพท์เทคนิค
AI Inference: คือ ขั้นตอนการนำโมเดล AI ที่ผ่านการ Training มาแล้ว ไปใช้งานจริง เพื่อวิเคราะห์ข้อมูลใหม่ที่ไม่เคยเห็นมาก่อน และสร้างผลลัพธ์ออกมา เช่น การแยกแยะประเภท หรือการสร้างข้อความ พูดสั้นๆ ก็คือ Training คือการสร้างสมอง ส่วน Inference คือการนำสมองนั้นมาคิดและใช้งาน
KV Cache (Key-Value Cache): พื้นที่ความจำระยะสั้นที่ AI ใช้ “จดจำบริบท” ของบทสนทนาหรือข้อมูลก่อนหน้า เพื่อให้ไม่ต้องเสียเวลาประมวลผลคำเก่าซ้ำไปซ้ำมา KV เสมือน “กระดาษทด” คอยเก็บผลลัพธ์ที่ผ่านไปแล้วเอาไว้ เพื่อให้ AI สามารถดึงข้อมูลส่วนนี้ไปใช้คำนวณเพื่อสร้างคำถัดไปได้ทันทีโดยไม่ต้องย้อนกลับไปประมวลผลประโยคเดิมซ้ำตั้งแต่ต้นใหม่ทั้งหมด ซึ่งช่วยลดภาระการประมวลผลของชิปและทำให้ AI สามารถพิมพ์ข้อความตอบกลับได้อย่างรวดเร็ว แต่ก็แลกมากับการกินพื้นที่หน่วยความจำ (RAM/VRAM) ที่จะขยายตัวใหญ่ขึ้นเรื่อย ๆ ตามความยาวของข้อความในบทสนทนานั้น
Interposer: แผงวงจรตัวกลางที่เปรียบเสมือน “สะพานเชื่อม” หรือ “ทางด่วนพิเศษ” ให้ชิปหลาย ๆ ชนิด เช่น ชิปประมวลผลและชิปความจำ สามารถวางเรียงชิดติดกัน และส่งผ่านข้อมูลหากันด้วยความเร็วสูงมาก โดยแผ่น Interposer ที่มักทำจากซิลิคอน จะมีเส้นสายวงจรขนาดจิ๋วที่อัดแน่นอยู่ภายใน ทำหน้าที่เชื่อมต่อชิปหลาย ๆ ตัวที่วางเรียงอยู่ข้างกัน เช่น การเชื่อมชิปประมวลผล AI เข้ากับชิปหน่วยความจำ HBM ให้สามารถรับส่งข้อมูลหากันได้โดยตรงด้วยความเร็วสูงมหาศาล มีความหน่วงต่ำ และประหยัดพลังงานมากกว่าการเชื่อมต่อผ่านแผงวงจรแบบดั้งเดิม
ManuTalkThai ศูนย์รวมข่าว Industrial Technology ออนไลน์ในประเทศไทย








