SK Hynix เปิด “H3” ตัวสถาปัตยกรรมหน่วยความจำไฮบริด ทลายขีดจำกัด AI Inference

โมเดล AI ในปัจจุบันฉลาดขึ้นมาก แต่ก็แลกมากับความต้องการหน่วยความจำที่มหาศาล โดยเฉพาะในช่วงการใช้งานจริง (Inference) ที่ต้องใช้พื้นที่เก็บข้อมูลบริบท หรือที่เรียกว่า KV Cache เป็นจำนวนมาก ล่าสุด SK Hynix ได้เสนอทางออกผ่านงานวิจัยบน IEEE ด้วยแนวคิดสถาปัตยกรรมไฮบริดที่ชื่อว่า H3

ปัญหาของชิป AI ตัวท็อปในตลาดตอนนี้คือการพึ่งพาหน่วยความจำความเร็วสูงอย่าง HBM เพียงอย่างเดียว ซึ่งแม้จะเร็วแต่ก็มี “ความจุ” จำกัด สถาปัตยกรรม H3 จึงเข้ามาแก้เกมด้วยการจับ HBF (High Bandwidth Flash ซึ่งเป็นการนำชิป 3D NAND มาเรียงซ้อนกัน) มาวางประกบคู่กับ HBM บนฐานวงจรเดียวกัน โดยแบ่งงานกันชัดเจนให้ HBM จัดการข้อมูลที่เปลี่ยนแปลงรวดเร็ว ส่วน HBF ทำหน้าที่เป็นคลังเก็บข้อมูลขนาดใหญ่ที่เน้นการอ่านอย่างเดียว

ผลการทดสอบจำลองการทำงานร่วมกับ GPU B200 พบว่าระบบนี้มีบัฟเฟอร์ช่วยพรางความหน่วงของ Flash ได้ดีเยี่ยม ทำให้ประสิทธิภาพต่อการใช้พลังงานเพิ่มขึ้นสูงสุดถึง 2.69 เท่า และสามารถดันสเกลงานให้ใหญ่ขึ้นได้ถึง 18.8 เท่า เมื่อต้องรัน KV Cache ขนาด 10 ล้านโทเค็น

แม้การนำ Flash memory มาใช้แบบนี้จะมีความท้าทายทางวิศวกรรมเรื่องอายุการใช้งานและการจัดการความหน่วง แต่ยักษ์ใหญ่อย่าง Samsung, SK Hynix และ SanDisk ก็กำลังจับมือกันพัฒนามาตรฐานนี้ โดยตั้งเป้าใช้งานจริงเชิงพาณิชย์ในปี 2027 ซึ่งท้ายที่สุดแล้ว H3 จะไม่ได้มาแทนที่ HBM แต่จะมาเป็นจิ๊กซอว์ชิ้นสำคัญที่ช่วยอุดช่องโหว่เรื่องความจุให้ระบบ AI ในอนาคต


คำศัพท์เทคนิค

AI Inference: คือ ขั้นตอนการนำโมเดล AI ที่ผ่านการ Training มาแล้ว ไปใช้งานจริง เพื่อวิเคราะห์ข้อมูลใหม่ที่ไม่เคยเห็นมาก่อน และสร้างผลลัพธ์ออกมา เช่น การแยกแยะประเภท หรือการสร้างข้อความ พูดสั้นๆ ก็คือ Training คือการสร้างสมอง ส่วน Inference คือการนำสมองนั้นมาคิดและใช้งาน

KV Cache (Key-Value Cache): พื้นที่ความจำระยะสั้นที่ AI ใช้ “จดจำบริบท” ของบทสนทนาหรือข้อมูลก่อนหน้า เพื่อให้ไม่ต้องเสียเวลาประมวลผลคำเก่าซ้ำไปซ้ำมา KV เสมือน “กระดาษทด” คอยเก็บผลลัพธ์ที่ผ่านไปแล้วเอาไว้ เพื่อให้ AI สามารถดึงข้อมูลส่วนนี้ไปใช้คำนวณเพื่อสร้างคำถัดไปได้ทันทีโดยไม่ต้องย้อนกลับไปประมวลผลประโยคเดิมซ้ำตั้งแต่ต้นใหม่ทั้งหมด ซึ่งช่วยลดภาระการประมวลผลของชิปและทำให้ AI สามารถพิมพ์ข้อความตอบกลับได้อย่างรวดเร็ว แต่ก็แลกมากับการกินพื้นที่หน่วยความจำ (RAM/VRAM) ที่จะขยายตัวใหญ่ขึ้นเรื่อย ๆ ตามความยาวของข้อความในบทสนทนานั้น

Interposer: แผงวงจรตัวกลางที่เปรียบเสมือน “สะพานเชื่อม” หรือ “ทางด่วนพิเศษ” ให้ชิปหลาย ๆ ชนิด เช่น ชิปประมวลผลและชิปความจำ สามารถวางเรียงชิดติดกัน และส่งผ่านข้อมูลหากันด้วยความเร็วสูงมาก โดยแผ่น Interposer ที่มักทำจากซิลิคอน จะมีเส้นสายวงจรขนาดจิ๋วที่อัดแน่นอยู่ภายใน ทำหน้าที่เชื่อมต่อชิปหลาย ๆ ตัวที่วางเรียงอยู่ข้างกัน เช่น การเชื่อมชิปประมวลผล AI เข้ากับชิปหน่วยความจำ HBM ให้สามารถรับส่งข้อมูลหากันได้โดยตรงด้วยความเร็วสูงมหาศาล มีความหน่วงต่ำ และประหยัดพลังงานมากกว่าการเชื่อมต่อผ่านแผงวงจรแบบดั้งเดิม

ที่มา: https://www.all-about-industries.com/sk-hynix-presents-hybrid-storage-architecture-for-better-ki-inference-a-73bfd0eb323c3a35bd0391c0571a7c59/

About pawarit

Check Also

Edge AI ในปี 2569: ปลดล็อกระบบอัจฉริยะที่ตอบสนองได้รวดเร็วยิ่งขึ้น ณ จุดประมวลผลปลายทาง [PR]

ท่ามกลางกระแสการเติบโตอย่างต่อเนื่องของปัญญาประดิษฐ์ในระบบนิเวศอิเล็กทรอนิกส์ทั้งหมด ปี 2569 กำลังจะกลายเป็นปีแห่งการกำหนดความก้าวหน้าครั้งสำคัญของ Edge AI หลังจากที่การฝึกฝนและการประมวลผลผลลัพธ์ของ AI บนระบบคลาวด์ได้พัฒนาไปอย่างรวดเร็วเป็นเวลาหลายปี ในปัจจุบันอุตสาหกรรมนี้กำลังมาถึงจุดเปลี่ยนครั้งสำคัญ โดยระบบอัจฉริยะประสิทธิภาพสูงเริ่มถูกย้ายมาอยู่บริเวณจุดประมวลผลปลายทางของเครือข่าย และเข้าไปอยู่ในระบบต่าง ๆ ที่จำเป็นต้องทำงานภายใต้ข้อจำกัดที่เข้มงวด ทั้งในด้านความหน่วงของเวลา …

ถอดรหัสขุมพลังเบื้องหลัง Levi’s ย้ายฐานทัพ ERP ขึ้นคลาวด์ Azure ปูทางสู่ยุค AI-Ready

สามเดือนหลังจากที่มีรายงานว่าแผนการยกเครื่องระบบ ERP ระดับโลกของ Levi Strauss & Co. คืบหน้าไปแล้วกว่า 60% ล่าสุด Microsoft ได้ออกมาเปิดเผยรายละเอียดเบื้องหลังความสำเร็จของการวางรากฐานคลาวด์ ที่ไม่เพียงแต่พลิกโฉมการทำงาน แต่ยังมีตัวเลขยืนยันถึงประสิทธิภาพที่พุ่งทะยานอย่างก้าวกระโดด