Google DeepMind สร้างความก้าวหน้าครั้งสำคัญในโลกหุ่นยนต์ ด้วยการเปิดตัว Gemini Robotics On-Device ซึ่งเป็นเวอร์ชันของโมเดลหุ่นยนต์ที่สามารถทำงานได้โดยตรงบนฮาร์ดแวร์ของหุ่นยนต์เอง โดยไม่จำเป็นต้องเชื่อมต่อกับคลาวด์อีกต่อไป การประมวลผลทั้งหมดเกิดขึ้นในตัวหุ่นยนต์ ทำให้หุ่นยนต์สามารถปฏิบัติงานในสภาพแวดล้อมที่การเชื่อมต่ออินเทอร์เน็ตไม่เสถียรหรือไม่สามารถเข้าถึงได้เลย

สถาปัตยกรรม VLA เพื่อการทำงานที่รวดเร็วและตอบสนอง
โมเดล Vision-Language-Action (VLA) นี้สร้างขึ้นบนพื้นฐานของ Gemini Robotics-ER โดยมีสถาปัตยกรรมที่โดดเด่นด้วยแกนหลักของ VLA ที่ทำหน้าที่เหมือน “สมอง” ตีความสิ่งที่หุ่นยนต์มองเห็นและตัดสินใจเลือกการกระทำที่เหมาะสม ในขณะที่ Action Decoder ในตัวจะแปลงการตัดสินใจเหล่านั้นให้เป็นการเคลื่อนไหวจริงในโลกภายนอก วงจรการรับรู้สู่การกระทำทั้งหมดใช้เวลาเพียง 250 มิลลิวินาที ซึ่งรวดเร็วเพียงพอสำหรับการควบคุมที่ราบรื่นและตอบสนองได้ดี
ประสิทธิภาพที่แข็งแกร่งแม้ไม่มีคลาวด์
ในการทดสอบ Gemini Robotics On-Device สามารถจัดการงานต่างๆ เช่น การรูดซิปกระเป๋า, การพับเสื้อผ้า และการรินน้ำสลัด ซึ่งทั้งหมดนี้ทำได้โดยไม่จำเป็นต้องเชื่อมต่อกับเซิร์ฟเวอร์ภายนอก Google ระบุว่าโมเดลนี้มีประสิทธิภาพเหนือกว่าระบบอื่นๆ ที่ทำงานแบบ Locally บนงานการจัดการวัตถุที่แตกต่างกันถึงเจ็ดงาน
แม้ว่าการรันโมเดล Locally จะต้องแลกมาด้วยบางอย่าง เช่น สำหรับงานการให้เหตุผลที่ซับซ้อนเป็นพิเศษ โมเดลเวอร์ชันคลาวด์จะให้อัตราความสำเร็จที่สูงกว่า อย่างไรก็ตาม Google กล่าวว่าโมเดล On-Device ให้ประสิทธิภาพที่แข็งแกร่งเพียงพอสำหรับสถานการณ์การใช้งานจริงมากมาย
Google DeepMind ยังได้จัดเตรียม ชุดพัฒนา (Developer Kit) เพื่อให้การปรับใช้งานง่ายขึ้น แทนที่จะใช้ตัวอย่างการฝึกอบรมหลายล้านครั้ง หุ่นยนต์สามารถเรียนรู้ภารกิจใหม่ๆ ได้จากเพียงการสาธิต 50 ถึง 100 ครั้งเท่านั้น นักพัฒนายังสามารถทำการทดสอบในโปรแกรมจำลองได้โดยไม่จำเป็นต้องมีฮาร์ดแวร์จริง
หนึ่งโมเดลสำหรับหุ่นยนต์หลากหลายประเภท
แม้ว่าโมเดลพื้นฐานจะได้รับการฝึกอบรมจากหุ่นยนต์ ALOHA เป็นหลัก แต่ก็สามารถปรับใช้ได้กับระบบที่หลากหลาย ยกตัวอย่างเช่น ในหุ่นยนต์อุตสาหกรรม Franka โมเดลนี้ประสบความสำเร็จถึง 63 เปอร์เซ็นต์ในงานที่คุ้นเคย โมเดลนี้ยังสามารถควบคุมหุ่นยนต์ฮิวแมนนอยด์อย่าง Apollo ซึ่งมีลักษณะคล้ายมนุษย์ได้อีกด้วย
ระบบนี้ยังได้ติดตั้ง เลเยอร์ความปลอดภัยหลายชั้น โดยมีการตรวจสอบคำสั่งสำหรับอันตรายที่อาจเกิดขึ้น และทำงานร่วมกับการป้องกันฮาร์ดแวร์เพื่อป้องกันการชนกัน อย่างไรก็ตาม Google DeepMind ยังคงแนะนำให้ทำการทดสอบอย่างละเอียดก่อนที่จะปรับใช้ระบบในสภาพแวดล้อมจริง
ปัจจุบัน การเข้าถึง Gemini Robotics On-Device สามารถทำได้ผ่าน โปรแกรมทดสอบแบบปิด นักพัฒนาสามารถสมัครเข้าร่วม Trusted Tester Program ในขณะที่ Google DeepMind รวบรวมข้อมูลป้อนกลับและปรับปรุงระบบอย่างต่อเนื่อง
ที่มา : https://the-decoder.com/google-deepmind-makes-robots-independent-of-the-cloud-with-gemini-on-device/