มิติใหม่โมเดล GenAI อะเมซอน เปิดตัว Amazon Nova

อะเมซอนดอทคอม (Amazon.com) เปิดตัว Amazon Nova ซึ่งเป็นโมเดลพื้นฐานรุ่นใหม่ที่มีความสามารถล้ำสมัยในการทำงานหลากหลายรูปแบบ พร้อมประสิทธิภาพคุ้มค่าราคาที่สุดในอุตสาหกรรมคลาวด์

โมเดล Amazon Nova จะให้บริการผ่าน Amazon Bedrock ประกอบด้วย 4 รุ่นคือ Amazon Nova Micro (โมเดลแปลงข้อความที่ทำงานได้รวดเร็ว) และ Amazon Nova Lite, Amazon Nova Pro และ Amazon Nova Premier (โมเดลที่สามารถประมวลผลได้ทั้งข้อความ รูปภาพ และวิดีโอ เพื่อสร้างข้อความ

นอกจากนี้ ได้เปิดตัวโมเดลพิเศษอีกสองตัว ได้แก่ Amazon Nova Canvas (สร้างภาพคุณภาพสูงระดับมืออาชีพ) และ Amazon Nova Reel (สร้างวิดีโอคุณภาพสูงระดับมืออาชีพ)

โรหิต ปราสาท รองประธานอาวุโส Artificial General Intelligence อะเมซอน เผยว่า ภายใน Amazon มีแอปพลิเคชันที่ใช้ Generative AI สร้างสรรค์กว่า 1,000 แอปพลิเคชันที่ดำเนินการอยู่ และได้เห็นภาพรวมของความท้าทายที่นักพัฒนาแอปพลิเคชันยังต้องเผชิญ

ดังนั้นจึงสร้างโมเดล Amazon Nova ขึ้นมาเพื่อช่วยแก้ไขความท้าทายเหล่านั้นสำหรับทั้งนักพัฒนาภายในและภายนอกองค์กร

โมเดลนี้ ไม่เพียงแต่ฉลาดและสร้างเนื้อหาที่น่าประทับใจเท่านั้นแต่จะมีความก้าวหน้าอย่างมีนัยสำคัญในด้านความเร็วในการตอบสนอง ความคุ้มค่า การปรับแต่งตามความต้องการ การเพิ่มประสิทธิภาพด้วยการค้นคืนข้อมูล (RAG) และความสามารถในการทำงานแบบอัตโนมัติ

ผลการทดสอบพบว่า Amazon Nova Micro มีประสิทธิภาพเทียบเท่าหรือดีกว่า Meta LLaMa 3.1 8B ในการทดสอบมาตรฐานทั้ง 11 รายการ และเหนือกว่า Google Gemini 1.5 Flash-8B ในการทดสอบมาตรฐานทั้ง 12 รายการ

นอกจากนี้ Amazon Nova Micro ยังมีความเร็วในการสร้างผลลัพธ์สูงถึง 210 โทเค็นต่อวินาที ซึ่งเป็นความเร็วที่สูงที่สุดในอุตสาหกรรมในปัจจุบัน ด้วยคุณสมบัตินี้ จึงเหมาะอย่างยิ่งสำหรับการใช้งานที่ต้องการการตอบสนองอย่างรวดเร็ว

Amazon Nova Lite มีประสิทธิภาพสูงเมื่อเทียบกับโมเดลอื่น ๆ ในระดับเดียวกัน โดยทำผลงานได้เทียบเท่าหรือดีกว่าคู่แข่งในหลายการทดสอบ เช่น ดีกว่า GPT-4o mini ของ OpenAI ใน 17 จาก 19 การทดสอบมาตรฐาน ดีกว่า Gemini 1.5 Flash-8B ของ Google ใน 17 จาก 21 การทดสอบมาตรฐาน และดีกว่า Claude Haiku 3.5 ของ Anthropic ใน 10 จาก 12 การทดสอบมาตรฐาน นอกจากความแม่นยำในการประมวลผลข้อความแล้ว Amazon Nova Lite ยังโดดเด่นในด้านการวิเคราะห์วิดีโอ แผนภูมิ และเอกสาร ซึ่งวัดผลโดยเกณฑ์มาตรฐานอย่าง VATEX, ChartQA และ DocVQA นอกจากนี้ Amazon Nova Lite ยังมีความสามารถสูงในการทำงานแบบอัตโนมัติ เช่น การเรียกใช้ฟังก์ชัน ซึ่งวัดผลโดย Berkeley Function Calling Leaderboard อีกทั้งยังเข้าใจองค์ประกอบภาพบนหน้าจอคอมพิวเตอร์และเว็บเบราว์เซอร์ได้ดี ซึ่งวัดผลโดย VisualWebBench (เกณฑ์วัดการรับรู้และตอบสนองต่อองค์ประกอบบนเว็บเบราว์เซอร์) และ Mind2Web (เกณฑ์วัดความสามารถของ AI ในการทำงานหลากหลายรูปแบบ)
Amazon Nova Pro แสดงผลการทดสอบที่เทียบเท่าหรือดีกว่าใน 17 จาก 20 การทดสอบมาตรฐานเมื่อเทียบกับ GPT-4o ของ OpenAI, เทียบเท่าหรือดีกว่าใน 16 จาก 21 การทดสอบมาตรฐานเมื่อเทียบกับ Gemini 1.5 Pro ของ Google และเทียบเท่าหรือดีกว่าใน 9 จาก 20 การทดสอบมาตรฐานเมื่อเทียบกับ Claude Sonnet 3.5v2 ของ Anthropic นอกจากความแม่นยำในการทดสอบด้านข้อความและการวิเคราะห์ภาพแล้ว Amazon Nova Pro ยังโดดเด่นในการปฏิบัติตามคำสั่งและการทำงานแบบหลายรูปแบบ (multimodal) ซึ่งวัดผลโดย Comprehensive RAG Benchmark (CRAG), Berkeley Function Calling Leaderboard และ Mind2Web

ปัจจุบัน Amazon Nova Micro, Lite และ Pro รองรับมากกว่า 200 ภาษา โดย Amazon Nova Micro รองรับข้อความนำเข้าได้ยาวถึง 128,000 คำ

ขณะที่ Amazon Nova Lite และ Amazon Nova Pro สามารถประมวลผลข้อความนำเข้าได้ยาวถึง 300,000 คำ หรือประมวลผลวิดีโอได้นานถึง 30 นาที ทั้งนี้ ในต้นปี 2568 Amazon มีแผนที่จะรองรับข้อความนำเข้าที่ยาวกว่า 2 ล้านคำ

ไฮไลต์สำคัญ :

มากับทั้งความรวดเร็วและคุ้มค่า, ผสานการทำงาน ร่วมกับ Amazon Bedrock ได้อย่างไร้รอยต่อ, รองรับการปรับแต่งเพื่อเพิ่มความแม่นยำ, การกลั่นกรองเพื่อสร้างโมเดลขนาดเล็กที่มีประสิทธิภาพสูง, เหมาะสำหรับการใช้งานแบบตัวแทนอัจฉริยะ มีความสามารถในการผลิตภาพ เนื้อหา รวมถึงวิดีโอระดับมืออาชีพ

ก้าวต่อไป: โมเดลแปลงเสียงสู่เสียงและโมเดลแปลงสื่อหลากรูปแบบ

Amazon มีแผนเปิดตัวโมเดล Amazon Nova ที่สามารถแปลงเสียงพูดเป็นเสียงพูดในช่วงไตรมาสแรกของปี 2568 โมเดลนี้จะพลิกโฉมการใช้งาน AI เพื่อการสนทนา โดยสามารถเข้าใจเสียงพูดในภาษาธรรมชาติ ตีความทั้งน้ำเสียงและจังหวะการพูด และสามารถโต้ตอบได้อย่างเป็นธรรมชาติคล้ายมนุษย์ด้วยความรวดเร็ว

นอกจากนี้ กำลังพัฒนาโมเดลใหม่ที่สามารถรับข้อมูลเข้าได้ทั้งข้อความ รูปภาพ เสียง และวิดีโอ และสามารถสร้างผลลัพธ์ออกมาในรูปแบบเหล่านี้ได้เช่นกัน โมเดล Amazon Nova ที่มีความสามารถในการแปลงข้อมูลระหว่างรูปแบบต่างๆ

หรือที่เรียกว่า “แปลงจากอะไรก็ได้เป็นอะไรก็ได้” หรือ “any-to-any” นี้ จะเปิดตัวในช่วงกลางปี 2568 โมเดลนี้จะช่วยให้การพัฒนาแอปพลิเคชันง่ายขึ้น โดยสามารถใช้โมเดลเดียวทำงานได้หลากหลาย เช่น แปลงเนื้อหาระหว่างรูปแบบต่าง ๆ แก้ไขเนื้อหา และสร้าง AI agent ที่เข้าใจและสร้างข้อมูลได้ทุกรูปแบบ