อาลีบาบาเผยโฉม Wan2.6 Series ให้ทุกคนสวมบทเป็นตัวเอกในวิดีโอได้ดั่งใจ

อาลีบาบาเปิดตัว Wan2.6 series วิวัฒนาการล่าสุดของโมเดลการสร้างสรรค์ภาพ (visual generation models) ที่ช่วยให้ครีเอเตอร์สามารถปรากฏตัวในวิดีโอที่สร้างโดย AI ในรูปลักษณ์และเสียงของตนเอง พร้อมความสามารถในการเล่าเรื่องผ่านมุมกล้องแบบ flexible multi-shot ซึ่งเป็นฟีเจอร์ใหม่ที่ได้รับการออกแบบมาเพื่อปลดล็อกการสร้างสรรค์คอนเทนต์ระดับมืออาชีพ ด้วยการรองรับการสนทนาที่มีหลายบุคคล (multi-person dialogue) ที่สมจริงยิ่งขึ้น และขยายระยะเวลาของวิดีโอเพื่อการเล่าเรื่องที่สมบูรณ์กว่าเดิม

Wan2.6 series มาพร้อมโมเดลการสร้างสรรค์ใหม่แบบ reference-to-video รวมถึงการอัปเกรดครั้งใหญ่ให้กับโมเดลเดิมที่มีอยู่ทั้งสี่โมเดล โดยโมเดล Wan2.6-R2V จะช่วยให้ผู้ใช้สามารถอัปโหลด reference video ที่มีทั้งรูปลักษณ์และเสียง จากนั้นใช้คำสั่งข้อความ (text prompts) เพื่อสร้างฉากใหม่ที่มีชีวิตชีวาโดยใช้ตัวละครเดิมเป็นตัวแสดง ผู้ใช้สามารถสร้างวิดีโอที่มีบุคคล สัตว์ วัตถุ หรือแม้แต่ตัวละครหลายตัวร่วมกัน โดยยังคงเอกลักษณ์ทั้งหน้าตาและน้ำเสียงจากต้นฉบับไว้อย่างครบถ้วน

ด้วยขีดความสามารถในการสร้างสรรค์งานด้าน AI แบบ multimodal reference generation ทำให้ Wan2.6-R2V เป็นโมเดล reference-to-video ตัวแรกของจีนที่ช่วยให้ผู้ใช้สามารถแทรกตัวเองหรือตัวละครอื่น ๆ เข้าไปในฉากที่สร้างโดย AI ได้อย่างกลมกลืนทั้งภาพและเสียงที่สอดคล้องและต่อเนื่อง ซึ่งจะเข้ามาพลิกโฉมวิธีการเล่าเรื่องของครีเอเตอร์ละครสั้น และช่วยลดขั้นตอนกระบวนการผลิตให้กระชับรวดเร็วยิ่งขึ้น

นอกจากนี้ Wan2.6 series ยังมีการเพิ่มประสิทธิภาพให้กับโมเดลด้านแปลงข้อความเป็นวิดีโอ  (Wan2.6-T2V), โมเดลแปลงภาพเป็นวิดีโอ (Wan2.6-I2V) และ โมเดลการสร้างสรรค์ภาพอีกสองโมเดล (Wan2.6-image และ Wan2.6-T2I)

โมเดลใหม่เหล่านี้นำเสนอความสามารถในการเล่าเรื่องแบบ intelligent multi-shot ซึ่งจะช่วยให้สามารถสร้างเรื่องราวที่ลึกซึ้งและสื่ออารมณ์ได้ดียิ่งขึ้น โดยยังรักษาความต่อเนื่องของภาพไว้ได้ตลอดทั้งเรื่อง รวมถึงการปรับปรุงความสามารถในการซิงค์ภาพและเสียง (audio-visual synchronization) และการสร้างภาพจากเสียง (audio-to-video) ทำให้ได้ฉากที่สมจริงพร้อมเอฟเฟกต์เสียงที่เต็มอิ่มยิ่งขึ้น

โมเดลเหล่านี้มอบพื้นที่ให้ครีเอเตอร์ได้พัฒนาเรื่องราวของตนได้มากขึ้น ด้วยการรองรับความยาววิดีโอสูงสุด 15 วินาที และเมื่อผนวกกับความแม่นยำในการทำตามคำสั่งที่ดีขึ้นและคุณภาพของภาพที่คมชัด ก็จะยิ่งช่วยให้ครีเอเตอร์สามารถผลิตคอนเทนต์สไตล์ภาพยนตร์ได้ในระดับมืออาชีพ

ความและภาพ (interleaved text-image output) ผ่านความสามารถในการใช้เหตุผลเชิงตรรกะขั้นสูง เพื่อสนับสนุนการเล่าเรื่องด้วยภาพที่ต่อเนื่องสอดคล้องกันมากขึ้น นอกจากนี้ยังมีความโดดเด่นในการควบคุมสไตล์ศิลปะได้อย่างแม่นยำ การสร้างภาพบุคคล (portraits) ที่สมจริงด้วยความเที่ยงตรงสูง และความสามารถในการแก้ไขภาพที่ยอดเยี่ยม อีกทั้งยังมีความเข้าใจคำสั่งข้อความ (prompts) ยาว ๆ ทั้งในภาษาจีนและภาษาอังกฤษอย่างลึกซึ้ง ช่วยให้ครีเอเตอร์สร้างคอนเทนต์ภาพที่สื่ออารมณ์และเก็บรายละเอียดเจตนารมณ์ทางศิลปะได้อย่างครบถ้วน

ผู้ใช้สามารถเข้าใช้งานโมเดลเหล่านี้ผ่าน Model Studio ซึ่งเป็นแพลตฟอร์มพัฒนา AI ของอาลีบาบา คลาวด์ และผ่านเว็บไซต์อย่างเป็นทางการของ Wan นอกจากนี้ ยังมีการรวมโมเดลดังกล่าวเข้ากับ Qwen App ซึ่งเป็นแอปพลิเคชัน AI เรือธงของอาลีบาบาอีกด้วย

Wan series เปิดตัวครั้งแรกเมื่อต้นปีที่ผ่านมา และได้รับการอัปเกรดอย่างต่อเนื่อง สะท้อนให้เห็นถึงความเป็นผู้นำและนวัตกรรมของอาลีบาบาในด้านเทคโนโลยีมัลติมีเดียที่ขับเคลื่อนด้วย AI