ไปไกลอีก AI ใหม่ของ Microsoft เลียนแบบเสียงคนได้ใน 3 วิ

Vall-E

ตั้งแต่ ChatGPT เกิดขึ้น มีความฉลาดจนโปรแกรมเมอร์หลายคนกังวลว่ามันจะมาแย่งงานเขา

ตอนนี้ มีข่าวให้กังวลเพิ่มขึ้นอีก… เมื่อทีมนักวิจัยของ Microsoft ได้เผย Ai ใหม่ที่สามารถเลียนแบบเสียงของมนุษย์ได้อย่างแม่นยำจากตัวอย่างเสียงที่มีความยาวเพียงสามวินาทีเท่านั้น.. อ่ะเด๊ะ.. แค่ 3 วิอ่ะ จะเก่งไปไหม

เครื่องมือ Ai สร้างเสียงของ Microsoft เรียกว่า Vall-E ได้รับการฝึกอบรมเกี่ยวกับการพูดมามากถึง 6 หมื่นชั่วโมง ซึ่งเนื้อหาส่วนใหญ่จะมาจากหนังสือเสียงสาธารณะของ LibriVox

Vall-E สร้างขึ้นบนเทคโนโลยีที่เรียกว่า EnCodec มันทำงานโดยการวิเคราะห์เสียงของบุคคล แบ่งข้อมูลออกเป็นส่วนประกอบ และใช้ประสบการณ์ที่ได้จากการฝึกอบรบเพื่อสังเคราะห์ว่า เสียงจะออกมาเป็นอย่างไรหากกำลังพูดในวลีที่แตกต่างกัน

แม้จะได้ยินตัวอย่างเพียงสามวินาที Vall-E ก็สามารถจำลองเสียงต่ำและน้ำเสียงที่สื่ออารมณ์ของผู้พูดได้แม่นยำมาก ๆ

จากการทดสอบ Vall-E มีประสิทธิภาพเหนือกว่าระบบ TTS แบบ zero-shot ที่ล้ำสมัย [AI ที่สร้างเสียงที่ตัวมันก็ไม่เคยได้ยิน] ในแง่ของความเป็นธรรมชาติของเสียงพูดและความคล้ายคลึงของผู้พูด

หากใครอยากลองฟัง เสียงที่ Vall-E เลียนแบบขึ้นใหม่ ลองดู Demo ได้ที่เว็บไซต์ของ GitHub ครับ > https://valle-demo.github.io/

ที่มาข้อมูล
techspot