เครื่องกำเนิดคำพูดของ AI “มีความเท่าเทียมของมนุษย์” นักวิทย์ เผย อันตรายเกินไปที่จะปล่อยออกมา
Microsoft ได้พัฒนาเครื่องกำเนิดเสียงพูดปัญญาประดิษฐ์ (AI) ใหม่ที่น่าเชื่อถือมากจนไม่สามารถเผยแพร่สู่สาธารณะได้ VALL-E 2 คือเครื่องกำเนิดเสียงพูดจากข้อความ (TTS) ที่สามารถจำลองเสียงพูดของมนุษย์ได้โดยใช้เสียงเพียงไม่กี่วินาทีนักวิจัยของ Microsoft กล่าวว่า VALL-E 2 สามารถสร้าง “เสียงพูดที่แม่นยำและเป็นธรรมชาติด้วยเสียงพูดจริงของผู้พูดเดิมซึ่งเทียบได้กับการแสดงของมนุษย์”
ในเอกสารที่เผยแพร่เมื่อวันที่ 17 มิถุนายนบนเซิร์ฟเวอร์พรีปรินต์ arXiv กล่าวอีกนัยหนึ่ง เครื่องกำเนิดเสียง AI ใหม่นี้น่าเชื่อถือพอที่จะทำให้เข้าใจผิดว่าเป็นคนจริงได้ — อย่างน้อยก็ตามคำกล่าวของผู้สร้าง “VALL-E 2 เป็นความก้าวหน้าล่าสุดในโมเดลภาษาโคเดกประสาทที่ถือเป็นก้าวสำคัญในการสังเคราะห์เสียงพูดจากข้อความ (TTS) แบบไร้จุดบกพร่องโดยบรรลุความเท่าเทียมกันของมนุษย์เป็นครั้งแรก”
นักวิจัย เขียนไว้ในเอกสารดังกล่าว นอกจากนี้ VALL-E 2 ยังสังเคราะห์เสียงพูดคุณภาพสูงได้อย่างสม่ำเสมอแม้กระทั่งประโยคที่มักมีความท้าทายเนื่องจากความซับซ้อนหรือวลีที่ซ้ำซากความเท่าเทียมของมนุษย์ในบริบทนี้หมายความว่าเสียงพูดที่สร้างโดย VALL-E 2 นั้นมีคุณภาพเทียบเท่าหรือดีกว่าเสียงพูดของมนุษย์ในเกณฑ์มาตรฐานที่ Microsoft ใช้ เอ็นจิ้น AI สามารถทำได้โดยการรวมคุณสมบัติหลักสองอย่างเข้าด้วยกัน ได้แก่ “การสุ่มตัวอย่างโดยคำนึงถึงการทำซ้ำ” และ “การสร้างแบบจำลองโค้ดแบบกลุ่ม”
การสุ่มตัวอย่างโดยคำนึงถึงการทำซ้ำช่วยปรับปรุงวิธีที่ AI แปลงข้อความเป็นเสียงพูดโดยระบุการทำซ้ำของ “โทเค็น” ซึ่งเป็นหน่วยภาษาขนาดเล็ก เช่น คำหรือส่วนของคำโดยป้องกันไม่ให้เกิดการวนซ้ำของเสียงหรือวลีอย่างไม่สิ้นสุดระหว่างกระบวนการถอดรหัส กล่าวอีกนัยหนึ่ง คุณสมบัตินี้ช่วยเปลี่ยนรูปแบบเสียงพูดของ VALL-E 2 ทำให้ฟังดูลื่นไหลและเป็นธรรมชาติมากขึ้นในขณะเดียวกัน
การสร้างแบบจำลองโค้ดแบบกลุ่มช่วยปรับปรุงประสิทธิภาพโดยลดความยาวของลำดับ หรือจำนวนโทเค็นแต่ละตัวที่แบบจำลองประมวลผลในลำดับอินพุตเดียววิธีนี้ช่วยให้ VALL-E 2 สร้างเสียงพูดได้เร็วขึ้น และช่วยจัดการกับปัญหาต่างๆ ที่เกิดขึ้นจากการประมวลผลเสียงยาวๆ ได้
นักวิจัยใช้ตัวอย่างเสียงจากไลบรารีเสียงพูด LibriSpeech และ VCTK เพื่อประเมินว่า VALL-E 2 จับคู่การบันทึกเสียงของผู้พูดได้ดีเพียงใด นอกจากนี้ พวกเขายังใช้ ELLA-V ซึ่งเป็นกรอบการประเมินที่ออกแบบมาเพื่อวัดความแม่นยำและคุณภาพของเสียงพูดที่
สร้างขึ้น เพื่อพิจารณาว่า VALL-E 2 จัดการงานสร้างเสียงพูดที่ซับซ้อนมากขึ้นได้อย่างมีประสิทธิภาพเพียงใดนักวิจัยเขียนว่า “การทดลองของเราซึ่งดำเนินการกับชุดข้อมูล LibriSpeech และ VCTK แสดงให้เห็นว่า VALL-E 2 เหนือกว่าระบบ TTS แบบ zero-shot ก่อนหน้าในด้านความทนทานของเสียงพูด ความเป็นธรรมชาติ และความคล้ายคลึงของผู้พูด
ซึ่งเป็นระบบแรกที่บรรลุความเท่าเทียมกันของมนุษย์ในเกณฑ์มาตรฐานเหล่านี้ “นักวิจัยระบุในเอกสารว่าคุณภาพของเอาต์พุตของ VALL-E 2
ขึ้นอยู่กับความยาวและคุณภาพของข้อความแจ้งเตือนเสียงพูดรวมถึงปัจจัยด้านสิ่งแวดล้อม เช่น เสียงรบกวนในพื้นหลังด้วย
.