AI "มีความเท่าเทียมของมนุษย์" นักวิทย์ เผย อันตรายเกินไป

เครื่องกำเนิดคำพูดของ AI “มีความเท่าเทียมของมนุษย์” นักวิทย์ เผย อันตรายเกินไปที่จะปล่อยออกมา

Microsoft ได้พัฒนาเครื่องกำเนิดเสียงพูดปัญญาประดิษฐ์ (AI) ใหม่ที่น่าเชื่อถือมากจนไม่สามารถเผยแพร่สู่สาธารณะได้ VALL-E 2 คือเครื่องกำเนิดเสียงพูดจากข้อความ (TTS) ที่สามารถจำลองเสียงพูดของมนุษย์ได้โดยใช้เสียงเพียงไม่กี่วินาทีนักวิจัยของ Microsoft กล่าวว่า VALL-E 2 สามารถสร้าง “เสียงพูดที่แม่นยำและเป็นธรรมชาติด้วยเสียงพูดจริงของผู้พูดเดิมซึ่งเทียบได้กับการแสดงของมนุษย์”

ในเอกสารที่เผยแพร่เมื่อวันที่ 17 มิถุนายนบนเซิร์ฟเวอร์พรีปรินต์ arXiv กล่าวอีกนัยหนึ่ง เครื่องกำเนิดเสียง AI ใหม่นี้น่าเชื่อถือพอที่จะทำให้เข้าใจผิดว่าเป็นคนจริงได้ — อย่างน้อยก็ตามคำกล่าวของผู้สร้าง “VALL-E 2 เป็นความก้าวหน้าล่าสุดในโมเดลภาษาโคเดกประสาทที่ถือเป็นก้าวสำคัญในการสังเคราะห์เสียงพูดจากข้อความ (TTS) แบบไร้จุดบกพร่องโดยบรรลุความเท่าเทียมกันของมนุษย์เป็นครั้งแรก”

นักวิจัย เขียนไว้ในเอกสารดังกล่าว นอกจากนี้ VALL-E 2 ยังสังเคราะห์เสียงพูดคุณภาพสูงได้อย่างสม่ำเสมอแม้กระทั่งประโยคที่มักมีความท้าทายเนื่องจากความซับซ้อนหรือวลีที่ซ้ำซากความเท่าเทียมของมนุษย์ในบริบทนี้หมายความว่าเสียงพูดที่สร้างโดย VALL-E 2 นั้นมีคุณภาพเทียบเท่าหรือดีกว่าเสียงพูดของมนุษย์ในเกณฑ์มาตรฐานที่ Microsoft ใช้ เอ็นจิ้น AI สามารถทำได้โดยการรวมคุณสมบัติหลักสองอย่างเข้าด้วยกัน ได้แก่ “การสุ่มตัวอย่างโดยคำนึงถึงการทำซ้ำ” และ “การสร้างแบบจำลองโค้ดแบบกลุ่ม”

การสุ่มตัวอย่างโดยคำนึงถึงการทำซ้ำช่วยปรับปรุงวิธีที่ AI แปลงข้อความเป็นเสียงพูดโดยระบุการทำซ้ำของ “โทเค็น” ซึ่งเป็นหน่วยภาษาขนาดเล็ก เช่น คำหรือส่วนของคำโดยป้องกันไม่ให้เกิดการวนซ้ำของเสียงหรือวลีอย่างไม่สิ้นสุดระหว่างกระบวนการถอดรหัส กล่าวอีกนัยหนึ่ง คุณสมบัตินี้ช่วยเปลี่ยนรูปแบบเสียงพูดของ VALL-E 2 ทำให้ฟังดูลื่นไหลและเป็นธรรมชาติมากขึ้นในขณะเดียวกัน

การสร้างแบบจำลองโค้ดแบบกลุ่มช่วยปรับปรุงประสิทธิภาพโดยลดความยาวของลำดับ หรือจำนวนโทเค็นแต่ละตัวที่แบบจำลองประมวลผลในลำดับอินพุตเดียววิธีนี้ช่วยให้ VALL-E 2 สร้างเสียงพูดได้เร็วขึ้น และช่วยจัดการกับปัญหาต่างๆ ที่เกิดขึ้นจากการประมวลผลเสียงยาวๆ ได้
นักวิจัยใช้ตัวอย่างเสียงจากไลบรารีเสียงพูด LibriSpeech และ VCTK เพื่อประเมินว่า VALL-E 2 จับคู่การบันทึกเสียงของผู้พูดได้ดีเพียงใด นอกจากนี้ พวกเขายังใช้ ELLA-V ซึ่งเป็นกรอบการประเมินที่ออกแบบมาเพื่อวัดความแม่นยำและคุณภาพของเสียงพูดที่

สร้างขึ้น เพื่อพิจารณาว่า VALL-E 2 จัดการงานสร้างเสียงพูดที่ซับซ้อนมากขึ้นได้อย่างมีประสิทธิภาพเพียงใดนักวิจัยเขียนว่า “การทดลองของเราซึ่งดำเนินการกับชุดข้อมูล LibriSpeech และ VCTK แสดงให้เห็นว่า VALL-E 2 เหนือกว่าระบบ TTS แบบ zero-shot ก่อนหน้าในด้านความทนทานของเสียงพูด ความเป็นธรรมชาติ และความคล้ายคลึงของผู้พูด

ซึ่งเป็นระบบแรกที่บรรลุความเท่าเทียมกันของมนุษย์ในเกณฑ์มาตรฐานเหล่านี้ “นักวิจัยระบุในเอกสารว่าคุณภาพของเอาต์พุตของ VALL-E 2
ขึ้นอยู่กับความยาวและคุณภาพของข้อความแจ้งเตือนเสียงพูดรวมถึงปัจจัยด้านสิ่งแวดล้อม เช่น เสียงรบกวนในพื้นหลังด้วย

ที่มา : https://www.livescience.com/technology/artificial-intelligence/ai-speech-generator-reaches-human-parity-but-its-too-dangerous-to-release-scientists-say

AI “มีความเท่าเทียมของมนุษย์” นักวิทย์ เผย อันตรายเกินไป

เครื่องกำเนิดคำพูดของ AI “มีความเท่าเทียมของมนุษย์” นักวิทย์ เผย อันตรายเกินไปที่จะปล่อยออกมา

By admin

You Missed

นักวิทยาศาสตร์ค้นพบ “สัมผัสที่ 6” ลึกลับที่ซ่อนอยู่ในกิ้งก่า

นักวิทยาศาสตร์ค้นพบหลักฐานของ ‘เวลาเป็นเชิงลบ’

ดาวเคราะห์น้อยที่ฆ่าไดโนเสาร์ไม่ได้มีแค่ลูกเดียว

โครงสร้าง “มนุษย์ต่างดาว” “มีบันได” ค้นพบใต้ทะเลบอลติก

เครื่องกำเนิดคำพูดของ AI “มีความเท่าเทียมของมนุษย์” นักวิทย์ เผย อันตรายเกินไปที่จะปล่อยออกมา

By admin

Related Post

You Missed