AI & MACHINE LEARNING

Google เปิดตัว Gemini 3.1 Flash TTS โมเดลแปลงข้อความเป็นเสียงที่ปรับแต่งได้ละเอียดขึ้น

Google DeepMind15 Apr 2026

1 min read

Key Takeaways

Gemini 3
1 Flash TTS มอบการควบคุมเสียงพูดที่ละเอียดระดับ Audio Tags และรองรับการใช้งานจำนวนมากด้วยต้นทุนที่คุ้มค่า

ทำไมเรื่องนี้ถึงสำคัญ

ช่วยให้การสร้างเสียงจาก AI ก้าวข้ามขีดจำกัดด้านความเป็นธรรมชาติและการปรับแต่งสไตล์การพูด ซึ่งมีความสำคัญต่อการพัฒนาแอปพลิเคชันที่ต้องการปฏิสัมพันธ์ด้วยเสียงที่มีคุณภาพสูงในระดับสากล

Google แนะนำ Gemini 3.1 Flash TTS ซึ่งเป็นโมเดล Text-to-Speech (TTS) รุ่นล่าสุดที่ออกแบบมาเพื่อเพิ่มคุณภาพเสียงและความเป็นธรรมชาติในการสื่อสาร โดยจุดเด่นสำคัญคือการนำระบบ Audio Tags มาใช้เพื่อให้ผู้พัฒนาสามารถควบคุมสไตล์การพูด จังหวะ และการเน้นเสียงได้ผ่านการสั่งงานด้วยภาษาธรรมชาติ ช่วยให้เสียงที่สร้างขึ้นมีความเป็นเอกลักษณ์และตอบโจทย์การใช้งานที่หลากหลาย

โมเดลนี้ได้รับการจัดอันดับอยู่ในกลุ่มที่มีประสิทธิภาพสูงแต่ต้นทุนต่ำ (most attractive quadrant) จากการทดสอบของ Artificial Analysis และรองรับการทำงานในกว่า 70 ภาษา นอกจากนี้ยังมาพร้อมกับระบบลายน้ำ SynthID เพื่อระบุตัวตนของเสียงที่สร้างโดย AI เพื่อความปลอดภัยและการป้องกันข้อมูลเท็จ ปัจจุบันเปิดให้ทดสอบแล้วผ่าน Gemini API, Google AI Studio และ Vertex AI

สรุปประเด็นหลัก

รองรับการควบคุมสไตล์และจังหวะการพูดด้วย Audio Tags ในกว่า 70 ภาษา

ได้รับคะแนน Elo สูงถึง 1,211 จาก Artificial Analysis สะท้อนความสมจริงของเสียง

มีการฝังลายน้ำ SynthID เพื่อตรวจสอบและป้องกันเนื้อหาปลอมแปลง

นวัตกรรมและเทคโนโลยี

models

ระบบควบคุมผ่าน Audio Tags

ช่วยให้ผู้ใช้สั่งการปรับเปลี่ยนโทนเสียงและจังหวะการพูดได้โดยตรงภายในข้อความด้วยคำสั่งภาษาปกติ

security

การฝังลายน้ำ SynthID

เทคโนโลยีลายน้ำที่มองไม่เห็นเพื่อตรวจสอบและยืนยันว่าเสียงถูกสร้างขึ้นด้วย AI

Developer Impact

นักพัฒนาสามารถสร้างประสบการณ์เสียงที่ซับซ้อนขึ้นในแอปพลิเคชันผ่าน Gemini API โดยใช้ Audio Tags เพื่อคุมอารมณ์และบุคลิกของเสียงได้แม่นยำกว่าเดิม

Keywords

#gemini #text-to-speech #ai studio #synthid #google

Original Source

อ่านข้อมูลเพิ่มเติมจากแหล่งข่าวหลัก

Google DeepMind