➤ อธิบายเพิ่มเติม
0:00 – intro
0:18 – Neuro Sama คือใคร
0:43 – ความหมายของ AI
0:53 – อันนี้กูเล่นมุกโว้ย
1:05 – Domain Problem ของ AI
1:24 – Machine learning คืออะไร
1:47 – วิเคราะห์ระบบของ Neuro Sama
2:40 – MVP คืออะไร
3:04 – Sponsor
3:41 – เลือกทำ AI แค่ส่วนเดียวพอ
4:30 – เริ่มสร้าง Text to Speech
4:45 – ใช้ VITS สำหรับ TTS
5:00 – เตรียม Data
5:40 – TTS แบบ Multilingual
6:00 – Phoneme
6:22 – Train พร้อม Data ไทย
6:40 – Debug
7:00 – เลิกใช้ Phoneme ตาม Paper
7:08 – Results
7:25 – AI แย่งงาน
ปกติจะเขียน ช่วงอธิบายยาวมากๆ เพราะทำ SEO เนอะ รอบนี้มี timestamp ละ ขอสรุปสั้นๆละกัน
– ช่วงแรกอยากอธิบายให้คนเข้าใจเว้ยว่า AI ไม่ใช่ AI ที่พวกเราเห็นจริงๆ แต่เป็นแค่หน่วยย่อย เหมือน Function ทาง Computer อันเดียวเท่านั้น เช่น แปลง text เป็นเสียง, แปลง text เป็น text เป็นต้น
– ต่อมาคือเรื่องของ ความหมาย AI จริงๆ มันกว้างมาก if-else, Searching, Planning ก็เป็น AI เช่นกัน แต่เราเรียกว่า Rule based AI
– AI ภาษาอังกฤษ คือเรื่องง่าย เพราะ มีคนทำไว้แล้ว ใช้ได้เลย เอามา train ต่อแปปเดียวได้ แต่ภาษาไทย ยากกว่ามาก เพราะ กฏ มันเยอะกว่าเช่น สวัสดี ทำไมไม่อ่าน สะวัดสะดี? ทำไท “ส” อ่าน สอ ไม่อ่าน สะ แล้วสวัสดี ทำไมไม่อ่าน สอ วัด สอ ดี?
– เราใช้ model VITS ตัวนี้ดีกว่า Tacotron 2 ตรงที่เร็ว และ มีความหลากหลายมากกว่า เพราะ ใช้คนละเทคนิคกัน ที่เหลือไปอ่าน Paper ละกันนะ
– Multilingual อันนี้ตัว VITS มันทำให้อยู่แล้วค่อนข้างง่าย มันมีส่วนที่ จำเสียง, จำตัวอักษร แยกกัน ทำให้สามารถพูดหลายภาษาได้ นอกจากนี้ยังทำ Voice Conversion ได้
– Phoneme ปกติจะใช้กันเพราะว่า มันสามารถแปลงให้เป็นการพูดอะไรก็ได้ แต่ภาษาไทยบางคำมันผิดโง่เกิน ถึงจะไม่เยอะก็เถอะ เลยไม่อยากใช้ + กับไปอ่าน Paper ของ YourTTS ที่บอกว่าเขาไม่ใช้ ก็เลยทำตาม
– การไม่ใช้ Phoneme ข้อดีคือ เราถูก 100% แน่ๆ แต่แลกกับ Model มีขนาดใหญ่ขึ้นมาก ถ้าทำทุกภาษาคือ GG เรื่องขนาด model ได้เลย
– สุดท้าย ก็เอามาทดสอบ จริงๆ ยัง Train ไม่เสร็จ ค่า Val Loss ยังไม่หยุดลงเลย แต่อยาก เอาออกมาโชว์ก่อน
➤ Code ส่วนลดจาก futureskill
มันจะมี 2 code นะ ถ้าใครอยากเรียนหลายๆ Course ก็กดรายปีได้
Buffet Pakage Code : AFFXTechCast
Coures Pakage Code : AFFXTechCast1
(แพ็คเกจ 1 ปี ลด 50% จาก 9948 เหลือ 4974 บาท)
แพ็คเกจรายปี : https://bit.ly/3RKAiNI
แพ็คเกจรายคอร์ส : https://bit.ly/3CF0FAx
➤ ช่องทางติดตาม
facebook : https://www.facebook.com/TechcastNeedSponsor
discord: https://discord.gg/9MQuBn6Nxn
➤ support me
promptpay : https://bit.ly/3m3uH5p
➤ มาเป็น Member และ Sponsor ให้ Techcast ได้แล้ววันนี้
ด้วยการสมัครเป็นสมาชิกเพื่อเข้าถึงสิทธิพิเศษอีกมากมาย
https://www.youtube.com/channel/UCZ1xUPnSDPRtz76nGNBcaIA/join
➤ Music Credit
Music: Evan King – ENERGETIC, UPBEAT
https://www.youtube.com/channel/UCT1ZkP03V18LmOj8zbyP-Dw
https://contextsensitive.bandcamp.com/
➤ Ref.
text to speech
https://en.wikipedia.org/wiki/Speech_synthesis
coqui tts
https://github.com/coqui-ai/TTS
MoeTTS
https://huggingface.co/spaces/skytnt/moe-tts
AI คือ?
Machine learning
Deep learning