อนาคตของการค้นหาด้วยเสียงกับ Google Audio Search จะเป็นไปได้มากน้อยขนาดไหน

จากผลทดสอบในช่วงแรกหลายที่ต่างก็กำลังถกเถียงกันว่าบริการค้นหาด้วยเสียงอย่าง Google Audio Search จะเกิดขึ้นและเป็นไปได้อย่างสมบูรณ์แบบมากน้อยแค่ไหน ซึ่งจากผลทดสอบเฟสแรกๆ ที่ทาง Google เป็นผู้เผยแพร่เองในบล็อกก็ได้ระบุว่าการค้นหาด้วยเสียงนั้นทำได้ยากกว่าที่คิด โดยรายละเอียดของการทดสอบนี้เห็นจากบทความที่เขียนโดย Tim Olson รองประธานอาวุโสของ KQED บริษัทสื่อชื่อดังจากประเทศสหรัฐอเมริกา ซึ่งทาง Google ได้ร่วมมือกับ KQED เพื่อพัฒนาเรื่องการค้นหาด้วยเสียงให้เป็นไปได้มากขึ้น และด้วยความช่วยเหลือของ KUNGFU.AI บริษัทผู้ให้บริการด้าน AI, Google และ KQED จึงได้ทำการทดสอบเพื่อกำหนดขั้นตอนการถอดเสียงด้วยวิธีที่รวดเร็วและปราศจากข้อผิดพลาด 

และเรื่องต่อไปนี้คือสิ่งที่พวกเขากำลังเจออยู่

 

ความยากของการค้นหาด้วยเสียง

อุปสรรคสำคัญที่สุดของการทำให้การค้นหาด้วยเสียงเป็นไปได้คือ ต้องแปลงเสียงเป็นข้อความก่อนจึงจะสามารถค้นหาและจัดเรียงได้ ซึ่งขณะนี้ยังไม่มีวิธีการถอดเสียงอย่างถูกต้องด้วยวิธีที่ช่วยให้หาเจอได้อย่างรวดเร็ว โดยวิธีเดียวที่จะสามารถค้นหาเสียงได้คือผ่านการถอดเสียงอัตโนมัติ ส่วนการถอดเสียงด้วยตัวเองจะใช้ความพยายามและกินเวลามาก ในขณะที่ Tim Olson เองก็ตั้งข้อสังเกตว่าค่าของความแม่นยำต้องสูงขนาดไหนสำหรับการถอดเสียงโดยเฉพาะอย่างยิ่งเมื่อต้องจัดทำค่าดัชนีเสียง ส่วนวิธีการแปลงเสียงพูดเป็นข้อความก็ยังไม่เป็นมาตรฐานนักในตอนนี้

 

ข้อจำกัดของเทคโนโลยี แปลงเสียงพูดเป็นข้อความ ในปัจจุบัน

Google ทำการทดสอบร่วมกับ KQED และ KUNGFU.AI โดยใช้เครื่องมือแปลงเสียงพูดเป็นข้อความกับชุดเสียงข่าวต่างๆ ก็ทำให้พบกับข้อจำกัดในความสามารถของ AI ในการระบุคำนามหรือคำเฉพาะที่เหมาะสม คำเฉพาะบางคำเราจำเป็นต้องเข้าใจบริบทเพื่อให้ระบุความหมายได้อย่างถูกต้อง ซึ่ง AI ไม่ได้มีจุดนี้เสมอไป 

ทาง Olson ยกตัวอย่างเสียงข่าวจาก KQED ซึ่งมีคำพูดเฉพาะของหน่วยงานต่างๆ ที่เกี่ยวข้องกับบุคคล สถานที่ องค์กรต่างๆ ในภูมิภาค Bay Area อย่างเช่น การที่ผู้พูดใช้ตัวย่อ “CHP สำหรับ California Highway Patrol และ “the Peninsula สำหรับพื้นที่บริเวณ ซาน ฟรานซิสโก และ ซาน โฮเซ ซึ่งคำพูดเหล่านี้นั้นยังยากเกินกว่าที่ AI จะเข้าใจและระบุได้ เมื่อไม่เข้าใจคำเฉพาะเหล่านี้ AI เองก็จะคาดเดาคำที่ใกล้เคียงที่สุด ซึ่งส่วนมากวิธีการแก้ปัญหานี้ก็ไม่โอเคและเป็นที่ยอมรับเท่าไหร่นัก เพราะการแปลหรือการถอดเสียงคำผิดไป อาจจะทำให้ความหมายของรูปประโยคทั้งหมดเปลี่ยนไปได้เลย

 

จะเกิดอะไรขึ้นต่อไป

การค้นหาด้วยเสียงจะดำเนินต่อไป โดยมีแผนที่จะทำให้เทคโนโลยีสามารถเข้าถึงได้ง่ายและเป็นวงกว้างมากขึ้นเมื่อได้รับการพัฒนา โดยทาง David Stoller หัวหน้าพาร์ทเนอร์ฝ่ายข่าวสารและการเผยแพร่ของ Google กล่าวว่าเทคโนโลยีนี้จะถูกแชร์อย่างเปิดเผยเมื่อการทำงานของโปรเจกต์นี้เสร็จสมบูรณ์ 

Tim Olson จาก KQED กล่าวว่าโมเดลแมชชีนเลิร์นนิงในปัจจุบันมักไม่ได้เรียนรู้จากความผิดพลาด ซึ่งทำให้มนุษย์อาจต้องก้าวเข้ามาแก้ไขตรงนี้ โดยขั้นตอนต่อไปคือการทดสอบลูปของข้อเสนอแนะที่ทางห้องข่าวช่วยปรับปรุงโมเดลแมชชีนเลิร์นนิง โดยจะระบุข้อผิดพลาดในการถอดเสียงทั่วไป

“เรามั่นใจว่าในอนาคตอันใกล้ การปรับปรุงรูปแบบเสียงพูดเป็นข้อความเหล่านี้ จะช่วยแปลงเสียงเป็นข้อความได้เร็วขึ้น และช่วยให้ผู้คนสามารถใช้การค้นหาด้วยเสียงได้อย่างมีประสิทธิภาพมากขึ้น” ทิ้งท้ายจาก Tim Olsen

 

ติดตามผลงานของเราได้ที่ GRASP ASIA

 

ขอบคุณที่มาข้อมูล: www.searchenginejournal.com