Pandemi sürecinin başlaması ile birlikte birçok şirket iş toplantılarını Zoom veya Skype gibi çevrim içi görüntülü görüşme programları ile yürütmeye başladı; eğitim kurumları öğrenciler ve öğretmenleri bu platformlarda bir araya getirmeye devam etti. Bu görüşmelerde sık sık anlık ses ve görüntü kesilmeleri yaşanırken konuşmacıların yetersiz ekipmanları yüzünden birçok yayında ses kalitesi düşük seviyelerde kalabiliyor.
Princeton Üniversitesi‘ndeki araştırmacılar bu sorunu çözebilecek bir yapay zekâ geliştirdi. Düşük kaliteli sesleri sanki profesyonel bir stüdyoda kayıt edilmiş gibi berrak ve net bir sese çeviren yapay zekâ, aynı zamanda konuşma sırasında arka plan gürültüsünü filtreleyebiliyor ve yankıyı ortadan kaldırıyor.
Makine öğrenimini kullanan yapay zekâ düzelttiği seslerin verilerinden beslenerek ses düzeltme sürecini otomatikleştiriyor. Bu sayede konuşmacı herhangi bir kayıt cihazı kullanmadan eş zamanlı bir şekilde daha berrak bir sese kavuşuyor. İş toplantılarının ve okul derslerinin daha verimli geçmesini sağlamasının yanı sıra konuşmacıların harici bir ses ekipmanına ihtiyacını ortadan kaldıran yapay zekâ ekonomik açıdan maliyetleri azaltmaya yardımcı oluyor.
Hifi-Gan Metodu
Hifi-Gan adı verilen metot sayesinde şimdiye kadar ses kalitesini artırmaya yönelik çalışmalardan farklı olarak yapay sinir ağları ve makine öğrenmesi kullanılıyor. Metodun tanıtıldığı makalenin baş yazarlarından olan Bilgisayar Bilimleri Yüksek Lisans öğrencisi Jiaqi Su daha önce kullanılan metodun, kalitesi artırılmış sesleri dinleyici için çok monoton ve sıkıcı hale getirdiğini dile getiriyor. Hifi-Gan ise sesi iyileştirirken jeneratör ve ayırıcı isimli iki farklı işlemi kullanıyor.
Jeneratör temizlenmiş ses kayıtlarını oluştururken ayırıcı ise bu kayıtların gerçek bir stüdyo kaydı mı yoksa jeneratör tarafından mı oluşturulduğunu anlamaya çalışıyor. Bu iki işlem aynı anda çalıştırılıyor ve sesin kalitesi sürekli artırılması amaçlanıyor. Jeneratör işleminin amacı sesi olabildiğince iyi temizlemek. Ayırıcının amacı ise her sesi olabildiğince doğru ayırt etmek. Kullanılan Hifi-Gan adlı bu metot ile birbirini sürekli test eden ve rekabet eden bir öğrenme algoritması oluşturuluyor.
Düzenlenmiş Sesin Normal Hali ile Karşılaştırıldığı Bir Video
Kullanıcılardan tam puan aldı
Sistemin kendisini denetlemesi kadar gerçek kullanıcıların temizlenmiş sesi nasıl duyduğu da büyük önem taşıyor. Hifi-Gan ile üretilen seslerin kullanıcı tarafından nasıl duyulduğunu test etmek için kaynak toplama platformu olan Amazon Mechanical Turk kullanıldı. Toplamda 28.000 dinleyici Hifi-Gan ile temizlenmiş sesleri dinleyerek test etti ve onlara puan verdi. Test sonuçlarına göre yarıştıkları diğer beş ses temizleme programını geride bırakan Hifi-Gan testin en başarılısı oldu.
Her gün milyonlarca kişinin farklı amaçlar için kullandığı platformlarda herhangi bir ek ekipmana ihtiyaç duymadan ses kalitesinin artırılabilir olması sevindirici bir gelişme. Kullanılan yapay zekânın makine öğrenmesini aktif bir şekilde kullanması sayesinde her konuşmacının sesini ve konuştuğu ortamı bir veri setine çevirerek kişiye özel bir ses kalitesi yükselticiye evrilebilme ihtimali heyecan verici.
Kaynak : Tech Xplore