
Bilgisayarla işlenmiş sesler bugünlerde her yerde karşımıza çıkıyor; kullanıcılara evin diğer alanlarında olanları bildiriyor veya araç kullanırken kişiye yol tarifi sunuyor. Yine de, Alexa, Siri, Google Assistant ve diğer hizmetler hala yapmacık, robota benzeyen seslerle konuşuyor
Seattle merkezli WellSaid Labs adlı şirket, insan sesine fazlasıyla benzeyen sentetik sesler yaratmak için seslendirme sanatçılarını ve yapay zekayı birleştiriyor. Şirket, son bir yıldır üzerinde çalıştığı sesli yanıt sisteminin insan sesine diğer sentetik seslerden daha fazla benzediğini söylüyor. Şirkete göre bunun sebebi, ses modelini eğitirken konuşma hızı, telaffuz ve ses tonu gibi çeşitli değişkenlerin katı bir şekilde kontrol edilmemesi.
WellSaid Labs CEO’su Matt Hocking CNN Business’a verdiği demeçte “İşlemlerin sonucunda yaratmaya çalıştığımız ses, yüksek derecede anlatımsal ve gerçek gibi.” dedi.
Ancak WellSaid Labs, sesli asistan pazarında yönetimi devralmayı planlamıyor. Hocking’in sözlerine göre, şirket bunun yerine yarattığı sesleri reklam, pazarlama ve çevrimiçi eğitim kurslarında kullanmak isteyenlere satmayı umuyor.
Şirket, müşterilerin kullanabileceği insan sesine benzer bir dizi ses yaratıyor ve çok çeşitli yapay seslerin yaratımında kullanılabilecek farklı veri setleri yaratmak için seslendirme sanatçılarıyla birlikte çalışmayı umuyor.
WellSaid Labs, sahte reklamlardaki kadın sesini yaratmak için öncelikle bir seslendirme sanatçısına Wikipedia’dan alınan makaleleri okuttu. Bu kayıtlar, yapay bir sinirsel (neural) ağı eğitmek için kullanılacak veri setini oluşturdu ve bu sistemin yapısı, beyindeki nöronlar baz alınarak gevşek bir şekilde biçimlendirildi.
Yayınlanan videolarda sanatçıların sesiyle yapay zeka aracılığıyla üretilen sesleri ayırt etmenin neredeyse imkansız olduğunu görüyoruz. Şirket, yapay zekanın seslendirmeyi kulağa doğal gelecek bir şekilde yapabilmesi için herhangi bir ön hazırlığa veya açıklamaya gerek olmadığını söylüyor. Ve aynı metin sisteme iki defa koyulduğunda farklı sonuçlar elde ediliyor.
Şirketin CFO’su Michael Petrochuk’un söylediğine göre, şu anda bir metnin okunması yaklaşık dört saniye sürüyor. Ancak bu model, uzun metinleri yorumlamak ve seslendirmek için yaratılmadı; sistem birkaç cümleye kadar seslendirebiliyor, ancak uzun metinlerin okunabilmesi için bölünmesi gerekiyor.
Peki, yapay seslerin insan sesine bu kadar benzer (hatta insan sesinden ayırt edilmesi neredeyse imkansız) olduğu durumda kullanıcılar gerçek bir insanın konuşmasını dinlemedikleri konusunda bilgilendirilmeli mi? Google’ın 2018 yılında sunduğu Duplex, insan konuşmasına fazlasıyla benzeyen yapay zekanın kimliğini açıklamamasıyla eleştirilmişti.
Carnegie Mellon Üniversitesi’nde dil teknolojileri profesörü olan Alan Black, seslendirme sistemlerinin en azından reklamlarda kullanıldıkları durumlarda kimliklerini açıklamalarının zorunlu olmadığını savunuyor. Black, “Bana kalırsa, çoğu kişi izledikleri videolardaki görüntü ve seslerin bazı işlemlerden geçtiğinin az çok farkında.” dedi.