Türk siyasetinin en önemli itiraflarından birisi şüphesiz Eski TBMM Başkanı Hüsamettin Cindoruk’un “Biz İnönü’nün, asker kaçağı olduğunu söylerdik ve de inanırlardı.” cümlesidir.
Yukarıdaki itiraf bize, ülke yönetiminde ve muhtemelen iş dünyasında algı yönetiminin ne kadar önemli olduğunu; uygun şartlar altında en absürt söylemlerin bile nasıl alıcı bulabileceğini gösteriyor. Peki ya en absürt yalanları söylerken elimizde bir video kaydı olsaydı? O zaman tarihi yeniden yazmak mümkün olur muydu?
MIT Open Learning tarafından hazırlanan ve geçtiğimiz hafta, insanoğlunun Ay’a ayak basmasının 51. yılını kutladığımız gün paylaşılan video; yapay zekâdan destek alan deepfake teknolojisinin gerçekleri çarpıtabilme gücünü tekrar gözler önüne sermiş oldu. Bu sefer, tarihin gidişatında da değişiklik yapıldığını görüyoruz.
Sadece bir aktör ve dönemin başkanı Richard Nixon’ın birkaç videosundan yararlanılarak hazırlanan deepfake video; 1969 yılında Ay görevine giden Apollo 11 aracının ve dolayısıyla Neil Armstrong, Buzz Aldrin ve Michael Collins üçlüsünden oluşan kafilenin başarısız olduğu senaryoyu gösteriyor ve Başkan Nixon’ı televizyonda teselli konuşmasını yaparken görüyoruz.
Richard Nixon’ın Deepfake Videosu Nasıl Hazırlandı?
Hikaye, 1969 yılında Apollo 11 görevinin başarısız olma ihtimali göz önünde bulundurularak Nixon’ın metin yazarı tarafından yazılan ancak görevin başarılı olmasının ardından rafa kaldırılan teselli konuşmasıyla başlıyor. Ortada böyle bir konuşma metni varsa, böyle bir konuşmanın var olmaması için bir sebep var mı? Belki de Nixon’ın artık hayatta olmaması, oldukça geçerli bir sebep olarak görülebilirdi. Ancak, yapay zekâ ve deepfake çağında, ölü olmak yeterli bir sebep değil.
Deepfake nedir?
Yapay zekânın bir alt dalı olan Derin Öğrenme (Deep Learning) bilimini kullanan deepfake; en basit anlatımıyla makinelerin; videosunu izlediği kişilerin jest, mimik ve vücut hareketlerini öğrenerek istediğimiz her şeyi o kişiye kopyalayabilmemizi sağlıyor. Buna dair örnekleri daha önce paylaşmıştık. Deepfake sayesinde dans etmeyi öğrenmeden kendi dans videonuzu çekebilir, favori filmlerinize alternatif sonlar yazabilir veya eski sevgilinizin intikam pornosuna kurban gidebilirsiniz.
MIT ekibi, Nixon’ın sahte videosunu oluşturmak için insan yüzünün hareketlerini anlayabilmesi adına Video Diyaloğunun Değiştirilmesi (Video Dialogue Replacement – VDR) tekniğini kullandı. Birçok farklı insan yüzünü inceleyen yapay zekâ, konuşurken yüzümüzün nasıl hareket ettiğini öğrendi. Böylece, istenen videoları kare kare gerçekçi bir şekilde yeniden yapılandırabildi.
Deepfake videosu oluşturabilmek için ne gerekiyor?
Bu sahte videoyu daha başarılı yapabilmek için “hedef video”ya ihtiyaç vardı. Yani Nixon’ın olabildiğince ciddi ve kasvetli olduğu bir video seçilmeliydi. İstifa konuşmasında karar kılındı.
Yapay zekâ, kasvetli video kayıtlarını izledikçe Nixon’ı daha iyi tanıdı ve jest-mimiklerini adeta ezberledi.
Ardından 1969 yılında hazırlanan ancak asla ihtiyaç duyulmayan alternatif metin bir aktör tarafından kameraya karşı okundu. Artık yeni, sahte Nixon’ın dudakları, el hareketleri, kafa çevirmesi ve diğer tüm detaylar mükemmel şekilde oluşturulmuştu. Nixon, daha önce hiç yapmamış olduğu bir konuşmayı şu an yapıyordu ancak bir eksik vardı: ses. Nixon’ın bu aşamadaki sesi pek de gerçekçi değildi.
Yapay zekâ, başta Vietnam açıklamaları olmak üzere Nixon’ın birçok farklı konuşmasını -hem Nixon’ndan hem de aktörden- dinleyerek tıpkı başkan gibi tonlama yapmasını ve sesini aynı şekilde seslendirmeyi öğrenmiş oldu.
Hem insanların mimiklerini, hem de Nixon’ın jestlerini ve ses tonunu öğrenen yapay zekâ, aktörün sesini Nixon’a uyarlamakta hiç zorlanmadı.
Günün sonunda; bir yapay zekânın bu sahte videoyu oluşturabilmesi için 4 ana adımı tamamlaması gerekti.
- Hedef video (Yeni senaryomuz hangi videonun üzerine eklenecek? Bu örnekte Nixon’ın istifa konuşması seçilmişti.)
- Nixon nasıl bir insandır? (Ciddi ve kasvetli iken hareketleri nasıldır?)
- İnsanlar nasıl konuşur? (Aktöre bu yüzden ihtiyaç vardı. Aktör konuşmayı okudu; yapay zekâ ise onu izledi. Hareketlerini, tonlamalarını, dudaklarını ve kaşlarını izleyerek mümkün olan en iyi eşleşmeyi sağladı.)
- Nixon’ın sesi. (Vietnam ile ilgili konuşmalarının dinletilme sebebi bu aşamaydı. Nixon ciddi ve kasvetli iken; yani Apollo 11 uzay aracının geri dönemediğini açıklarken nasıl bir ses tonu olurdu? sorusunu cevaplandı.)
Nixon’ın orijinal sesi –> Aktörün Nixon’ı taklit ettiği ses –> Aktörün Apollo 11 metnini okuyuşu –> yapay zekânın yarattığı Nixon sesi (bu 4 farklı ses örneğini bu adrese giderek, en alt kısımda dinleyebilirsiniz.)
Sonuç olarak; biz sahte olduğunu belirtmeden önce bu videoyu izlemiş olsanız gerçek olmadığını fark edebilir miydiniz? Açıkçası biz fark edemezdik. Hiç kimse, 2010 ve öncesine ait videolardaki küçük bozuklukları sorgulama ihtiyacı duymaz. Özellikle milenyum öncesi döneme ait bozuk görüntülerin hepsini normal karşılayarak inanma ihtimalimiz bir hayli yüksek. Bu, başta siyasetçiler olmak üzere birçok insanı zor duruma düşürecek örneklerin ortaya çıkmasına sebep olabilir.
Tam da bu yüzden Facebook, Google ve Twitter gibi platformlar deepfake’e önlem almak için harekete geçti.
Farklı deepfake örneklerine göz atmayı unutmayın:
Bu gönderiyi Instagram’da gör
Kaynak: moondisaster