Yakın geleceğimizde pazarlama ve ulusal güvenlik gibi alanlar başta olmak üzere birçok farklı sektörde ciddi farklılıklar yaratması beklenen derin öğrenme algoritmaları, birkaç yıldır görsel tanımada (Facial Recognition ve Computer Vision gibi kavramlardan bahsedebiliriz) aktif olarak kullanılıyor ve sürekli seviye atlayarak, yapay zeka uygulamalarının da kapsamını genişletiyor.
Fotoğraflardaki nesneleri ve insanları tanıma becerileri sürekli artmış ve özellikle son bir yılda oldukça fazla kullanılmaya başlanmıştı. Farklı alanlarda çekilen ve sonra kaybolan, asla ulaşamadığımız fotoğrafları tek bir platform üzerinde toplamayı hedefleyen Reminis App; görsel manipüle etme becerilerini oldukça yukarı taşıyan Adobe ve çevre taramaları yaparak şehir güvenliğini sağlamaya çalışan Ekin Teknoloji bu uygulamalara güzel birer örnek.
Öncelikle Neural Network (Bu örnekte Convolutional Neural Network (CNN)) algoritmaları geliştirildi ve görsellerin tanınmasında yeni bir seviyeye geçildi. Bu algoritma sayesinde yapay zeka sistemler bir fotoğrafı katmanlarına ayırarak tanımaya başladı. Sonrasında veritabanındaki diğer görsellerle karşılaştırarak, gördüğü şeyin ne olduğunu bilmesi gerekiyordu. Tavuğu görebiliyordu ancak tavuk olduğunu öğrenmesi için veritabanında yüzlerce fotoğraf olması gerekiyordu. İnternet ve her yerde bulunan sensörler-kameralar sağolsun, bu veritabanını oluşturmak fazla zor olmadı ve bilgisayarlı görme (computer vision) teknolojileri belirli bir seviyeye kadar yükseldi.Hareketsiz görsellerde bile henüz yolun başında olmamıza rağmen, videolarda da sahneyi tanımamız gerekiyordu ve bu konuda araştırmalar devam etti.
MIT ve IBM Watson AI LAB; videolarda sadece nesneleri değil aynı zamanda gerçekleşen olayı ve eylemleri tanımayı ve anlamayı geliştirmek için Moments in Time Dataset adını verdikleri bir web sitesi-veritabanı açtılar. Şimdilik 3 saniyelik uzunluktaki 1 milyon farklı videodan oluşan bu veritabanında tüm videolar etiketli şekilde paylaşılıyor.
Yaklaşık 1 ay önce 8 milyon farklı video barındıran bir dataset yayınlayan Youtube ve topluluk desteği alarak dataset oluşturan Twentybn gibi örnekler de hareketli görüntülerde olayı ve eylemleri tanıyabilen yapay zekaların gelişmesinde ciddi katkı sağlayacak.
Fotoğrafları tanıma bu kadar gelişmişken videolar neden bu kadar geride kaldı? sorusuna “videoların fazla yer kaplaması ve işlenmesi sırasında daha fazla enerji gerektirmesinden dolayı” şeklinde cevap verebiliriz tooltip tip=”Tabii ki videoların her karede en az 25 kare barındırması vb. zorlukları var. Fotoğrafa kıyasla çok daha zor bir kaynak ancak dosya boyutu bu kadar büyük olmasa muhtemelen araştırmalar çok daha gelişmiş olabilirdi.”]sanırım[/tooltip]. Bugün binlerce görseli kolayca internet ortamına yükleyebilirken tek bir videoyu upload etmek o kadar da kolay değil. Daha temiz bir cümleyle, video dosyalarının transferi fotoğraf dosyalarına göre çok daha zor olduğu için video üzerinde araştırmalar, denemeler yapmak pek de kolay değil. İşte bu yüzden Moments in Time Dataset’te bulunan tüm videoların 3 saniye olması bir avantaj.
Mesela Twentybn’in paylaştığı bu 20 GB’lık datasette, toplam 27 farklı etikete sahip 148,092 video bulunuyor. Bunlardan 14,743’ü yapay zekayı test amaçlı yüklenmiş videolar. Yani yapay zekanın sisteme daha önce yüklenen 133.349 videoyu öğrenip öğrenemediğini test eden videolar.
Örnek vermek gerekirse; “Swiping Left” etiketiyle yüklenmiş 5,160 video bulunuyor. Bu videolarda insanlar sola kaydırma hareketini yapıyor. Yaklaşık 5 bin adet videoyu alan yapay zeka, bu hareketin ne olduğunu çok daha iyi kavramış oluyor ve buna benzer bir video gördüğünde tanımlamasını daha sağlıklı yapabilecek konuma geliyor.
When humans perform tasks and solve problems, they rely heavily on their common sense knowledge about the world. A detailed understanding of the physical world is however still largely missing from current applications in artificial intelligence and robotics. Our mission is to change that. We are developing new, ground-breaking technology that allows machines to perceive the world like humans.
İnsanlar görevleri yerine getirirken ve sorunları çözerken, dünyayla ilgili olguları ( deneyimleri) kullanırlar. Robotik ve yapay zekanın mevcut uygulamalarında fiziksel dünyayla ilgili ayrıntılı anlayış sistemi halen büyük oranda eksik. Misyonumuz bunu değiştirmek. Makinelerin dünyayı insanlar gibi algılamasını sağlayan, yeni ve çığır açan bir teknoloji geliştiriyoruz.
Peki videoların tanınması tam olarak nasıl örneklerde karşımzıa çıkabilir diye düşünelim. Sınırsız sayıda kullanım alanı olacaktır mutlaka ama şöyle birkaç belirli örnekten bahsedelim.
Mesela; bir yapay zeka videodaki görüntüyü gerçekten anlayabilecek konuma gelirse; bundan birkaç yıl sonra ev asistanları, evdeki yaşlı insanların ilacını alıp almadığını veya durumunun iyi olup olmadığını anlayabilir. Yine görme engelli insanlar; akıllı bir gözlük veya akıllı bir lens sayesinde yaşamını kolaylaştırabilir. Eğer bu konuda beklenen gelişmeyi sağlayabilirsek güvenlik kameraları sadece sahneyi kaydetmek yerine gerçekten izlerse, şu an sahip olduğumuz tüm teknolojiler birkaç seviye birden atlayabilir. Mesela güvenlik kamerası, herhangi bir insan tanığın olmadığı ortamlarda gerçekleşen olayları otomatik olarak algılayabilir ve polise tam olarak “Hırsızlık gerçekleşiyor”, “3 kişi kavga ediyor, 2’si bıçaklı birisi silahlı” gibi ihbarlarda bulunabilir.
Kaynak: MIT Technology Review