Yapay zekanın yakıtı veridir. Bu verilerin uygun şekilde toplanması ve bir set haline getirilmesi de emek verilmesi gereken bir süreçtir.

Peki yapay zeka ile ilgilenen yazılımcılar bu verileri nereden topluyor?

Spanglish

Birden fazla dil bilen toplumlarda -ve insanlarda- bir cümlenin içerisinde iki farklı dilden, tamamen kurallı şekilde, farklı ögeler kullanmak günlük alışkanlıklardan birisi diyen Microsoft’a bağlı araştırmacılar iki dili aynı cümle içinde akıcı şekilde kullanabilen chatbotlar üzerine çalışıyor.

Spanglish: İspanyolca ve İngilizce’nin harmanlanması. (Bknz: Turklish – 21. Yüzyıl Gerçeği: Çok Dillilik)

Code-mixing adı verilen bu yöntemin makineye öğretilmesi için yeterli sayıda Spanglish metni bulamayan (çünkü, bu tarz çok dilli konuşmalara sadece sözlü olarak gerçekleşiyor ve yazılı bir metin havuzu yok) araştırmacılar Microsoft Bing’in çeviri hizmetini kullanarak İngilizce ve İspanyolca metinleri karıştıran bir uygulama yazdılar. Program, kurulan cümlelerdeki kelimelerin farklı dillerden gelmesine rağmen dil bilgisi olarak doğru olmasını sağlamasına rağmen araştırma şu ana kadar olumlu bir sonuç vermedi.

Araştırmacılar, çalışmalara devam ederek, yakın gelecekte çok dilli chatbotlar hayata getirmeyi amaçlıyor.

Yemek Tarifleri

Yemek tarifleri yemek yapması gereken her insan -özellikle öğrenciler- için hayat kurtarıcı bir içerik olduğu gibi yapay zeka için de biçilmiş bir kaftan. Çünkü, belirli bir dil yapısı ile yazılmış tarifler yanında da mutlaka bir fotoğraf bulundurur.

Hacettepe Üniversitesi’nden araştırmacıların topladığı 20.000 illustre edilmiş yemek tarifini barındıran dev dataset yapay zeka araştırmalarında görüntü-metin geçişlerinde kullanılabilecek bir kaynak olarak da görülebilir.

RecipeQA adı verilen araştırmada yapay zekaya içerikte bulunan yazı ve görsellerle ilgili belirli sorular soruluyor ve işin ilginçliği burada başlıyor. Yapay zeka, sorulan sorunun cevabını hem metinde hem de görselde arıyor. Çünkü görseller ile metinler tamamen aynı veriyi sunmak yerine birbirini tamamlayan bir yapıya sahipler.

Daha Kısa Cümleler

Google, yapay zekaların düz yazı alanında da aktif olabilmesini istiyor. Bunun için AI takımı, uzun cümlelerle aynı anlama gelen kısa cümlelerin karşılaştırıldığı, bugüne kadar görülmüş en büyük dataseti oluşturdu.

Vikipedi’nin düzenleme geçmişinden alınan veriler sayesinde oluşan dataset ile bir yapay zeka, 60 kat daha doğru cümle-özet ilişkisi kurarken 90 kat daha fazla kelime bilgisine sahip oldu. Yeni dataset ile eğitilen makine öğrenimi algoritmaları, %91 doğruluk (buradaki yüzde değeri, yapay zekanın çıkarttığı özetin, orijinal cümleyi dil bilgisel olarak ne kadar karşıladığıdır) oranına ulaştı. Karşılaştırmak gerekirse; önceki dataset ile sadece %32 doğruluğa ulaşabilirken iki dataseti birleştirip eğitilen bir yapay zeka ile %95 gibi ciddi bir oran yakalandı.

Kaynak ve ileri okuma: TechnologyReview

Share:

administrator

1997’de Nevşehir-Ortahisar’da doğdu. Marmara Üniversitesi’nde Basım Teknolojileri eğitimi görüyor. Gazeteciliğe ve doğru bilgi alma hakkına inanan Hasan, bir Onaran olarak sosyal inisiyatifin ve eğitimin gücüne inanıyor, geleceğin nerede olduğunu araştırıyor.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak.