Semantic Scholar adlı bilimsel literatür arama motoru, [tooltip tip=”Doğal dil işleme ya da kısaca NLP (Natural Language Processing), bilgisayarların insan dilini anlamasına, yorumlamasına ve işlemesine yardımcı olan bir yapay zekâ dalıdır. NLP, insan iletişimi ve bilgisayar anlayışı arasındaki boşluğu doldurmak için Bilgisayar Bilimi ve Bilişimsel Dil Bilimi dahil olmak üzere birçok disiplinden yararlanmaktadır.”]Doğal Dil İşleme (NLP)[/tooltip] alanındaki ilerlemeler yardımıyla araştırmacılara ciddi faydalar sağlıyor.

Allen Institute for Artifical Intelligence (AI2) adlı Yapay Zekâ Enstitüsü yapay zekâ destekli akademik makale arama motoru Semantic Scholar’ı bu Kasım ayında tanıttı. AI2‘nin soyut modeli, dönüştürücü olarak bilinen bir tür yapay sinir ağını kullanıyor. 2017 yılında bulunan yapay sinir ağı mimarisi, OpenAI‘ın GPT-3′ü de dahil olmak üzere Doğal Dil İşleme alanında çarpıcı gelişmelerin önünü açan bu yapı hakkında detaylı bilgi için bu yazımıza göz atabilirsiniz. Çok uzun akademik makalelerin, tek cümlelik özetlere sığdırılması, tl;dr yaklaşımının destekçilerini sevindirebilir.

tl;dr

Henüz yalnızca Bilgisayar Bilimi alanındaki makaleler hakkında bir cümlelik açıklamalar sunan Semantic Scholar hizmeti, tl;dr ile bağdaştırılıyor. Nedir bu tl;dr derseniz, bir haber veya makale okumak için tıkladıktan sonra uzunluğundan gözü korkup kapatanların, too long, did’t read yani çok uzun, okumadım demesi oluyor. Geçmiş yıllarda popülerliği yüksek blogların, yerini Instagram gibi hızlı tüketim mecralarına bırakmasını düşünecek olursak, tl;dr yaklaşımının birçok alanda kendini gösterdiği anlaşılabilir.

Akademik çalışmalar için aylarca literatür taraması yapan araştırmacıların ise tl;dr deme şansı pek olmadığı için tam da bu nedenle Semantic Scholar gibi yapay zekâ destekli arama motorları öne çıkıyor. Bu proje kapsamında Doğal Dil İşleme için genel anlamda iki temel yaklaşım bulunuyor. Bunlardan ilki olan Çıkarma (Extraction), metnin ana fikrini kelimesi kelimesine yansıtan bir cümle ya da cümle grupları arama anlamına geliyor. İkinci yaklaşım olan Soyutlayıcı (Abstractive) ise yeni cümleler üretmeye odaklanıyor. Mevcut Doğal Dil İşleme sistemlerinin kısıtlı yeteneği sebebiyle genellikle Çıkarma teknikleri kullanılsa da son yıllardaki gelişmeler soyutlayıcı yaklaşımın etkisini artırdı. Bu proje özelinde ise süreç şu şekilde ilerledi:

Semantic Scholar 

Proje kapsamında öncelikle dönüştürücünün İngilizce ile tanışmasını sağlayan araştırmacılar, ön eğitim (pre-training) ile modeli güçlendirdi ve yalnızca özetleme fonksiyonuna odaklanması için eğitti.

Öncelikle akademik makale ve tek cümlelik özetleri çift haline getirildi ve yaklaşık 5400 adet çift barındıran SciTldr adlı bir veri seti oluşturuldu. Özet cümleler için genellikle araştırmacıların kendi makalelerini tek cümle ile özetledikleri, halka açık bir platform olan OpenReview‘a başvuruldu. Birkaç bin çift bu yolla elde edildikten sonra, akademik hakemler tarafından özetlenmiş makalelerin daha da yoğunlaştırılması ile kısaltılması için kişiler işe alındı.

Bu ana veri setini desteklemek için 20.000 çift akademik makale ve başlığı ile yeni bir set oluşturuldu. Başlıkların kendi başına makaleyi özetleyen bir yapıda olmasının, modelin sonuçlarını iyileştireceği fikri deneyler ile kanıtlandı. Şöyle ki, başlıklar hâlihazırda makalenin en iyi özetlerinden birini sağlıyor ve bu bilginin kullanılması ile tek cümlelik özetlerin inşasında kolaylıklar sağlanabilecek.

Anlam korunurken kelimeden tasarruf ediliyor

Benzer özetleme çalışmalarına kıyasla öne çıkan bu projenin başarısını sayılarla anlatmak mümkün. Veri setinde yer alan makaleler ortalama 5.000 kelimeden oluşuyor. Bunların tek cümlelik özetleri ise ortalama 21 kelimeden oluşuyor. Bu demek oluyor ki, her makale yaklaşık 238 kat kısaltılabiliyor. Bu alandaki rakiplerden en başarılısı, 36.5 kat kısaltma yeteneği ile oldukça geride kalıyor.

Gelecekte ne vaat ediyor?

Araştırma ekibi yöneticisi ve Washington Üniversitesi’nde araştırma üyesi  Daniel Weld, mevcut modelde üretilen özet cümleler ve makale başlıklarında yüksek benzerlik sorununu aşmak için başlık ile yüksek benzerlik gösteren çıktıların cezalandırılarak elenmesi üzerine çalışacaklarını açıklıyor. İlerleyen süreçte Bilgisayar Bilimi alanındaki makaleler dışında yeni disiplinlerin de eklenmesi ile zenginleşmesi amaçlanan arama motoru, birden fazla dokümanı aynı anda özetleyebilir hale gelecek ve bir bakıma araştırmacılar için kişiselleştirilmiş bir yapay zekâ araştırma danışmanı niteliğine bürünecek.

Kaynak: MIT Tech Review

Share:

administrator

Boğaziçi Üniversitesi Endüstri Mühendisliği mezunu Öykü, gastronomiye ve mutfak sanatlarına meraklı, ekonomi ve politikaya ilgili ve aynı zamanda veri çağında geleceğin nerede olduğunu araştırıyor.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir