Teknolojilerin kesiştiği nokta!

Google ve Stanford’dan ortak yazılım

Google ve Stanford’dan ortak yazılım

Google ve Stanford Üniversitesi’nden araştırmacılar, bağımsız olarak üzerinde çalıştıkları bir projede fotoğrafları tanıyan bir yazılım geliştirdi. Bir bilgisayarın var olan bir fotoğrafta neler olduğunu anlatmasını mümkün kılan bu yazılım henüz yalnızca isimleriyle arayabildiğimiz görseller için geçerli. Görüntü tanıma yazılımlarının, her gün internete milyonlarca görsel yüklenmesi sayesinde hızla gelişmesi bekleniyor. Ancak bu henüz karmaşık fotoğraflar için erken bir beklenti.

Görüntüyü tanıma, eşleme ve bunu tanımlayıp adlandırarak akıcı, doğru bir dil ile ifade etmede çok önemli bir adım atılmış olsa da araştırmacılar, pek çok objenin yer aldığı bir görseldeki farklı nesnelerin birbiriyle nasıl ilişkilendirildiğini seçip bunları uygun dile doğru olarak tercüme etmeyi de mümkün kılmak için daha çok geliştirme yapmak konusunda hemfikir. Yapılan son çalışma ile basit görsellerde bu dili oluşturmak mümkün gibi görünüyor.

Bunun için de araştırmacılar, bugüne kadar ayrı ayrı kullanılan bilgisayar görüntü ve doğal dil işleme modellerini birlikte eğiterek tek bir sistem haline getirmiş. Bir görseli ele alıp, bundan doğrudan insanların okuyabileceği dizide kelimeler üretmişler. Stanford ve Google araştırmacıları benzer yaklaşımlar takip ederek bunun için nöral ağları taklit eden iki tür yazılım olan Recurrent Neural Network ve Convolutional Neural Network kullanarak çalışmışlar. Bu yazılımlardan biri görselleri tanımaya, diğeri ise akıcı dile odaklanmış. Bu yazılımlar sayesinde görsellerdeki kalıpları tanımayı ve bunları anlatan cümleler kurmayı bilgisayara öğreten geliştiriciler, bunun akabinde makinelerin hiç görmediği görsellerle de teste devam etmişler. Sınırlı bir veri bütünü ile yapılmış olan çalışmaya rağmen, eğitilen programların nesne ve eylemleri tanıyabildiklerini görmek mümkün olmuş. Makinelerin görsel tanıma becerisi henüz insanlarınki kadar gelişmemiş olsa da yapılan bu son çalışmanın, bugüne kadar gerçekleşenlerden iki kat daha başarılı olduğu belirtiliyor ve elde ettikleri bu gelişme sonrası Google ve Stanford araştırmacıları, çalıştıkları veritabanlarını ve yazılımları geliştirerek aldıkları sonuçlarda büyük ilerleme sağlayabileceklerini söylüyorlar.

Yazılım uzmanları ve araştırmacıların geliştirdiği makine öğrenim sistemi, ilk kez “gördükleri” bir görselin içeriğini, yani görselde neler olduğunu basit cümlelerle tarif ediyor. Örneğin fotoğrafta fırının üzerinde iki adet pizza varsa, bunun cümlesini kuruyor ve “Fırının üzerinde iki adet pizza var” yazarak görselin içeriğini aktarıyor.

Bu çalışma sayesinde bugün isimle aradığımız görselleri ileride içeriğiyle aramanın mümkün olacağı, daha spesifik ihtiyaçlara yönelik daha spesifik sonuçlara ulaşılacağı belirtiliyor. Diğer yandan görme engelliler için bu çalışmanın çok önemli avantajlar sağlayacağının altı çiziliyor. Yine mobil bağlantı hızının yavaş olduğu bölgelerde, görseller yerine metin alternatiflerin sunulabilmesi gibi çeşitli kullanım alanları olabileceği söyleniyor.

Sitemizi kullanarak çerezlere (cookie) izin vermektesiniz. Detaylı bilgi için Çerez Politika'mızı inceleyebilirsiniz.