Skip to content Skip to navigation

Buradasınız

Google Nano Banana Pro

Gürkan Caner Birer

Google, Gemini 3 Pro modeli üzerine kurduğu yeni görsel üretim aracı Nano Banana Pro’yu duyurdu. Yapay zekâya dayalı bu görsel oluşturma ve düzenleme aracı, önceki sürümü olan Nano Banana’ya göre çok daha gelişmiş  ve özellikle profesyonel kullanım için tasarlanmış.

Nano Banana Pro görüntü üretirken bir tür “düşünme süreci” kullanıyor. En çarpıcı yenilik ise Google Search’ün bilgi tabanına entegre çalışabilmesi. Uygulama, bilgileri görsele dönüştürürken sadece eğitildiği modeldeki verileri değil, gerçek dünyaya dair bilgi birikimini de kullanıyor. Bu sayede gerçek dünyadan aldığı verilerle infografikler ve diyagramlar üretebiliyor. Örneğin anlık hava durumu verilerini görselleştirebiliyor.

Model, görselerin içinde yer alması gereken metinleri daha doğru ve okunaklı bir şekilde yerleştirebiliyor. Çok dilli metin konusunda da öne çıkan Nano Banana Pro farklı dillerde mantık yürütebiliyor. Görseldeki yazıları farklı dillere çevirebiliyor. Örneğin bir ürün etiketindeki yazıları farklı dillere çevirecek şekilde tekrar düzenleyebiliyor.

Aynı anda 14 referans görseli tek sahnede uyumlu hâle getirebiliyor ve 4K çözünürlükte çıktı verebiliyor. Adobe Photoshop, Figma ve Google Workspace entegrasyonları sayesinde profesyonel ekipler, modeli mevcut iş akışlarına doğrudan ekleyebiliyor.

Nano Banana Pro görseli üretmeden önce kompozisyon ve mantık kontrolü için iki ara görüntü oluşturuyor. Bu sayede kalite artıyor ancak maliyet yükseliyor. Yaklaşık 1.000-2.000 çıktı için 0,13 dolar ücret alınması, OpenAI’nin GPT-4o modelinin görsel üretimine kıyasla belirgin şekilde pahalı.

Nano Banana Pro özellikle karmaşık düzenleme komutlarını anlama ve uygulama konusunda önceki nesle göre önemli avantajlara sahip.

Buna karşın geliştiriciler ve profesyonel kullanıcıların modeli kendi uygulamalarına entegre etmeleri karmaşık ve zahmetli bir süreç. Çünkü basit bir API anahtarı için bile Google Cloud üzerinden çok aşamalı işlemler yapmak gerekiyor. Bu da teknik olarak önemli avantajları olan bu aracın yaygınlaşmasını yavaşlatabilir.

Google, yalnızca görsel üretimini değil, görselleri analiz edip yorumlama kapasitesini de geliştirdiğini söylüyor. Nano Banana Pro’nun kullandığı Gemini 3 Pro modeli dokümanları çözümleme, görüntüdeki nesnelerin konumlarını muhakeme etme, ekran ara yüzlerini ve videoları analiz etme konularında önemli bir ilerleme sağlıyor. Gemini 3 Pro, yapay zekâ uygulamalarının mantık yürütme becerisini ölçen CharXiv Reasoning Benchmark’ın grafik ve tablolardan çok adımlı çıkarım yapma görevlerinde insan ortalamasını aşarak %80,5 başarıya ulaştı.

Google Gemini 3 Pro tarihi bir el yazısını finansal tabloya dönüştürebiliyor.

Model, 18. yüzyıldan kalma el yazması tüccar defterlerini karmaşık finansal tablolara dönüştürebiliyor, matematiksel notasyonları LaTeX formatına çevirebiliyor ve videoları saniyede 10 kareye ulaşan hızlarda analiz ederek hızlı hareketleri çözümleyebiliyor. Bu sayede eğitim, tıbbi görüntüleme, finans raporlaması ve hukuki doküman analizi gibi pek çok alanda kullanılabilir.

Sistem kusursuz değil. Bir hayvanda kaç bacak olduğunu doğru sayma, labirentin çözüm yolunu gösterme veya bir saatin rakamlarının doğru yerleştirilip yerleştirilmediğini fark etme gibi basit mantık gerektiren görevlerde tutarsız sonuçlar üretebiliyor. Kullanıcıların verdiği aynı bilgilere göre farklı denemelerde farklı görseller üretebilmesi özellikle sıra dışı senaryolarda modelin hâlâ tam olarak güvenilir olmadığını gösteriyor.

Kaynaklar: