Skip to content Skip to navigation

ChatGPT’nin Yeni Versiyonu GPT-4o ile Bir İnsan Gibi İletişim Kurulabiliyor

Dr. Tuba Sarıgül

Natee Meepian / iStock

OpenAI şirketi ChatGPT sohbet robotunun son sürümü olan GPT- 4o’yu 2024 yılı Mayıs ayında kullanıma sundu.

GPT-4o dil modelinin ismindeki “o” Latincede hepsi anlamına gelen omni kelimesine dayanıyor. GPT-4o, insanların bilgisayarlar ile daha doğal bir iletişim kurmasına imkân veren özelliklere sahip. OpenAI şirketi GPT-4o’nun, kullanıcılar tarafından paylaşılan görüntüler ile sesleri anlama ve değerlendirme açısından, var olan büyük dil modellerinden daha başarılı olduğunu belirtiyor. Yeni model kullanıcıların ses tonunu analiz etmeyi başarırken, birden fazla konuşmacıyı da ayırt edip ortamdaki gürültüyü fark edebiliyor. Ayrıca sesli cevap verirken ses tonunu, farklı duygu durumlarını yansıtacak şekilde (örneğin heyecanlı, mutlu, korkulu) ayarlayabiliyor.

GPT-4o’nun sesli istemlere tepki verme süresi 232 milisaniyeye (0,232 saniyeye) kadar iniyor. Bu, bir insanın sohbet sırasındaki tepki süresiyle yaklaşık olarak eş değer. Yani GPT-4o ile bir insan ile sohbet ediyormuş gibi iletişim kurmak mümkün. OpenAI’ın bir önceki yapay zekâya dayalı büyük dil modeli olan GPT-4’te tepki verme süresi 5,4 saniye idi.

GPT-4’te Sesli Mod’dayken sesli girdi yani konuşarak verilen istemler ilk olarak metne çevriliyor, model metin şeklindeki girdiye metin formatında cevap oluşturuyor ve daha sonra metin şeklindeki çıktı sese dönüştürülüyordu. Yeni modelde ise metin, ses, görüntü gibi farklı formatlardaki girdiler ve çıktılar aynı yapay sinir ağı tarafından işleniyor.

GPT-4o, 50’den fazla dilde kullanılabiliyor. ChatGPT’nin en sevilen özelliklerinden biri olan Sesli Mod için farklı ses tonları seçildi. Ses tonlarının seçiminde çalışılan seslendirme sanatçılarının farklı dilleri doğal bir şekilde konuşabilmesine önem verildi.

Kaynak: