• Please enable News ticker from the theme option Panel to display Post

Amazon, yeni ses modeli Nova Sonic’i tanıttı

Amazon, yeni ses modeli Nova Sonic’i tanıttı

Amazon, yapay zeka alanında kıymetli bir adım atarak yeni jenerasyon sesli yapay zeka modeli Nova Sonic‘i duyurdu. Şirketin yaptığı açıklamaya nazaran Nova Sonic, doğal konuşmalar üretme ve sesli komutları manaya konusunda OpenAI ve Google üzere devlerin öncü modelleriyle yarışacak seviyede performans sunuyor.

Nova Sonic, Amazon’un erken periyot dijital asistanı Alexa’dan çok daha esnek ve insan gibisi bir konuşma tecrübesi sunuyor. Teknolojik ilerlemeler sayesinde artık Alexa ve Siri üzere eski dijital asistanlar, yeni kuşak yapay zeka modelleriyle karşılaştırıldığında epeyce mekanik kalıyor. Nova Sonic ise bu algıyı değiştirmeye hazırlanıyor.

En uygun maliyetli ses modeli

Amazon’un geliştirme platformu Bedrock üzerinden sunulan Nova Sonic, çift istikametli akış destekleyen yeni bir API ile geliştiricilerin kullanımına açıldı. Şirket, Nova Sonic’in piyasadaki en uygun maliyetli yapay zeka ses modeli olduğunu belirtiyor. Amazon’un tezine nazaran bu model, OpenAI’ın GPT-4o modeline kıyasla yaklaşık yüzde 80 daha düşük maliyetle çalışıyor.

Amazon’un AGI ünitesinin başındaki isim Rohit Prasad, Nova Sonic’in birtakım bileşenlerinin hali hazırda Alexa Plus isimli yeni kuşak dijital asistanda kullanıldığını belirtti. Prasad’a nazaran Nova Sonic, bilhassa farklı uygulamalara isabetli halde yönlendirme yapabilen “büyük orkestrasyon sistemleri” konusunda rakiplerinin önünde.

Bu sistem sayesinde Nova Sonic, kullanıcıdan gelen bir talebin gerçek vakitli bilgi mi yoksa özel bir kaynak mı gerektirdiğini ayırt edebiliyor ve hakikat API ya da dış uygulamaya yönelerek süreç gerçekleştirebiliyor.

Amazon CEO’su Andy Jassy, Nova Sonic’in sırf sesli komutları anlamakla kalmayıp, konuşmanın tonunu, şeklini, akışını, duraklamaları ve ortaya girilen cümleleri de gerçek formda algılayabildiğini vurguladı. Jassy, modelin sesli anlayış ve ses üretimini tek ve birleşik bir yapı içinde gerçekleştirdiğini belirtiyor.

Daha hakikat ve daha hızlı

Amazon’un bilgilerine nazaran Nova Sonic, ses tanıma yanılgıları konusunda rakiplerinden çok daha başarılı. Kullanıcılar mırıldansa, yanlış konuşsa ya da gürültülü bir ortamda bulunsa dahi, modelin hakikat mana çıkarma oranının yüksek olduğu söyleniyor. Örneğin İngilizce, Fransızca, Almanca, İtalyanca ve İspanyolca lisanlarında yapılan testlerde, ortalama söz kusur oranı sadece yüzde 4,2 olarak ölçülmüş durumda. Çok katılımcılı ve yüksek sesli ortamlarda yapılan testlerde ise, OpenAI’ın GPT-4o transkripsiyon modeline nazaran yüzde 46,7 daha uygun sonuçlar verdiği söz ediliyor.

Bu ortada firmaya nazaran Nova Sonic’in ortalama reaksiyon mühleti 1,09 saniye ile sektör lideri konumda. Bu da OpenAI’ın gerçek vakitli API’sinden daha süratli bir cevap müddeti manasına geliyor.

Amazon, Nova Sonic’i sırf bir sesli model olarak görmüyor. Şirketin AGI stratejisi doğrultusunda bu model, bilgisayar başındaki bir insanın yapabileceği her şeyi gerçekleştirme potansiyeline sahip sistemlerin birinci örneklerinden biri. Prasad, yakın gelecekte manzara, görüntü ve öteki duyusal dataları anlayabilen çok modlu modellerin de geliştirileceğini açıkladı.

Geçtiğimiz hafta tanıtılan, internet tarayıcısı kullanabilen Nova Act isimli model de bu stratejinin bir modülü. Alexa Plus ve “Buy for Me” üzere yeni jenerasyon özelliklerde bu modellerin rollerini görmeye başladık.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir