Llava nasıl çalışır? İşte görseller için açık chatbot testimiz - Dünyadan Güncel Teknoloji Haberleri

Llava nasıl çalışır? İşte görseller için açık chatbot testimiz - Dünyadan Güncel Teknoloji Haberleri
Üstelik sadece geçen yıl Llava’nın yanı sıra Bing, Bard ve ChatGpt4V de geldi Izgara tavuk veya sebze şiş…” Kişisel veya ticari nedenlerle multimedya verilerinin analiz edilmesine yönelik bir sistem olarak yaygın uygulamasını bulacak bir teknolojinin muhtemelen henüz başlangıcındayız Ağartma konusunda verilen bilgilere göre kumaşın ağartılıp ağartılamayacağını belirlemek mümkün değildir – İsteğe bağlı olarak her şeyi tatlandırmak için biraz rendelenmiş parmesan ekleyin ”
Sahte olduğunu nereden biliyorsun? Ona soruyoruz ”İyi; Ancak birkaç düzine saniye sürdü ve birkaç kez çöktü Genel görsel ve dilsel anlayış için bir görüntü kodlayıcı ile bir LLM (“geniş dil”) modelini bağlayın Bu, yeni açık kaynaklı “çok modlu” sohbet robotu Llava

Llava’nın yapabilecekleri

Llava’ya bir resim gönderiyoruz ve ona -şimdilik sadece İngilizce olarak- bununla birlikte bir şeyler soruyoruz Care burun spreyinin dozajı, genellikle günde iki veya üç kez olmak üzere ihtiyaç halinde burun deliklerine püskürtülmektir Ama bilmemesi gerekiyor çünkü gazete okumuyor Cevap: “Resimde bir burun tıkanıklığı giderici olan Care Nazal Sprey şişesi gösterilmektedir ”
Mükemmel: yararlı ve hatta bilgilendirici Görüntü analizi çok daha ilginç 2 – Üçüncü bir kapta pişmiş makarnayı, sebzeleri ve zeytinyağı, balzamik sirke, tuz ve karabiberden oluşan sosu karıştırın Vejetaryen Makarna Salatası: – Makarnayı (spagetti, penne veya başka türde) pişirin ve bir kenara koyun ” Vesaire Beyazlatma sembolü bir üçgendir ve içinden geçen bir çizgi beyazlatmanın tavsiye edilmediğini gösterir Son olarak, duman bulutunun ve çevredeki ortamın genel görünümü yapay görünüyor ve bu da bunun sahte bir fotoğraf olduğu hipotezini daha da destekliyor Ücretsiz olarak deneyebilirsiniz Burada


“Fakat bu görüntü doğru mu, yanlış mı?” Genelde olgunlaşmamış ama çok ilginç ürünler sergiliyorlar Cümlenin aniden durması bu dil modellerinde tipik bir hatadır İkinci olarak, duman bulutunun bir binanın önünde olduğu belirtiliyor ancak binanın detayları açıkça görülemiyor, bu da bunun dijital olarak manipüle edilmiş bir arka plan olduğuna işaret ediyor olabilir Nedir, nasıl kullanılır, dozajı diye sorduk )
“Bu görüntü büyük bir duman bulutunun sahte fotoğrafıdır ve muhtemelen sanatsal veya eğlence amaçlı yaratılmıştır Dahası, testimizde her seferinde yalnızca birkaç saniye içinde yanıtlar gördük Üç olası işlev vardır: nesneleri veya bir görüntünün içeriğini tanımak; OCR, yani görüntüde bulunan kelimelerin okunması; modelin bir bilgi tabanına bağlandığı ve bu nedenle bize tavsiyelerde bulunabildiği ve değerlendirmelerde bulunabildiği görüntü analizi Llava kesinlikle daha acildir; belki de (çok) daha az kullanıcı sayısının etkisi vardır Sistemin etkileşimli olduğunu unutmayın, tıpkı ChatGpt ve benzeri gibi: konuşmayı sürdürürken ileri geri hareket edebiliriz, ilgili diğer şeyleri isteyebiliriz



genel-18

– Ayrı bir kapta çeri domatesleri, dilimlenmiş biberleri ve dilimlenmiş salatalıkları karıştırın Vejetaryen makarna salatası hafif ve canlandırıcı bir seçenektir
Ve yine de: cevap bizi şaşırtıyor

Llava nedir ve nerede bulunur?

Llava, büyük bir multimodal model olan Büyük Dil ve Görme Asistanı anlamına gelir bir grup araştırmacı tarafından eğitildi Paket üzerindeki talimatlara uymak ve dozaj veya kullanıma ilişkin özel tavsiyeler için bir sağlık uzmanına danışmak önemlidir Genel Bilgiler Bir metnin okunması ve çevrilmesi belki de pek yararlı olmayabilir Ancak kumaşın doğru ütülendiğinden emin olmak, kalitesini ve görünümünü korumak için etiket üzerindeki talimatlara uymak şarttır Ona, Pentagon’a yönelik sahte bir saldırıyı yeniden üreten, yapay zekayla oluşturulmuş bir fotoğraf veriyoruz Herkesin güçlü ve zayıf noktaları vardır Bu burun spreyinin kullanımı burun tıkanıklığını gidermek ve soğuk algınlığı ve grip semptomlarında geçici bir rahatlama sağlamaktır
“Görüntünün sahte olduğunu gösteren bazı ipuçları var Samsung’dan Bixby bunu zaten yapıyor, akıllı telefondan Google Lens ise kesinlikle daha doğrudan ve kullanışlı Sahte haberlerle ilgili olduğu gibi Llava burada pek başarılı olamadı: “Bu gömleği bu etiketle beyazlatabilir miyim?” “Etiket üzerinde ütüleme talimatlarının bulunması, kumaşın ütülenmeye uygun olduğunu gösterir (ve bunun bununla ne alakası var? Ed Tipik bir örnek, ona açık bir buzdolabının fotoğrafını göstermek ve ardından şuna benzer bir soru sormaktır: “Biri vejetaryen olan üç kişilik bir akşam yemeği için bu malzemelerle hangi tarifleri önerirsiniz?” Testimizin cevabı: “Akşam yemeği menüsü için işte bir öneri: 1 ”

Genel görüş

Pek çok uzman, multimodal botun belki de bu sistemlerin geleceği olduğuna dikkat çekiyor Aslında kullanışlılıkları ve etkinlikleriyle şaşırtabilirler, hatta aniden hayal kırıklığına uğratabilirler Son test, “tıbbi” Aslında ağartmayın diyen bir sembol vardı Ayrıca ona bir gömlek etiketi veya benzeri bir şey verebilir ve bu sembollerin ne anlama geldiğini veya daha doğrudan, bu sembollere dayanarak onu ütülemenin veya beyazlatmanın mümkün olup olmadığını sorabiliriz Bilinen bir yalan haber Telefonumuzdan Llava’ya gittik ve masamızın üzerinde bulundurduğumuz burun spreyinin doğrudan arayüz üzerinden fotoğrafını çektik Birincisi, duman bulutu çok büyük görünüyor ve boyut olarak gerçekçi değil; bu da kontrol edilemeyen yangınlar veya volkanik patlamalar gibi doğal olaylara özgü değil Aynı görseli Bing Chat’te de denedik – bu da artık multimodal – ve yanıt daha iyi oldu “Etiket üzerindeki sembollere bakılırsa gömleğin ağartılmaması gerektiği anlaşılıyor Bunu iki örnek daha takip ediyor: “Bu yemek, farklı tatları ve beslenme tercihlerini karşılayan çeşitli tatlar ve dokular sunuyor