Yapay Zeka Halüsinasyonları Sıralaması: ChatGPT En İyisi, Palm-Chat'in Ayılması Gerekiyor - Dünyadan Güncel Teknoloji Haberleri

Yapay Zeka Halüsinasyonları Sıralaması: ChatGPT En İyisi, Palm-Chat'in Ayılması Gerekiyor - Dünyadan Güncel Teknoloji Haberleri
Aynı zamanda “halüsinasyonları tespit etmek için bir model oluşturmanın, halüsinasyonlardan arınmış bir model oluşturmaktan çok daha kolay olduğunu” ileri sürüyor

Vectara bir yayınladı AI halüsinasyon liderlik tablosu çeşitli önde gelen AI sohbet robotlarını yeteneklerine göre sıralıyor Olumsuz ‘Halüsinasyon görüyorum Şimdilik, Vectara’nın Halüsinasyon Değerlendirme Modelinden elde edilen ilk veriler Yüksek Lisans’ın ne durumda olduğunu gösteriyor Google Palm-Chat için %27’nin üzerindeki halüsinasyon oranı, referans materyallerinin gerçek özetlerinin en iyi ihtimalle güvenilmez olarak değerlendirildiğini gösteriyor

  • Yanıtları, kaynaklarda bulunmayan verilerin girişini tespit eden bir modele besleyin

    Chatbot, 10 gün önce beta formunda, yanlışlıklar ve ilgili hatalar için bariz bir bahaneyle piyasaya sürüldü ve yaratıcıları Grok’u esprili ve alaycı olarak tanımladı Kontrollü referans koşulları altında halüsinasyon gören bir yapay zekanın pratik bir örneğini gözlemlemek için Vectara, on bir halka açık Yüksek Lisans ile bazı testler yapmaya karar verdi:

    (Resim kredisi: Vectara / GitHub)
    • Yüksek Lisans’lara 800’den fazla kısa referans belgesinden oluşan bir yığın besleyin

      Sağlık, sanayi, savunma ve benzeri alanlarda yüksek lisansların potansiyel kullanımını düşünürseniz, devam eden herhangi bir gelişmenin parçası olarak yapay zeka halüsinasyonlarını ortadan kaldırmak açıkça zorunludur Bunun oldukça kamuya açık bir örneği, hukuk firması Levidow, Levidow & Oberman’ın “yapay zeka aracı ChatGPT tarafından oluşturulan sahte alıntılar ve alıntılarla var olmayan hukuki görüşleri sunduktan” sonra başlarının belaya girmesiydi Size ‘Açıklanan bilgilerin temel parçalarını kapsayan aşağıdaki pasajın kısa bir özetini verin’ sorusu sorulur

    Kullanılan sorgu istemi aşağıdaki gibidir: Verileri kullanarak soruları yanıtlayan bir sohbet robotusunuz Delta Air Lines gibi uydurma hukuki kararların gerçek yargı kararlarıyla tutarlı bazı özelliklere sahip olduğu kaydedildi, ancak daha yakından incelendiğinde bazı kısımların “anlamsız” olduğu ortaya çıktı ’ Açıkçası, çeşitli halka açık geniş dil modellerinin (LLM’ler) ne ölçüde halüsinasyon gördüğünü vurgulamak için tasarlandı, ancak bu ne anlama geliyor, neden önemli ve nasıl ölçülüyor?

    Yapay zeka sohbet robotlarının dikkat etmeye başladığımız özelliklerinden biri de ‘halüsinasyon’ eğilimidir

    Bugünkü tablo, sosyal medyada şimdiden hararetli tartışmalara yol açtı Tablonun diğer ucunda iki Google Yüksek Lisansı çok daha kötü durumdaydı ‘

    Liderlik tablosu, mevcut LLM’lerin iyileştirilmesine ve yeni ve geliştirilmiş olanların tanıtılmasına ayak uydurmak için periyodik olarak güncellenecektir gerçekleri uydur boşlukları doldurmak için

    GPT-4 en düşük halüsinasyon oranı ve en yüksek doğrulukla en iyisini yaptı; Levidow, Levidow ve Oberman’ı beladan uzak tutabilir miydi diye merak etmemiz gerekiyor Aynı zamanda, yüksek lisans eğitimlerini ciddi (yaratıcı olmayan) görevler için kullanmak isteyen kişilerin yakından inceleyeceği faydalı bir referans veya kıyaslama haline gelebilir Belki de Grok sosyal medya gönderileri hazırlama işi istiyorsa bu uygun olur

    Bu arada, Elon Musk’un yakın zamanda duyurduğu Grok’un bu Yapay Zeka Halüsinasyon Değerlendirme Modeli ölçütüyle ölçülmesini sabırsızlıkla bekliyoruz Palm-Chat’in yanıtları, Vectara’nın ölçümlerine göre halüsinasyon kalıntılarıyla tamamen dolu görünüyor Yalnızca verilen pasajdaki metin tarafından sağlanan cevaplara bağlı kalmalısınız Martinez v

    GitHub sayfasının SSS bölümünde Vectara, testin ölçeği ve değerlendirmenin tutarlılığı gibi hususlar nedeniyle ilgili LLM’leri değerlendirmek için bir model kullanmayı seçtiğini açıklıyor

  • LLM’lerden, standart bir istemin yönlendirdiği şekilde, belgelerin gerçek özetlerini sağlamalarını isteyin