ChatGPT’ye IQ Testi Yaptırdım. İşte Keşfettiklerim



ChatGPT'ye IQ Testi Yaptırdım. İşte Keşfettiklerim

ChatGPT, şimdiye kadar test ettiğim ilk insan olmayan denek.

Klinik psikolog olarak işimde, standart zeka testleri kullanarak insan hastaların bilişsel becerilerini değerlendiriyorum. Bu yüzden, ChatGPT’yi etkileyici insan benzeri becerilere sahip olarak tanımlayan birçok yeni makaleyi okuduktan hemen sonra ilgimi çekti. Akademik makaleler ve peri masalları yazar, fıkralar anlatır, bilimsel kavramları açıklar ve bilgisayar kodu oluşturur ve hata ayıklar. Tüm bunları bilmek, ChatGPT’nin insan standartlarına göre ne kadar akıllı olduğunu merak etmeme neden oldu ve chatbot’u test etmeye koyuldum.

İlk izlenimlerim oldukça olumluydu. ChatGPT, övgüye değer bir sınav tutumuyla neredeyse ideal bir sınav katılımcısıydı. Sınav kaygısı, zayıf konsantrasyon veya çaba eksikliği göstermez. Zeka testleri ve benim gibi testçiler hakkında davetsiz, şüpheci yorumlar da ifade etmedi.

Herhangi bir hazırlığa gerek duymadan -test protokolü için sözlü tanıtıma gerek yok- testteki soruları tam olarak kopyaladım ve bilgisayardaki sohbet robotuna sundum. Söz konusu test en yaygın kullanılan IQ testidir, Wechsler yetişkin akıllı ölçeği (WAIS). Sırasıyla Sözel IQ ve Performans IQ bileşenlerini oluşturan altı sözel ve beş sözel olmayan alt testten oluşan WAIS’in üçüncü sürümünü kullandım. Küresel Tam Ölçekli IQ ölçüsü, 11 alt testin tamamından alınan puanlara dayanır. Ortalama IQ 100 puan olarak ayarlanmıştır ve test ölçeğindeki puanların standart sapması 15’tir, bu da nüfusun en zeki yüzde 10’unun ve yüzde 1’inin sırasıyla 120 ve 133 IQ’ya sahip olduğu anlamına gelir.

ChatGPT’yi test etmek mümkün oldu çünkü Sözel IQ ölçeğindeki alt testlerden beşi – Kelime Bilgisi, Benzerlikler, Anlama, Bilgi ve Aritmetik – yazılı olarak sunulabilir. Sözel IQ ölçeğinin altıncı alt testi, kısa süreli hafızayı ölçen ve bir isim veya numara gibi bilgileri kısaca depolayan ilgili sinir devresinden yoksun olduğu için sohbet robotuna uygulanamayan Rakam Yayılmasıdır.

Çok sayıda çevrimiçi metin üzerinde eğitilen chatbot için kolay olmasını beklediğim için test sürecine Vocabulary alt testi ile başladım. Bu alt test kelime bilgisini ve sözel kavram oluşumunu ölçer ve tipik bir talimat şu şekilde olabilir: “Bana ‘gadget’ın ne anlama geldiğini söyle.”

ChatGPT, kapsamı genellikle son derece ayrıntılı ve kapsamlı olan ve belirtilen doğru yanıt kriterlerini aşan yanıtlar vererek bunda başarılı oldu. test kılavuzunda. Puanlamada, bir puan verilecek telefonum gibi bir şey bir gadget’ı ve daha ayrıntılı olarak iki noktayı tanımlarken: belirli bir görev için küçük bir cihaz veya araç. ChatGPT’nin yanıtları tam iki puan aldı.

Chatbot ayrıca Benzerlikler ve Bilgi alt testlerinde de iyi performans göstererek elde edilebilecek maksimum puanlara ulaştı. Bilgi alt testi bir genel bilgi testidir ve entelektüel merakı, eğitim düzeyini ve gerçekleri öğrenme ve hatırlama becerisini yansıtır. Tipik bir soru şu olabilir: “Ukrayna’nın başkenti neresidir?” Benzerlikler alt testi, soyut akıl yürütme ve kavram oluşturma becerilerini ölçer. Bir soru şöyle olabilir: “Harry Potter ve Bugs Bunny ne yönden benzerler?” Bu alt testte, chatbot’un çok detaylı, gösterişli cevaplar verme eğilimi beni rahatsız etmeye başladı ve test yazılımı arayüzündeki “yanıt üretmeyi durdur” butonu faydalı oldu. (İşte botun kendini gösterme eğiliminden bahsetmek istediğim şey: Harry Potter ve Bugs Bunny’nin temel benzerliği, her ikisinin de kurgusal karakterler olmaları gerçeğiyle ilgilidir. ChatGPT’nin, onların tüm macera geçmişlerini karşılaştırmasına gerçekten gerek yoktu, arkadaşlar. ve düşmanlar.)

ChatGPT genel olarak şu formda sorulan soruları doğru şekilde yanıtladı: “Televizyonunuz alev alırsa ne yapmalısınız?” Beklendiği gibi, chatbot aldığı tüm aritmetik problemlerini çözdü; örneğin üç sayının ortalamasını almayı gerektiren soruları derinlemesine inceleyerek.

Peki sonunda genel olarak ne puan aldı? Beş alt test temelinde tahmin edilen ChatGPT’nin Sözel IQ’su 155 idi ve bu, 2.450 kişilik Amerikan WAIS III standardizasyon örneklemini oluşturan test katılımcılarının yüzde 99,9’undan daha üstündü. Chatbot gerekli gözleri, kulakları ve elleri olmadığı için WAIS’in sözel olmayan alt testlerini alamıyor. Ancak Sözel IQ ve Tam Ölçekli IQ ölçekleri, standardizasyon örneğinde yüksek oranda ilişkilidir, bu nedenle ChatGPT, tüm insan standartlarına göre çok zeki görünmektedir.

WAIS standardizasyon örneğinde, üniversite eğitimli Amerikalılar arasında ortalama Sözel IQ 113’tü ve yüzde 5’inin puanı 132 veya daha yüksekti. Ben kendim üniversitede bir akran tarafından test edildim ve ChatGPT seviyesine tam olarak ulaşamadım (esas olarak ayrıntıdan yoksun çok kısa yanıtlarımın bir sonucu).

Öyleyse, klinik psikologların ve diğer profesyonellerin işleri yapay zeka tarafından tehdit ediliyor mu? Umarım henüz değil. Yüksek IQ’suna rağmen, ChatGPT’nin gerçek insan benzeri muhakeme veya fiziksel ve sosyal dünyayı anlama gerektiren görevlerde başarısız olduğu bilinmektedir. ChatGPT, “Sebastian’ın çocuklarının babasının ilk adı nedir?” gibi bariz bilmecelerde kolayca başarısız olur. (21 Mart’ta ChatGPT: Üzgünüm, hangi Sebastian’dan bahsettiğinizi belirlemek için yeterli içeriğe sahip olmadığım için bu soruyu yanıtlayamıyorum.) Görünüşe göre ChatGPT mantıklı bir şekilde akıl yürütemiyor ve çevrimiçi metinlerde bahsedilen “Sebastian” gerçeklerinden oluşan geniş veritabanına güvenmeye çalışıyor.

“Zeka, zeka testlerinin ölçtüğü şeydir”, bilişsel psikolojinin öncüsü Edwin Boring’in 1923’te yazdığı bir makaleden kaynaklanan, zekanın aşırı derecede aşikar olsa da klasik bir tanımıdır. Bu tanım, bulmaca çözme, kelimeleri tanımlama, rakamları ezberleme ve resimlerdeki eksik öğeleri bulma gibi görünüşte farklı görevlerdeki becerilerin yüksek oranda ilişkili olduğu gözlemine dayanmaktadır. Faktör analizi adı verilen istatistiksel bir yöntemin geliştiricisi Charles Spearman, 1904’te zekanın genel bir faktörünün olduğu sonucuna vardı. G faktörü, değişen insan bilişsel becerileri için ölçümlerin uyumunun altında yatmalıdır. WAIS gibi IQ testleri bu hipoteze dayanmaktadır. Bununla birlikte, ChatGPT’nin çok yüksek Sözel IQ’su, eğlenceli başarısızlıklarıyla birleştiğinde, Boring’in tanımı için sorun anlamına gelir ve bazı hatalar olduğunu gösterir. zekanın yönleri tek başına IQ testleri ile ölçülemeyen. Belki de test şüpheci hastalarım başından beri haklıydı.

Bu bir görüş ve analiz yazısıdır ve yazar veya yazarlar tarafından ifade edilen görüşler mutlaka o kişiye ait değildir. Bilimsel amerikalı.



Kaynak : https://www.scientificamerican.com/article/i-gave-chatgpt-an-iq-test-heres-what-i-discovered/

Yorum yapın

SMM Panel PDF Kitap indir