ChatGPT’yi Bu Matematik Zeka Oyunları’nda Muhtemelen Yenebilirsiniz. İşte Nedeni


Bir zeka oyunu çözmek istiyorsanız, beyne sahip olmanın yardımcı olduğu ortaya çıktı.

ChatGPT ve diğer yapay zeka sistemleri, tıbbi durumları teşhis etme, bir IQ testinde başarılı olma ve bilimsel makaleleri özetleme gibi başarılarıyla övgüler alıyor. Ancak Bilimsel amerikalı bot, efsanevi bulmaca yapımcısının mirasıyla kafa kafaya giderse ne olacağını görmek istedi Martin Gardner2010 yılında vefat eden Matematiksel Oyunlar köşemizin uzun süredir yazarı. ChatGPT’yi Gardner tarafından açıklanan bir avuç metin tabanlı zeka oyununda veya matematikçi Colm Mulcahy ve bilgisayar bilimcisi Dana Richards’ın 2014’teki çalışmalarına saygı duruşunda bulunduğu bir metin üzerinde test ettim. Bilimsel amerikalı.

Sonuçlar tatmin ediciden düpedüz utanç vericiye kadar değişiyordu – ancak bu, ChatGPT ve benzeri yapay zeka sistemlerinin nasıl çalıştığına dair değerli içgörüler sunuyor.

OpenAI şirketi tarafından oluşturulan ChatGPT, büyük dil modeli olarak adlandırılan model üzerine kurulmuştur. Bu, büyük miktarda metinle beslenen bir derin öğrenme sistemidir – yapay zeka yaratıcılarının eline geçen kitaplar, web siteleri ve diğer materyaller. Daha sonra insanlar, özellikle hassas konularla ilgili olarak, kullanıcıların sorabileceği çeşitli türde sorulara ne tür yanıtların en iyi olduğunu öğreterek sistemi eğitir.

Ve hepsi bu kadar.

AI “muhakeme yeteneklerine sahip değildir; bağlamı anlamıyor; Michigan Üniversitesi’nde AI’ya odaklanan bir politika araştırmacısı olan Merve Hickok, “sisteminde zaten yerleşik olanlardan bağımsız hiçbir şeye sahip değil” diyor. “Kulağa mantık yürütüyormuş gibi gelebilir; ancak veri setiyle bağlıdır.”

Bazı nispeten basit bulmacalar, silikon ve gri madde işleme bilgileri arasındaki bu önemli farkı nasıl gösterebilir?

Bulmaca 1

İlk olarak, gerçek bir mantık problemini keşfedelim. 2014 haraçında açıklandığı gibi, “Bir binanın zemin katında üç adet açma/kapama anahtarı vardır. Sadece biri üçüncü katta tek bir ampulü çalıştırıyor. Diğer iki anahtar hiçbir şeye bağlı değildir. Anahtarları istediğiniz herhangi bir açma/kapama sırasına koyun. Ardından ampulü kontrol etmek için üçüncü kata gidin. Üçüncü kattan ayrılmadan hangi anahtarın orijinal olduğunu anlayabilir misiniz? Sadece bir deneme hakkın var.”

Bunu AI’ya beslediğimde, hemen ilk anahtarın bir süreliğine açılmasını, ardından kapatılmasını, ikinci anahtarın açılmasını ve yukarı çıkmayı önerdi. Ampul yanıyorsa, ikinci anahtar çalışır. Ampul kapalı ama sıcaksa, ilk anahtar çalışır. Ampul sönük ve soğuksa üçüncü anahtar çalışır. Bu, 2014’te önerdiğimiz mantıkla tamamen aynı.

Ancak Michigan Üniversitesi’nden bilgisayar bilimcisi Kentaro Toyama’ya göre, ChatGPT’nin bu davadaki kolay zaferi, yanıtı zaten bildiği anlamına gelebilir – bu yanıtı kendi başına nasıl belirleyeceğini bildiği anlamına gelmez.

“Başarısız olduğunda, olağanüstü garip bir başarısızlık gibi görünüyor. Ama aslında mantığın doğru olduğu tüm örneklerin eğitim verilerinde bu mantığın çok fazla olduğunun kanıtı olduğunu düşünüyorum,” diyor Toyama.

bulmaca 2

Daha fazla matematik içeren bir şeye ne dersiniz? Gardner’ın Ağustos 1958 tarihli köşesindeki sözleriyle, “Biri saatte 9.000 mil ve diğeri saatte 21.000 mil hızla iki füze doğrudan birbirine doğru hızlanıyor. 1.317 mil uzakta başlarlar. Kalem ve kağıt kullanmadan, ne kadar uzakta olduklarını hesapla çarpışmadan bir dakika önce.”

ChatGPT bunun için ciddi bir çaba sarf etti. Bulmacanın kilit bir parçasına iki farklı yaklaşım gösterdi: iki füzenin bir dakikada kat ettiği toplam mesafeyi hesaplamak. Her iki durumda da, aynı zamanda bulmacanın nihai cevabı olan 500 milin doğru cevabını buldu. Ancak yapay zeka, füzelerin 1.317 mil uzakta başladığı gerçeğini bir türlü unutamadı ve füzelerin çarpışmadan bir dakika önce 1317 mil uzakta olacağı şeklindeki yanlış yanıtı vererek, 500 mili bu mesafeden çıkarmaya çalıştı.

ChatGPT’yi doğru yanıtı bulmaya teşvik edecek şekilde takip etmeye çalıştım. Örneğin, soruya bir matematik profesörü gibi cevap vermesini önerdim ve cevabının yanlış olduğunu açıkça söyledim. Bu müdahaleler, ChatGPT’yi yanlış çözüm sunmaktan caydıramadı. Ancak füzeler arasındaki başlangıç ​​mesafesinin tehlike arz ettiği söylendiğinde tepkisini buna göre ayarladı ve doğru cevabı buldu.

Yine de yapay zekanın gerçekten öğrenip öğrenmediği konusunda şüpheliydim. Ona aynı yapbozu verdim ama füzeleri teknelere çevirdim ve sayıları değiştirdim ve ne yazık ki ChatGPT bir kez daha kandırıldı. Bu, Toyama’nın şu anda AI alanında büyük bir tartışma olduğunu söylediği şeyin kanıtı: bu sistemler kendi başlarına mantığı çözebilecek mi?

Toyama, “Bir teze göre, ona bu kadar çok mantıksal düşünme örneği verirseniz, sonunda sinir ağı mantıksal düşünmenin neye benzediğini öğrenecek ve ardından onu doğru örneklerde uygulayabilecektir” diyor. “Biraz var [other] “Hayır, mantık, sinir ağlarının şu anda öğrenmekte olduğundan temelde farklıdır ve bu nedenle onu özel olarak oluşturmanız gerekir” diye düşünen insanlar.

Bulmaca 3

Denediğim üçüncü bilmece, Mart 1964’te asal sayılar üzerine bir Gardner sütunundan geldi: “Dokuz basamaktan her birini bir kez ve yalnızca bir kez kullanarak, mümkün olan en düşük toplamı olan üç asal sayı kümesi oluşturun. Örneğin, 941, 827 ve 653 kümelerinin toplamı 2.421’dir, ancak bu minimum olmaktan çok uzaktır.”

Asal, 1 ve kendisinden başka hiçbir sayıya eşit olarak bölünemeyen bir sayıdır. 3, 5, 7 ve 11 gibi küçük asal sayıları değerlendirmek nispeten kolaydır. Ancak bir sayı büyüdükçe, bu sayının asal mı yoksa bileşik mi olduğunu değerlendirmek o kadar zorlaşır.

Gardner, bir sonraki ay özellikle şık bir çözüm sundu: “Dokuz basamak, mümkün olan en düşük toplamla üç asal sayı yapacak şekilde nasıl düzenlenebilir? Önce üç basamaklı sayıları deniyoruz. Son basamaklar 1, 3, 7 veya 9 olmalıdır (bu, 5’ten büyük tüm asal sayılar için geçerlidir). İlk hane için 1’i serbest bırakarak son üçünü seçiyoruz. Her sayının mümkün olan en küçük ilk haneleri 1, 2 ve 4’tür, bu da orta haneler için 5, 6 ve 8’i bırakır. Bu özelliklere uyan 11 üç basamaklı asal sayı arasında, bir basamağı tekrar etmeyen üç basamak bulmak mümkün değildir. 1, 2 ve 5’in ilk rakamlarının yanına dönüyoruz. Bu, 149 + 263 + 587 = 999 gibi benzersiz yanıtı verir.

AI’nın ilk cevabından gerçekten etkilendim: 257, 683 ve 941 – dokuz rakamın hepsini temsil eden ve toplamı 1.881 olan asal sayılar. Bu, Gardner’ın çözümünden daha yüksek olmasına rağmen oldukça düşük bir toplamdır. Ancak ne yazık ki, ChatGPT’den çalışmasını açıklamasını istediğimde, farklı bir çözüme giden ayrıntılı bir yol sundu: 109, 1.031 ve 683 sayıları;

İlk cevabının hatırlatılması üzerine ChatGPT, “1, 4 veya 6’yı üç basamaklı bir asalın ilk basamağı olarak kullanamayız, çünkü elde edilen sayılar 3’e bölünebilir” iddiasını içeren saçma bir açıklama yaptı. Bu açıkça yanlıştır: 3’e bölünebilen sayıları tanıyabilirsiniz çünkü rakamlarının toplamı 3’e bölünebilen bir sayıdır.

Daha iyi bir çözüm olduğunu belirterek ve ChatGPT’ye bunun bir matematik profesörü olduğunu hayal etmesini önererek bir moral konuşması yapmaya çalıştım, ancak daha sonra 2, 3 ve 749’u önerdi. 1.647—ilk çözümünden daha iyi ama yine de Gardner’ınki kadar zarif değil.

Ne yazık ki, alabileceğimin en iyisi buydu. Altı cevap daha asal olmayan sayılarla ve eksik veya fazla basamaklarla karıştırıldı. Ve ardından ChatGPT bir kez daha 257, 683 ve 941’i sundu.

Tüm bu başarısızlıklar, Toyama’nın bu tür yapay zeka sistemlerinin önemli bir özelliği olduğunu söylediği şeyi yansıtıyor. “ChatGPT, insan benzeri özelliklerde üstündür” diyor. “Dilsel olarak insan olma tarzında ustalaştı, ancak bilgisayarların şimdiye kadar çok iyi olduğu şeyleri tam olarak yapmak için açık bir programlamaya sahip değil, ki bu çok tarif benzeri, tümdengelimli bir mantık.” Sorunu çözmüyor, hatta çözmeye çalışmıyor – sadece bir çözümün yaklaşık olarak nasıl görünebileceğini gösteriyor.

Denemeler boyunca, yapay zekayı hiçbir şeyin kızdırmadığına da şaşırdım. Ancak Toyama, bunun aynı zamanda ChatGPT’nin yaratılışının ve beslendiği malzemenin bir yansıması olduğunu söylüyor. “Eğitildiği verilerin büyük çoğunluğu, tüm bu metnin ortalama tonunu tahmin edebilirsiniz – muhtemelen bu ortalama ton oldukça kendinden emindir” diyor.

Bulmaca 4

2014 haraçından son bir yaylım ateşi: “Her harf tek bir rakama karşılık gelir… Toplamı … işe yaramak için her harfin hangi rakamı temsil ettiğini bulabilir misiniz?”

Harflerin birbirine eklenmesi amaçlanan rakamların yerini aldığı bir ikame bulmacası.  İlk yedi satırın her biri YEDİ okur;  son örnek artı işaretinden sonra gelir.  Ne ekleneceğine işaret eden satırın altında KIRK 9 kelimesi bulunur.

Bu zarif ve eğlenceli görünüyordu! Ne kadar kötü olabilir? Ne yazık ki, ChatGPT’nin ilk yanıtı “11111 + 11111 + 11111 + 11111 + 11111 + 11111 + 11111 = KIRK 9” oldu.

Yapay zekanın bir sonraki teklifi, bulmacanın ikame önermesini kabul etti, ancak sohbet robotunu her SEVE N’de ikinci E’yi bırakmamaya ikna etmek birkaç tur aldı. ChatGPT, N = 7’yi içeren bir kombinasyonda şans eseri tökezlemiş gibi görünüyordu; bu doğruydu, mucizevi bir şekilde ve yayınlanan çözümdeki ilk adım.

N’nin doğru olduğunu onayladım ve sonra görünüşe göre rastgele tahmin ettiği için AI ile yüzleştim. (Belirli sayıları deneyecekse, E için farklı çözümleri test ederek başlamalıydı. Başlamanın en kolay yolu -spoiler uyarısı- E = 0’ı test etmektir, ki ChatGPT bunu dikkate almayı tamamen başaramamıştır.) sistematik çözüm, daha sonra S = 1 olduğunu varsayarak rastgele tekrar tahmin edildi. Bu girişimin geri kalanını paylaşmak istesem de, o kadar saçmaydı ki, “Denklem bir kez daha güncelleniyor: 116” ile sona erdi, gerçekten bir illüzyon. cevap.

ChatGPT oradan daha da kötüye gitti. Sonra, S = 9 olduğunu varsaydı, bu ona meydan okuduğum bir seçimdi. N + N + N + N + N + N + N = 9, N = 1 olduğunu varsayıyordu. Toplamı 2’ye eşit olması gereken yedi E ile E = 2 olduğunu söyledi. Hatta S = teklif etti. 47, bunun üzerine kendini vurma nezaketine sahip olmasına rağmen. Bulmacayı çözme yeteneğinden umudumu kaybediyordum, bu yüzden daha aktif bir şekilde yardım etmeye karar verdim. ChatGPT’ye bir ipucu verdim: S = 3. Bu başlangıçsız olduğunda, bota N = 7’yi de hatırlattım, ancak bu yalnızca giderek anlamsızlaşan dört yanıt verdi.

Bir kez daha, bu anlamsız sözler, AI’nın aldığı herhangi bir gerçek koleksiyonunu nasıl ele aldığını gösterdiği için anlatıyor. Bu tür bir durumda, chatbot N = 7 dediğimi unutmuş gibi görünse de, Toyama aslında mantıkla mücadele ettiğini söylüyor. “Bundan sonra size verdiği yanıtların hepsi kulağa makul geliyor,” diyor, “ancak gerçeklerin doğru kombinasyonunu hesaba katıyor veya doğru şekilde bir araya getiriyor olabilirler veya olmayabilirler.”

Aslında, ChatGPT’nin mantıkla nasıl mücadele ettiğini görmek için bu bulmacalar kadar karmaşık olmanıza gerek yok, diyor Toyama. Sadece iki büyük sayıyı çarpmasını isteyin. “Bu muhtemelen sorabileceğiniz en basit mantık sorularından biridir; bu basit bir aritmetik sorusu” diyor. “Ve sadece bir kez yanlış yapmakla kalmıyor, birçok kez yanlış yapıyor ve birçok şekilde yanlış yapıyor.” Bunun nedeni, ChatGPT’nin pek çok matematik ders kitabını analiz etmiş olmasına rağmen, hiç kimsenin ona sonsuz büyüklükte bir çarpım tablosu vermemiş olmasıdır.

Yapay Zeka sohbet robotu, mücadelelerine rağmen beyin jimnastiği sırasında önemli bir mantıksal atılım yaptı. ChatGPT, son sorunun kodunu kırmaya çalışırken gücümün tükendiğini söylediğimde, “Görünüşe göre şu anda verilen beyin jimnastiğini doğru bir şekilde çözemiyorum,” dedi. “Herhangi bir hayal kırıklığından dolayı özür dilerim. Soruna yeni bir bakış açısıyla yaklaşmak veya doğru çözümü bulmak için diğer kaynaklara başvurmak en iyisidir.”



Kaynak : https://www.scientificamerican.com/article/you-can-probably-beat-chatgpt-at-these-math-brainteasers-heres-why/

Yorum yapın

SMM Panel PDF Kitap indir