Yapay zeka modelleri, ChatGPT gibi, kullanıcıların CAPTCHA testleri, oyunlar ve navigasyon verileriyle elde edilen dijital izlerinden besleniyor. Uzmanlar, bu durumun mahremiyet ve güvenlik endişeleri yarattığını belirtiyor.
Büyük dil modelleri (LLM) olan ChatGPT, Gemini ve Claude gibi yapay zeka araçları, her gün milyonlarca kullanıcı tarafından aktif olarak kullanılıyor. Bu modellerin eğitimi için kitaplar, internet siteleri ve makaleler gibi çeşitli yazılı materyallerden yararlanılıyor.
Son dönemde ise bu eğitim sürecinin, internet kullanıcılarının çevrimiçi hareketlerinden elde edilen verilerle desteklendiği yönündeki tartışmalar öne çıkıyor. Bu veriler, kullanıcıların dijital dünyadaki her adımını yapay zeka için bir veri kaynağına dönüştürüyor.
İnternet hizmetlerine erişim sırasında kullanıcıların robot olmadıklarını kanıtlamak için kullanılan CAPTCHA ve reCAPTCHA testleri, artık sadece bir güvenlik önlemi olmanın ötesine geçiyor. Bu testler, yapay zeka araçlarının eğitiminde kritik bir rol oynuyor.
Kullanıcılardan görseldeki nesneleri tanımaları veya harfleri doğru yazmaları isteniyor. Özellikle Google’ın kullandığı testlerde sıkça karşılaşılan yaya geçitleri ve trafik lambaları gibi görsellerin, yapay zeka destekli otonom araçların eğitimi için kullanıldığı iddia ediliyor.
Bir Google Cloud sözcüsü, reCAPTCHA verilerinin yalnızca hizmeti iyileştirmek amacıyla kullanıldığını ve bu durumun hizmet şartlarında açıkça belirtildiğini belirtti. Bu açıklama, veri kullanımına dair şeffaflık vurgusu yapıyor.
Yapay zeka eğitiminde gündelik kullanımların rolü, oyun dünyasına da uzanıyor. Niantic firmasının popüler oyunu Pokemon Go, oyuncuların konum ve kamera verilerini kullanarak gerçek dünyanın detaylı bir veri havuzu oluşturuyor.
MIT Technology Review’a göre, Niantic Spatial adlı yapay zeka şirketi, oyuncular tarafından toplanan 30 milyar görseli kullanarak gerçeğe yakın bir dünya modeli geliştirdi. Bu teknoloji, GPS’in yetersiz kaldığı durumlarda robotların navigasyonunu kolaylaştırmayı hedefliyor.
Niantic, Kasım 2024’te yaptığı açıklamada, oyuncuların sunduğu verilerin kullanıldığını doğrularken, bu özelliğin tamamen isteğe bağlı olduğunu vurguladı. Kullanıcıların pasif katkıları, yapay zeka modellerinin sürekli iyileştirilmesine olanak tanıyor.
Lozan Üniversitesi Profesörü Christian Peukert, yapay zeka eğitim materyalleri ile kullanıcı güvenliği arasındaki dengeyi değerlendirdi. Peukert, eski CAPTCHA versiyonlarında kullanıcıların bir kelimeyi tanıyıp diğerini deşifre etmesiyle hem insan doğrulaması yapıldığını hem de bilinmeyen kelime yanıtlarının veri olarak saklandığını açıkladı.
Bu durumun, kullanıcıların metin tanıma sistemlerinin geliştirilmesine doğrudan katkı sağladığı anlamına geldiğini belirten Peukert, yapay zeka eğitiminin büyük ölçüde kullanıcıların farkında olmadan ürettiği pasif verilere dayandığını vurguladı. Sosyal medya platformları, arama motorları ve navigasyon uygulamaları gibi çeşitli dijital araçlar, dil modellerini ve tahmin sistemlerini eğitmek için sürekli veri topluyor.
Peukert, bu büyük ölçekli veri birikiminin ‘fişleme’, ‘sahte içerik üretimi’ ve ‘kullanıcıların kendiyle rekabet eden sistemleri beslemesi’ gibi gizlilik ve güvenlik endişelerine yol açabileceğini belirtti. Veri kontrolünün zorluğuna dikkat çeken Peukert, insan kaynaklı verilerin dil teknolojileri, çeviri ve erişilebilirlik gibi alanlarda faydalı kullanımlar sunduğunu da ekledi.
Yorum Yap