Business Ekonomi Teknoloji ChatGPT, Bilim Habercilerinin Yerini Alabilir mi? Bir Yıllık Çalışma Sınırlarını Ortaya Koydu

ChatGPT, Bilim Habercilerinin Yerini Alabilir mi? Bir Yıllık Çalışma Sınırlarını Ortaya Koydu

ChatGPT, Bilim Habercilerinin Yerini Alabilir mi? Bir Yıllık Çalışma Sınırlarını Ortaya Koydu

Bilimsel araştırmaları sadeleştirerek geniş kitlelere ulaştırmak, bilim gazetecilerinin en temel görevlerinden biri. Bu görevi yapay zekâ modellerine devretmek mümkün mü? İşte bu soruya yanıt arayan Amerikan Bilimin İlerlemesi Derneği (AAAS), bir yıl süren gayriresmî bir çalışma yürüterek, ChatGPT'nin bilimsel haber özetleri üretme kapasitesini inceledi.

Hedef, derneğin Science dergisi için düzenli olarak hazırladığı, bilimsel makaleleri sade ve sistematik şekilde özetleyen SciPak ekibinin tarzına benzer metinler üretip üretemeyeceğini görmekti.

Yapıyı Taklit Ediyor, Ama Gerçeklikten Ödün Veriyor

Ars Technica tarafından yayımlanan ve Al Arabiya Business tarafından aktarılan rapora göre, ChatGPT, SciPak’in benimsediği bilimsel özet yapısını genel hatlarıyla başarıyla taklit edebiliyor. Ancak bu süreçte basitlik uğruna doğruluktan taviz veriyor. Ortaya çıkan metinlerin gazeteciler tarafından mutlaka gerçeklik kontrolünden geçirilmesi gerekiyor.

Dernek yazarlarından Abigail Eisenstadt’a göre, bu tür yapay zekâ araçları "yazarlara yardımcı olabilecek potansiyele sahip", ancak şu an için SciPak gibi profesyonel ekiplerin doğrudan kullanabileceği kadar "hazır değil".

Bir Yıllık İnceleme: 64 Makale, Detaylı Değerlendirme

Aralık 2023 - Aralık 2024 tarihleri arasında yürütülen çalışmada, her hafta iki bilimsel makale seçilerek ChatGPT’nin özetlemesi sağlandı. Farklı doğruluk düzeylerinde üç yöntemle yapılan bu özetler, güncel GPT modelleri üzerinden hazırlandı.

Seçilen 64 makale; teknik terimler, tartışmalı sonuçlar, öncü bulgular ve alışılmışın dışında sunum biçimleri gibi editoryal açıdan zorlu unsurlar içeriyordu. Bu da modeli gerçekçi koşullarda test etmeyi mümkün kıldı.

Her bir özet, orijinal özetleri yazan gazeteciler tarafından hem sayısal (puanlama) hem de niteliksel (yorumlama) yöntemlerle değerlendirildi.

Sayısal Değerlendirmeler: Beklentilerin Altında

Yapılan değerlendirmelerde sonuçlar modelin sınırlı kaldığını gösterdi. ChatGPT’nin hazırladığı özetlerin, gazetecilerin kendi içerikleriyle birlikte yayımlanabilir olup olmadığı sorulduğunda, verilen ortalama puan yalnızca 2.26 (1-5 arası bir ölçekte) oldu.

Özetlerin “okuyucu açısından ne kadar ilgi çekici” olduğu ise 2.14 ile daha da düşük kaldı. Her iki soruda da yalnızca bir özet en yüksek puanı (5) alırken, 30 özet "kesinlikle hayır" anlamına gelen 1 puanı aldı.

Niteliksel Yorumlar: Sebep-Sonuç Karışıklığı ve Abartılı Dil

Yazılı geri bildirimlerde ise gazeteciler, ChatGPT'nin sık sık şu hataları yaptığını belirtti:

  • Sebep ile sonucu karıştırıyor
  • Bilimsel bağlamı yeterince açıklamıyor
  • "Yenilikçi", "çığır açıcı" gibi ifadeleri gereksiz yere kullanarak sonuçları abartıyor
  • Yöntem ve kısıtları doğru biçimde yansıtamıyor

Özellikle birden fazla sonucu içeren makalelerde veya iki bağlantılı makalenin tek bir özet içinde birleştirilmesinde modelin yetersiz kaldığı belirtildi.

“Kopyalamada” Başarılı, “Yorumlamada” Zayıf

Genel sonuçlara göre ChatGPT, bilimsel makalelerin yüzeydeki bilgilerini kopyalamakta başarılı, ancak bu bilgileri gazetecilik çerçevesinde yorumlayıp özetlemekte yetersiz kalıyor. Özellikle derinlemesine metodoloji analizi, bulguların anlamı ya da olası sınırlamalar gibi gazetecilik açısından kritik detaylarda modelin performansı düşük.