Search Agent'larda Asıl Mesele Artık Daha Çok Aramak Değil

Perplexity Research'ün yeni yazısı, search-augmented LLM'lerde asıl meselenin reward design, tool-use efficiency ve maliyet farkındalığı olduğunu gösteriyor.

22 Nisan 2026'da Perplexity Research, "Advancing Search-Augmented Language Models" başlıklı oldukça iyi bir yazı yayınladı. Linki burada: https://research.perplexity.ai/articles/advancing-search-augmented-language-models.

Bence yazının en önemli tarafı şu: search-augmented LLM meselesini sadece "model internette arama yapıyor" seviyesinde anlatmıyor. Asıl problemi çok daha doğru bir yerden kuruyor. İyi bir search agent yalnızca doğru cevabı bulan model değildir. Aynı zamanda ne zaman araması gerektiğini, ne zaman aramaması gerektiğini, kaç tool call yapacağını, ne kadar uzun cevap vereceğini ve bunu production maliyetini patlatmadan nasıl yapacağını da öğrenmek zorundadır.

Bu bence 2026'da AI agent'ları konuşurken kaçırılmaması gereken nokta. Çünkü artık model zekâsı tek başına yeterli değil. Bir agent'ın davranışı; veri seçimi, reward design, tool-use budget, latency ve maliyet davranışıyla birlikte düşünülmeli.

Perplexity yazıda iki aşamalı bir post-training pipeline anlatıyor: önce Supervised Fine-Tuning, sonra Reinforcement Learning. SFT aşaması daha çok deployment için kritik davranışları oturtuyor: instruction following, language consistency, abstention gibi. Yani modelin ne zaman cevap vermemesi gerektiği, nasıl format takip edeceği ve ürün davranışına nasıl uyacağı burada kuruluyor.

Sonra RL aşamasında modelin search capability tarafı geliştiriliyor. Burada amaç sadece accuracy artırmak değil; aynı zamanda tool-use efficiency'yi de iyileştirmek. Çünkü model her soruda gereksiz yere arama yaparsa dışarıdan çok akıllı görünebilir ama gerçek sistemde pahalı, yavaş ve verimsiz hale gelir. Hiç aramazsa bu kez factuality düşer. İyi agent tam bu ikisinin arasında durmak zorunda.

Yazının benim için en güçlü kısmı reward design bölümüydü. Perplexity burada çok net bir problemden bahsediyor: reward hacking. Eğer reward sistemini basitçe "doğru cevap + güzel cevap + kısa cevap" gibi lineer toplarsan, model bazen doğru olmayan ama güzel görünen cevaplardan puan kazanabilir. Bu çok tehlikeli, çünkü kullanıcıya iyi görünen cevap ile gerçekten doğru cevap aynı şey değil.

Bunu engellemek için önce correctness veya rubric satisfaction şart koşuluyor. Yani cevap doğru değilse ya da gerekli rubrikleri karşılamıyorsa, preference score devreye giremiyor. Önce doğru olacaksın, sonra güzel yazacaksın. Bu bence AI ürünleri için çok temel ama çok önemli bir tasarım prensibi.

Bir diğer önemli nokta tool-use efficiency. Perplexity'nin anlattığı sistem, gereksiz tool call sayısını ve aşırı uzun cevapları cezalandırıyor; ama bunu kör bir şekilde yapmıyor. Çünkü her tool kullanımını cezalandırırsan model gerekli aramayı da yapmamayı öğrenebilir. Bunun yerine anchored efficiency penalty gibi daha kontrollü bir yaklaşım kullanıyorlar. Yani model, etkili çözümlere göre gereksiz fazla tool kullanıyorsa ceza alıyor.

Bu nokta benim önceki Claude / Codex / workflow düşüncelerime de çok bağlanıyor. Artık AI araçlarını sadece "hangi model daha zeki?" diye değerlendirmek bana eksik geliyor. Daha iyi soru şu: hangi model veya sistem doğru işi, doğru maliyetle, doğru sayıda tool kullanarak ve gereksiz context yakmadan yapabiliyor?

Perplexity'nin benchmark sonuçları da bu yüzden ilginç. Yazıda Qwen3.5 tabanlı SFT+RL modelin bazı search benchmark'larında GPT-5.4 ve Sonnet 4.6 ile yarıştığı, hatta bazı noktalarda geçtiği anlatılıyor. Daha da önemlisi, bunu daha düşük query cost ile yapabildiğini söylüyorlar. Örneğin orta tool budget profilinde, Qwen3.5-397B-SFT-RL modelinin FRAMES üzerinde %73.9 skor alırken query başına 2.0 cent maliyetle çalıştığını; GPT-5.4'ün %67.8 skor ve 8.5 cent, Sonnet 4.6'nın ise %62.4 skor ve 15.3 cent maliyetle çalıştığını raporluyorlar.

Bu sonuçları tek başına "şu model daha iyi" diye okumak istemem. Benchmark her zaman kontrollü bir ortamdır. Ama bence daha büyük ders şu: search agent'larda maliyet/performans eğrisi artık model kalitesi kadar önemli. Production'da kazanan sistem, sadece en akıllı cevap veren değil, doğru cevabı verimli şekilde üreten sistem olacak.

Benim çıkarımım şu: 2026'da iyi AI agent tanımı değişiyor. İyi agent daha çok arayan agent değil. İyi agent, ne zaman araması gerektiğini bilen, gereksiz tool kullanımını azaltan, doğru cevabı önceleyen, kullanıcı formatına uyabilen ve bunu production maliyetini kontrol ederek yapabilen sistem.

Perplexity'nin yazısı bu yüzden önemli. Çünkü bize şunu hatırlatıyor: agent engineering sadece model seçmek değildir. Data curation, reward design, tool budget, evaluation ve maliyet davranışı birlikte tasarlanmadıkça iyi görünen demo gerçek ürüne dönüşmeyebilir.

Bence gelecekte AI sistemlerinde asıl rekabet burada olacak. Daha büyük model değil; daha iyi eğitilmiş, daha iyi ölçülmüş, daha iyi reward edilmiş ve daha verimli çalışan agent.

Kaynak: Perplexity Research, "Advancing Search-Augmented Language Models", 22 Nisan 2026: https://research.perplexity.ai/articles/advancing-search-augmented-language-models.