Anthropic'ten agentic kodlama ve görsel muhakeme performansıyla öne çıkan yeni model: Claude Opus 4.7

Teknoloji

Moderator
Anthropic, yeni yapay zeka modeli Claude Opus 4.7'yi kullanıma sundu. Anthropic'in belirttiğine göre, Claude Opus 4.7'nin yazılım mühendisliği, talimatları takip etme ve gerçek dünyadaki işleri tamamlama konusunda daha iyi performans gösteriyor.


Yeni model, agentic kodlama, çok disiplinli akıl yürütme, ölçeklendirilmiş araç kullanımı ve agentic bilgisayar kullanımı için endüstri benchmarklarında ve birçok kullanım senaryosunda Claude Opus 4.6'dan daha iyi performans gösteriyor.


SWE-Bench Pro programlama ölçütünde (benchmark) yüzde 64,3 puan alan Opus 4.7, Opus 4.6'dan neredeyse yüzde 10 daha yüksek bir sonuç ile karşımıza çıkıyor. Yeni model ayrıca, komut satırını içeren kodlama zorluklarından oluşan Terminal-Bench 2.0 veri setindeki görevlerin daha fazlasını çözdü.

Her ne kadar Anthropic, Opus 4.7'yi genel olarak mevcut en güçlü modeli olarak tanımlasa da modelin siber yetenekleri, Anthropic'in bu ayın başlarında Project Glasswing adlı yeni bir siber güvenlik girişiminin parçası olarak seçilen bir grup şirkete sunduğu Claude Mythos Preview kadar gelişmiş değil. Şirket, bu LLM'nin hackerlar tarafından kötüye kullanılabileceği endişesiyle onu geniş çapta kullanıma sunmadı.

Opus 4.7 ise modeli siber saldırılar için kullanma girişimlerini tespit eden bir mekanizmaya sahip. Anthropic'e göre, şirketin mühendisleri bu mekanizmanın etkinliği hakkında veri toplayacak. Elde edilen bulgular ise Mythos için koruma önlemleri oluşturmak üzere kullanılacak. Şirket, bu koruma önlemleri sayesinde “Mythos sınıfı modelleri”ni müşterilere güvenli bir şekilde açabilmesini sağlayabilir. Ayrıca Anthropic, Siber Doğrulama Programı kapsamında siber güvenlik uzmanlarının hesaplarındaki güvenlik önlemlerini gevşetecek ve daha geniş bir komut yelpazesinin kullanılmasına müsade edecek.

Yine de Opus 4.7'nin, bazı görevleri Mythos kadar iyi bir performansla yerine getirdiğini belirtelim. Opus 4.7, lisansüstü düzeyde bilim sorularından oluşan GPQA Diamond testinde, en iyi modelin puanına yüzde 1'lik bir farkla yaklaştı. Öte yandan OpenAI'ın GPT-5.4’ü, LLM’lerin çevrimiçi araştırma becerilerini test etmek için tasarlanmış bir benchmark olan BrowseComp’ta Mythos’un puanını aşmayı başardı.


Claude Opus 4.7, Anthropic'in tüm Claude ürünlerinde kullanılabilirken, API'sinde Microsoft, Google ve Amazon gibi bulut sağlayıcıları aracılığıyla kullanılabilir. Anthropic'in belirttiğine göre; yeni modelin fiyatı Claude Opus 4.6 ile aynı.

Anthropic, Claude Opus 4.7 ile beraber birbirinden farklı yenilikler tanıttı. Şirket, API tarafında geliştiricilerin büyük dil modelleri için belirleyebildiği "effort level" (çaba seviyesi) parametresine mevcut en yüksek ve ikinci en yüksek kademenin arasına yerleşen xhigh adlı yeni bir seçenek ekledi; bu sayede kalite–maliyet dengesinin daha ince ayarla kurulabileceği belirtiliyor.

Anthropic, aynı zamanda Claude'un bir görevde işleyebileceği maksimum token sayısını önceden tanımlamaya olanak tanıyan "task budgets" (görev bütçeleri) özelliğini de devreye aldı.

Bunların yanı sıra Claude Code'a, bir kod dosyasını hata ve olası sorunlar için tarayan ultrareview slash komutu eklendi; Max abonesi kullanıcılar bu özelliği, uzun soluklu programlama görevlerini hızlandıran yeni auto mode otomasyonuyla birlikte kullanabiliyor.
 
Geri
Üst