https://x.com/din0s_/status/2040478036097675276

這個點上還是有很多視野盲區,例如 hareness 判斷透過 1-10 這種評分真的可行嗎?軟體修改軟體的路線是正確的話,那麼會不會偏離真正執行的流程?跨 agent token 的消耗怎樣才能不過度增長?怎樣的研究稱之為「有效」,應該先廣度還是先深度?評斷的依據是什麼?
 
 
Back to Top