熊貓隨口說

https://x.com/din0s_/status/2040478036097675276

這個點上還是有很多視野盲區，例如 hareness 判斷透過 1-10 這種評分真的可行嗎？軟體修改軟體的路線是正確的話，那麼會不會偏離真正執行的流程？跨 agent token 的消耗怎樣才能不過度增長？怎樣的研究稱之為「有效」，應該先廣度還是先深度？評斷的依據是什麼？