在问题追查死角和问题追查效率上,前者显得更为迫切。无死角的问题追查呼吁着更多的可观测数据被收集到。如果在非生产环境,获取这些数据是轻而易举的,虽然会有query速度上的损失,但是在非生产环境都能容忍,然而,这个速度损失的代价,在生产环境中是承受不起的。在理论基石《Dapper, a Large-Scale Distributed Systems Tracing Infrastructure》的指导下,我们建设了kepler1.0系统,它基于query抽样,产出调用链和部分annotation(query处理过程中的非调用链的KV数据)。同时,基于业界开源的prometheus方案,我们完善自己的metrics系统。它们上线后立即产生了巨大的应用价值,打开了搜索系统可观测性建设和应用的想象空间。