一. 易点天下的全球化布局
易点天下作为中国出海营销领域的头部服务商,为全球企业提供全链路营销服务及数字化出海解决方案,核心客户包括阿里、SHEIN、Temu 等知名企业。2025 年第一季度,其营收同比激增 93.18%,实现了业务的高速扩张。当然,伴随着业务规模的持续扩大,易点天下的基础设施架构也在不断演进,形成了涵盖腾讯云等多厂商公有云服务、自建本地 IDC 的混合多云架构。在这一背景下,易点天下决定升级技术与运维体系,构建更高效、更智能的可观测平台,为全球化业务的稳定运行与持续增长筑牢技术基石。

二. 共建方向
基于目前全球化业务布局的现状与 AI 战略落地的需求,易点天下在可观测体系建设中,与腾讯云可观测平台联手,核心聚焦三大核心方向,旨在实现“全域统一观测、智能预警、高效运维”的目标,为飞速发展的业务提供坚实保障。
易点天下的业务数据遍布全球多个国家,加之多云混合架构的特性,实现跨地域、跨平台数据的统一汇聚与规范治理,构建全局统一的监控视图,成为支撑全球化运维决策的基础前提。而不同云厂商的存储与监控工具形成的数据孤岛、分布式部署带来的数据零散问题,以及跨地域数据传输的一致性保障,均需通过体系化方案实现突破。

此外,广告投放等核心业务对于数据实时性要求严苛,依赖分钟级更新的实时表支撑投放决策,业务高峰期每秒将近百万级请求,监控数据采集需要在“高速采集”与“成本可控”间寻找平衡。

在超大流量的场景下,可观测系统需要同时满足“高并发承载”、“数据零差错”、“资源不超限”这三大目标。确保在业务高峰期也可稳定运行,为运维人员提供及时、准确的异常定位依据;同时,在业务重保等关键阶段,也需要实现监控数据零丢失、零差错,为故障追溯与问题解决提供可靠的支撑;此外,还需要规避系统自身资源饱和风险,保障运维体系的持续可用。

三. 共建方案
基于自身全球化业务特性与可观测体系建设诉求,易点天下选择了腾讯云可观测平台展开深度共建,以 Prometheus 监控服务为核心,构建“统一接入、智能采集、优化处理”的一体化监控方案,实现了技术能力与业务需求的精准匹配。
腾讯云可观测平台采用“外部集群+跨账号管理+本地资源写入”的三重架构,助力易点天下实现了多云、多集群、本地 IDC 资源的集中化纳管,屏蔽了底层基础设施导致的差异性,为全局监控试图构建奠定基础。
核心采用腾讯云“外部集群“的采集模式,通过外部集群(含自建 K8s、其他厂商 K8s 集群)内部署 Proxy-agent 采集组建,即便集群处于不同网络环境或云平台,也能通过公网 CLB 与云端 proxy-server 建立安全连接,将监控数据可靠汇聚在腾讯云托管 Prometheus 实例中,该架构通过 tmp-operator与controller 的协同调度,实现跨集群资源的统一操作与管理,大幅度降低了跨云运维的复杂度。


易点天下在腾讯云内部存在多个账号的资源分布,因此,启用“跨账号统一监控”能力,通过配置跨账号采集规则,将不同腾讯云账号下的监控数据(非容器环境)聚合到统一的 Prometheus 实例,运维人员无需在多个账号之间切换,即可通过单一控制台获取全域监控视图。


对于本地 IDC 环境资源,通过易点天下原有VM采集组建,配置 Remote Write 方式将指标数据安全上报至云端 Prometheus 实例,实现本地资源与云上多云环境监控数据统一纳管,构建“云上+本地”的全场景、无死角的可观测体系。

基于“核心指标优先、差异化频率采集”的智能策略,易点天下从源头上优化数据采集效率,降低资源投入成本,精准匹配业务需求:
指标过滤上报:结合业务场景梳理核心指标体系,聚焦有业务价值的关键指标,剔除冗余无效指标,从源头减少数据上报量,实现成本精准管控;
灵活抓取间隔:建立差异化采集机制,核心业务与系统指标采用短间隔(15s、60s)间隔采集,保障实时性以支撑广告投放等关键决策;非关键指标采用 5 分 钟长间隔采集,平衡资源消耗;
集中化配置管理: 所有采集策略(目标、频率、过滤规则等)均可通过Prometheus控制台集中配置,替代传统分散配置模式。

通过 “预聚合提前减负 + Relabel 精细治理” 的组合方案,既从源头减少查询计算量,又实现数据格式规范化,双管齐下优化数据处理全流程,解决海量数据下的查询与存储问题:
针对高频查询场景,利用 Prometheus 的 Recording Rule 配置预聚合规则,在数据写入存储前完成指标汇总计算。将单实例接口 QPS 聚合为业务线维度QPS、集群维度成功率等常用汇总指标,查询时直接调用聚合结果,无需扫描海量原始数据,大幅提升查询响应速度。
四. 共建成效
通过与腾讯云可观测平台的深度共建,易点天下成功构建起适配全球化与AI战略的可观测体系,实现了运维能力与业务价值的双重升级,为全球化业务扩张提供了坚实技术支撑:
通过多云统一接入架构,将自建 K8s 集群、多厂商云资源及本地 IDC 的全量监控指标汇聚至单一 Prometheus 实例,终结了运维人员在多套系统间切换,人工汇总数据的低效模式,全域故障定位时间提升 40%。这一升级不仅提升了运维效率,更实现了故障的快速响应与解决,有效保障了全球范围内广告投放等核心业务的稳定性,减少了业务中断风险。
腾讯云 Prometheus 的高可用架构与弹性伸缩能力,可轻松承载每秒百万级请求的并发压力;预聚合与 Relable 的数据处理机制保障了数据准确性,业务重保期间实现监控数据“零丢失、零错误”。而稳定可靠的可观测系统为业务连续性提供了关键支撑,尤其是在广告投放高峰期等关键场景,确保运维决策有据可依,保障业务体验不受影响。

五. 总结
关于可观测平台
腾讯云可观测平台(Tencent Cloud Observability Platform,TCOP)是集指标、链路、日志于一体的全栈智能观测平台。结合强大的可视化和告警能力,为您提供一体化、智能化监控解决方案。可以满足客户全链路、端到端的统一监控诉求,帮助用户提高运维排障效率,为业务的健康和稳定保驾护航:

Prometheus 监控:开箱即用的 Prometheus 托管服务;
应用性能监控 APM:支持无侵入式探针,零配置获得开箱即用的应用观测能力;
云拨测 CAT:利用分布于全球的监测网络,提供模拟终端用户体验的拨测服务;
前端性能监控 RUM:Web、小程序、APP 等页面质量和性能监测;
终端性能监控 RUM Pro:专注为客户端应用 Android、iOS、鸿蒙、Windows、Flutter 等提供全面的崩溃分析、性能监控、异常告警能力;
Grafana 可视化服务:提供免运维、免搭建的 Grafana 托管服务;
云压测 PTS:模拟海量用户的真实业务场景,全方位验证系统可用性和稳定性;
云监控 CM:腾讯云基础云产品资源的指标监控、Dashboard、以及告警功能;
......等等