无服务器计算的未来——无需虚拟机的虚拟化

采用基于 WebAssembly 的无服务器运行时，实现无需虚拟机的虚拟化。 这种方法通过提供快速冷启动、强大的安全性和内置的跟踪功能，满足现代应用的需求。托管函数的隔离沙箱的平台可以以最小的开销运行代码，使其在云供应商之间保持可移植性。本文的其余部分将解释这种转变如何让团队能够更快地交付价值，同时与团队维护的现有架构和开发工作流保持一致。该模型在混合工作负载下也具有可预测的性能，将延迟保持在严格的范围内。

在此模型中，隔离发生在机器代码级别，而不是通过硬件 VM。WASM 运行时在函数之间提供了一个更好的边界，从而以低开销实现跟踪和可观察性。在进程中运行的模块由微型运行时提供支持，提供可扩展的安全性。事件驱动的设计允许您根据需求进行扩展，并且数据保持良好隔离，从而使团队能够扩展现有服务，而无需一次性重新架构它们。通过这种方法，在一个函数中处理的事件永远不会泄露到另一个函数中，除非明确设计。

在旧的以 VM 为中心的方法和真正轻量级的方法之间，有空间可以有力地调整团队职责。平台团队可以定义安全边界、跟踪策略和成本仪表板，以反映实际处理的事件。在实践中，这意味着您可以将应用程序的一部分迁移到专用的无服务器函数中，而不必强迫它们以相同的速度运行。

为了向前发展，请从一个试点项目开始，该项目将核心路径作为基于 Wasm 的函数运行，并将端到端跟踪集成到您的可观察性堆栈中。定义服务合同，并围绕数据访问保持明确定义的边界。跟踪冷启动时间、内存占用和调用延迟等指标，以确定是否应扩展到其他服务。使用现有工具衡量每次调用的成本并设置预算以防止漂移。评估提供原生 WASM 运行时和分步迁移计划的平台，然后，如果投资回报率令人信服，则扩展到更多工作负载。选择您的团队已经使用的工具，以最大程度地减少摩擦并加速采用。

事件驱动工作负载的细粒度计费

采用平台支持的最精细粒度的按事件计费，并确保发票仅反映已执行的事件及其实际计算时间。

在初创公司和企业场景中，精细化的成本可以保持预算的可预测性。按函数名称、事件类型和工作负载类别进行跟踪 - 而不是隐藏在抽象之后。当您使用每个调用清晰的日志来检测您的平台时，这会变得更容易。

成本应分为三个组成部分：按事件收费、按内存级别划分的计算时长以及按日志或数据传输收费。这使得比较场景和预测数百万个事件的增长更容易。

注意抽象；避免隐藏实际成本的不透明级别。提供按事件的细分以及到具体事件的按抽象的映射。正如 stachlewski 所警告的那样，如果您无法解释哪些事件导致了什么成本，那么抽象可能会变得难以管理。

为了管理空间和日志，请将运行时计费与存储分开，并按保留期内的日志存储或按 GB-月收费，并设置明确的上限以防止成本失控。这种方法使成本与实际工作负载保持一致，并避免了月度账单中的意外。

在哪里实施？一个中央计量服务，用于收集每次调用的指标，通过仪表板和 API 向财务团队公开。这使得将投资回报分配给团队和项目变得容易，并且可以在成本影响现金流之前发现成本高峰。

具体步骤：使用唯一的名称和 ID 检测事件；按场景和工作负载进行标记；发布按事件和按时长的价格表；构建显示事件、时长和总成本的月度报告；运行“假设分析”以估算优化影响；监控日志空间和保留期；与初创公司层面和企业名称内的利益相关者一起审查结果。

安全边界：无服务器环境中的 IAM、秘密和合规性

采用内置的、最小权限的 IAM 机制并自动轮换秘密；通过策略即代码强制执行每个函数的访问；在调用之前验证每个请求，然后记录和监视。使用集中的秘密管理器来存储密钥、令牌和证书，并为每个函数调用发放临时凭据。每个函数角色、自动轮换和可审核日志的组合显著降低了风险，有助于公司满足网络和合规性要求，并保持无服务器安全能够有效安全而又不牺牲敏捷性的希望。当策略更改被编码并在运行时强制执行时，抽象边界就会变得具体。如果函数缺少访问权限，运行时会拒绝它，并且开发人员会收到警报，而不是猜测访问失败的原因。

IAM 和秘密管理实践

授予每个函数的身份和权限，创建具有受限角色的服务帐户，限制跨帐户访问，并使用短期令牌。将秘密存储在专用保管库中；不要硬编码；强制按约定进行轮换；确保在运行时进行验证；实施访问代理以根据网络状态验证身份。计费分配仍然严格：每个函数仅按其自身的权限收费。通过自动 CI 检查让人为参与其中；与可观察性集成。 unikernels 选项可用于高度隔离的工作负载；它们减少了攻击面，并有助于安全实践的可持续性。

合规性、审计和可观察性

将控件映射到框架（ISO 27001、SOC 2、NIST）并实施持续合规性检查；存储不可变的审计日志；提供防篡改记录；确保数据驻留要求；配置异常访问和秘密轮换的警报；维护人类可读的合规性仪表板。定期测试备份和灾难恢复，并记录所有策略更改，以便调查人员可以跟踪事件。通过向监管机构和客户展示清晰、可重复的无服务器安全流程，公司获得了弹性。

无服务器环境中的可观察性、跟踪和调试

通过在每个函数调用的开头部署基于 ebpf 的收集器来启用超快速跟踪，以便在它分支到队列或容器之前捕获跨度上下文。这种方法最大限度地减少了预热惩罚，并使跨自动缩放和并发调用的跟踪链保持完整。

抽象底层运行时详细信息有助于团队在许多运行时中一致地访问跟踪。此外，集成统一的跟踪上下文和供应商无关的可观察性层以解决锁定问题。仔细选择采样以管理收集的数据量，同时在流量高峰期间保持对关键路径的可视性。

专注于跨越 API 网关、队列、函数实例和下游服务的端到端可见性。跟踪跨边界因果关系，因为它从入口点移动到处理事件的工作程序，包括那些在 unikernels 或传统机器上运行的工作程序。这种纪律在事件期间减少了调试时间，并支持超快速根本原因分析。

具体的实施步骤

在每次调用的开头安装 ebpf 探针，启用轻量级的非阻塞数据收集，并将跟踪信息馈送到中央后端。使用通用的采样策略标准化跟踪数据，并显示延迟百分位数、错误率和队列积压的仪表板。使用结构化元数据将跟踪链接到租户、团队或服务版本，并确保访问控制符合数据主权要求。

准备可观察性堆栈以解决最紧迫的问题：瓶颈出现在哪里，如何跨扇出传播峰值，以及哪个服务版本引入了错误。将跟踪与日志和指标集成，以便护理人员可以在队列、重试和回退期间关联事件，然后在与跨职能团队的受控访谈式周期中验证更改。

实际考虑

在 tomasz 访谈中，重点是关注关键路径并保持小巧的数据占用空间。环保遥测很重要：限制数据量，同时为重要的时刻保留保真度，并优先选择将数据量与用户影响脱钩的采样策略。考虑可观察性层如何利用来自 unikernels 和机器的事件，确保跨不同部署的可观察性具有一致性。发布后，将超快速跟踪响应与基线测量进行比较，以验证调试时间是否缩短，以及对于维护复杂无服务器系统的用户来说，整体环境是否更容易导航。

共享运行时中的性能隔离和延迟保证

采用每个租户的延迟预算和共享运行时中的严格隔离，并通过结合 cgroups、Linux 命名空间和沙盒执行环境的混合调度器强制执行。这可以保护用户路径，减少跨租户干扰，并为启动和持续工作负载提供可预测的延迟。

隔离原语：使用每个租户的 CPU 配额（cpuset 或 cpu share）、内存限制和 I/O 节流。分离网络队列和命名空间，并在沙盒容器或 WebAssembly 运行时中运行代码，以最大程度地减少跨租户访问。现有平台使用此方法在工作负载之间强制执行严格的边界，消除了非托管的争用。
两层调度：实施一个全局准入控制器，该控制器按租户和工作负载分配延迟预算，并与本地的每个租户调度器配对，该调度器在池内的函数之间强制执行公平性。使用 DRR 或公平排队机制，并带有保护措施，以防止单一工作负载耗尽其他工作负载。
延迟保证和 SLA：为每个级别定义明确的 SLO - 对于预热调用，在中等负载下目标 p95 延迟在 120-200 毫秒之间，而冷启动路径可能因内存和预热而 range 从 500 毫秒到 1.5 秒。跟踪 p99 和尾部延迟以确保信心，并且要求在超过预算时自动回退。这避免了在不可预测的性能上进行“维加斯式”的投注，并为客户提供了可衡量的承诺。
预热和即时激活：为每个租户和函数维护一个小的、自适应的预热实例池，该池由预测负载和近期学习进行缩放。当需求飙升时，在启动新的隔离环境之前，在同一个租户边界内分配额外的容量，从而减少冷启动引起的延迟峰值。
可观察性和测试：检测每个租户的指标（p95/p99 延迟、队列深度、抖动、干扰索引），并运行连续学习循环，比较预期与观察到的延迟。使用合成工作负载来揭示函数之间的跨租户影响，并在峰值条件下验证隔离。这种数据驱动的方法提高了在问题影响客户之前获取准确反馈和推动变更的能力。
变更管理和集成：与现有的监视堆栈、警报和事件响应集成。确保 SLA 名称和目标对企业团队和开发人员可见，以便采用过程顺畅，并且不受单一供应商工具的锁定。通过保持接口的开放性，团队可以避免灵活性不足，并保持未来获得技术改进的访问权限。
风险管理和治理：建立用于突发处理、准入控制和背压的保护措施，以防止过载损害他人。为负责调整预算和确保符合公司要求的人员定义角色，同时允许初创公司和其他团队在安全限制内进行实验。这种平衡支持整个组织的学习和创新，而不会损害核心服务。

另请参阅：离岸信托资产保护。

另请参阅：在塞浦路斯管理公司数据隐私和...的完整指南。

另请参阅：人力资源中的人工智能。

在实践中，严格的隔离、可预测的调度和主动预热的结合，为企业用户和初创公司带来了转型性的转变。通过控制租户之间的工作负载边界并提供可衡量的延迟保证，团队可以将共享运行时集成到关键工作流中，访问高密度资源，并避免共享执行环境带来的常见挑战。其结果是未来性能可预测、变更可管理，并且创新可以在异构工作负载中扩展，而不会牺牲用户体验。

跨云可移植性：在不造成供应商锁定风险的情况下迁移函数的策略

设计无 VM 的函数，使其在不同云之间具有相同的语义并在便携式运行时上运行。将业务逻辑与云绑定解耦，并定义一个云中立的部署描述符，以便使用最少的适应就可以在 AWS、GCP 或自托管边缘环境中执行相同的函数。此基础可以实现环境之间的快速迁移并降低锁定风险。

下一步是将运行时建立在 ebpf 和 wasm 作为核心底层之上，然后公开一个小的、与云无关的 API 来处理事件输入和输出。这些选择提供了沙盒、可预测的性能以及迁移工作负载而无需进行大量更改的优势。

专注于标准的清单、外部化的状态和一致的可观察性。使用轻量级的抽象层将云特定的功能转换为通用信号，以便您可以在不重写逻辑的情况下切换提供商。将秘密和配置排除在代码路径之外，并将它们放在便携式保管库或秘密存储的后面。

七种实用的模式指导实施：具有稳定入口点的可移植函数；与云无关的配置和功能标志；外部化、版本化的状态；幂等调用语义；具有统一跟踪和指标的跨云可观察性；用于部署决策的策略即代码；以及在迁移期间保留进度的优雅回退。

在工具上的投资会通过更快的迁移、更低的维护成本和更清晰的所有权来获得回报。了解团队如何在几个季度内大幅减少与单一提供商的紧密耦合并减少特定于云的代码，将预算与实际工作负载需求而不是供应商提示对齐。

Netflix 和类似的分布式工作负载说明了一条路径，其中实体跨越区域和云，但核心函数保持可移植。工程团队发布的流行博客，展示了最小的无 VM 表面加上强大的工具如何减少本地和公共云执行之间的差异，帮助团队专注于功能交付而不是平台怪癖。

最初使用小型工作负载进行验证以证明可移植性，然后将该方法扩展到不同的团队。定义清晰的治理负责人，将投资与七种模式对齐，并将它们映射到最需要的工作负载，以确保平稳过渡而不中断。