微软 Azure Local 十月更新酿“超级灾难”:约每隔 20 小时蓝屏 1 次

抖音秀 热点资讯 11

11 月 1 日消息,科技媒体 BornCity 昨日(10 月 31 日)发布博文,报道称微软近期为 Azure Local 发布解决方案更新 2510(版本号 11.2510.1002.87),导致集群系统频繁出现错误代码为 0x139 的蓝屏死机,大约每 20 小时崩溃一次。

注:Azure Local 是微软提供的一种混合云解决方案。它允许企业在自己的数据中心或本地服务器上运行一部分 Azure 云服务,就像在本地拥有一个迷你的 Azure 站点一样,特别适用于需要低延迟或数据本地化处理的场景。

微软于 10 月下旬为 Azure Local 发布的解决方案更新 2510,在部分生产环境中引发了严重的系统稳定性问题。

一名为医疗保健行业提供服务的 IT 技术人员报告称,在为一个客户的 Azure Local 集群系统安装该更新(版本 11.2510.1002.87)后,所有主机节点开始频繁遭遇蓝屏崩溃,系统显示的错误检查代码为 0x139。

这次事故对该医疗客户造成了巨大冲击。据报告,系统蓝屏大约每 20 小时发生一次,导致承载着约 100 台虚拟机的多个主机节点相继宕机。

对于分秒必争的医疗系统而言,这种“超级灾难(Super-GAU)”级别的故障无疑是致命的。技术团队在事故发生后立即尝试更新所有驱动程序和 BIOS,但未能解决问题,系统崩溃依旧持续,根本原因一度不明。

在本地排查无果后,技术团队携带小型转储文件(Minidump)联系了微软官方支持。支持部门确认,错误代码 0x139 是一个已知问题,其根源在于 2510 更新本身包含的一项错误变更。

为解决此问题,微软提供了一个注册表修复命令,用于禁用该错误功能。在收到多个问题报告后,微软最终正式撤回了版本号为 11.2510.1002.87 和 12.2510.1002.88 的 Azure Local 更新。

reg add HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Policies\Microsoft\FeatureManagement\Overrides /v 556278415 /t REG_DWORD /d 0 /f

官方发布说明指出,正在对两个问题进行调查:一是更新后节点平台版本不匹配的错误;二是 Hyper-V 套接字存在一个可能导致节点崩溃的问题。