Web 进化论 — 2024年度大会：机器学习、WebGPU、媒体技术

总结报告

活动概述

Web 进化论 - 2024 年度大会于2024年5月28-29日在上海举办。活动围绕机器学习、WebGPU 与媒体技术展开，重点聚焦多媒体 Web 技术、媒体传输、机器学习、元宇宙、沉浸式 Web、以及 GPU 在 Web 标准化领域的应用。

本次活动由 W3C 中国（北京航空航天大学）发起，感谢哔哩哔哩承办本次活动，感谢 Khronos Group 与微软 Reactor 对活动的支持。

活动采取线上线下结合的交流形式，90多位与会者参与线下交流，超15000人次通过 W3C 中国和微软 Reactor 在 B 站、微信视频号、CSDN、思否等直播平台同步观看本次大会，并积极参与实时互动。我们感谢各位讲者的精彩分享、感谢全体与会成员的大力支持和参与！

话题摘要

以下为各位讲师的分享题目及内容摘要（含已得到讲师授权公开的现场视频及演示文稿资料）。

Web 上的媒体与娱乐技术标准化：François Daoust（W3C 资深媒体技术标准专家）分享了 W3C 在实时媒体、Web 游戏、AI、元宇宙等领域的标准化探索与当前工作进展（参见演示文稿、现场视频：B站、YouTube）。

WebCodecs 开启 Web 音视频新篇章：刘俊（哔哩哔哩资深工程师）重点介绍了 WebCodecs，分享了 WebCodecs 能做什么、它的应用场景及其优势与限制（参见演示文稿、现场视频：B站、YouTube）。

WebGPU 的 Vulkan 同步：Nathan Li（Arm 开发者生态高级经理）对比了 WebGPU 与 WebGL、Vulkan 之间的关系，介绍了 Dawn 项目（一个围绕 GPU 的实验），并分享了相关的开发者资源（参见演示文稿、现场视频：B站、YouTube）。

WebGPU 和 Web AI 最新进展：顾扬（英特尔公司 Web 图形和 Web AI 负责人）分享了 WebGPU API 和 WebGPU 着色语言规范的核心进展，当前主流浏览器的支持状态，以及开发中的新特性（尤其是 AI 相关的特性）（参见演示文稿、现场视频：B站、YouTube）。

WebRTC 媒体传输探索和信令标准化应用：陈成（字节跳动 WebRTC 传输资深工程师）分享了对 WebRTC 媒体传输的探索（包括 WebRTC 媒体传输流程、WebRTC Insertable Streams、Unbundling WebRTC），以及 WebRTC 信令标准化应用（包括 WHIP/WHEP 协议和应用场景）（参见演示文稿、现场视频：B站）。

WebNN 概述及最新进展：胡宁馨（Intel 首席工程师）展示了 CPU、GPU、NPU 这三个 AI PC 的硬件引擎，阐释了 WebNN 为 Web 带来了神经网络的统一抽象，通过原生 OS ML API 访问 AI 硬件加速，提供接近原生的性能和下一代用例，并分享了相关规范的开发进度及实现状态（参见演示文稿、现场视频：B站）。

ncnn Vulkan 机器学习最新进展：倪辉（腾讯优图实验室研究员）概述了 ncnn 神经网络推理框架，介绍了基于 Vulkan 的机器学习相关进展（参见演示文稿、现场视频：B站）。

WebXR 在 3D 引擎中的实践：徐乾伟（蚂蚁集团 Galacean 3D 互动引擎团队负责人）展示了 XR 相关的业务诉求，分享了 Web 3D 引擎（Galacean Engine）、为什么选择 WebXR 以及 Web 3D 引擎中的 XR 框架设计，并介绍了正在进行的客户端 WebXR 基建与 XR 编辑器等工作（参见演示文稿、现场视频：B站）。

Web 媒体处理与实时传输标准实践：高纯（声网高级架构师）分享了 RTC 行业的新趋势，重点分析了端到端加密、数字版权管理、WebRTC H265 支持、Alpha 视频传输等案例（参见演示文稿、现场视频：B站）。

Matroska 解封装原理与实践：王妍君（哔哩哔哩高级工程师）分享了 Matroska 解封装的背景、原理、方案、应用，并展望了如何进一步优化解析流程和提升解析能力（参见演示文稿、现场视频：B站）。

安全摄像头的探索与实践：张武（IIFAA 联盟技术高级专家）探索了在应对 DeepFake 实时图像流注入攻击风险时，如何通过安全摄像头的方式提升整个图片流的可信度和安全性（参见演示文稿、现场视频：B站）。

下一代互联网的探索 — 星际网络：徐嵩（中国移动咪咕公司技术总监）分享了人类对太空互联网的探索活动、星际通讯面临的挑战，以及探索建设下一代太空互联网需要考虑的问题。

Immersive Web API 探索与实践：於一飞（字节跳动技术专家）分享了字节跳动跨平台团队对沉浸式 WebAPI 的探索、实现和实际应用（参见演示文稿、现场视频：B站）。

用 OpenXR 构建一个全新的生态系统：刘帅（字节跳动 PICO XRRuntime 技术负责人）重点介绍了 OpenXR 的基础概念与应用、OpenXR API 的概况、OpenXR 1.1 规范的近期更新以及未来的进一步扩展（参见演示文稿、现场视频B站）。

Vulkan 标准进展介绍：蔡康颖（华为图形标准高级研究员）分享了图形 API 的演进，将传统与现代图形 API 之间进行了对比，重点介绍了 Vulkan API 及其2024年的发展路线图。

HDR Vivid 和 Audio Vivid 技术标准及相关应用：周芸（国家广播电视总局广播电视科学研究院高级工程师）分享了 HDR Vivid 和 Audio Vivid 技术架构、关键技术、方案特点、应用场景以及标准所面临的问题，并围绕 HDR 和空间音频体验在 Web 上的应用提出了思考。

可嵌入的 WebGL + WebXR 双目实现：刘亚中（Rokid 技术专家）介绍了空间小程序、统一渲染、WebXR 统一渲染的实现路径以及未来计划（空间中的浏览器）。

AI 赋能无障碍电影智能制作：王炜（浙江大学高级工程师）阐释了无障碍电影、无障碍直播解说及其制作流程，探讨了优化电影字幕识别能力的方向，以及人工智能如何进一步赋能无障碍电影制作流程，并展示了目前已经取得的成果（参见演示文稿、现场视频：B站）。

基于 Web 的数智人开发与实践：赵磊（中国移动咪咕前端开发总监）分享了数智人的概念、技术开发与相关实践，展望了 WebGPU 与 3D 渲染、生成式 AI 和渲染结合的未来前景（参见演示文稿、现场视频：B站）。

前端在数字人创作工具中的应用实践：邓斌（哔哩哔哩资深工程师）展示了基于音色克隆和数字分身技术的“必剪Studio”智能创作平台，介绍了绿幕抠像的原理、流程、技术挑战和应对方案，以及音视频合成、音频波形可视化、音频在线转码、SSML 可视化编辑器等应用实践（参见演示文稿、现场视频：B站）。