Web 进化论 - 2024 年度大会

机器学习、WebGPU、媒体技术

2024年5月28-29日 · 上海

总结报告

活动概述

Web 进化论 - 2024 年度大会于2024年5月28-29日在上海举办。活动围绕机器学习、WebGPU 与媒体技术展开,重点聚焦多媒体 Web 技术、媒体传输、机器学习、元宇宙、沉浸式 Web、以及 GPU 在 Web 标准化领域的应用。

本次活动由 W3C 中国(北京航空航天大学)发起,感谢哔哩哔哩承办本次活动,感谢 Khronos Group 与 微软 Reactor 对活动的支持。

活动采取线上线下结合的交流形式,90多位与会者参与线下交流,超15000人次通过 W3C 中国和微软 Reactor 在 B 站、微信视频号、CSDN、思否等直播平台同步观看本次大会,并积极参与实时互动。我们感谢各位讲者的精彩分享、感谢全体与会成员的大力支持和参与!

话题摘要

以下为各位讲师的分享题目及内容摘要(含已得到讲师授权公开的现场视频及演示文稿资料)。

Web 上的媒体与娱乐技术标准化François Daoust(W3C 资深媒体技术标准专家)分享了 W3C 在实时媒体、Web 游戏、AI、元宇宙等领域的标准化探索与当前工作进展(参见演示文稿、现场视频:B站YouTube)。

WebCodecs 开启 Web 音视频新篇章刘俊(哔哩哔哩资深工程师)重点介绍了 WebCodecs,分享了 WebCodecs 能做什么、它的应用场景及其优势与限制(参见演示文稿、现场视频:B站YouTube)。

WebGPU 的 Vulkan 同步Nathan Li(Arm 开发者生态高级经理)对比了 WebGPU 与 WebGL、Vulkan 之间的关系,介绍了 Dawn 项目(一个围绕 GPU 的实验),并分享了相关的开发者资源(参见演示文稿、现场视频:B站YouTube)。

WebGPU 和 Web AI 最新进展顾扬(英特尔公司 Web 图形和 Web AI 负责人)分享了 WebGPU API 和 WebGPU 着色语言规范的核心进展,当前主流浏览器的支持状态,以及开发中的新特性(尤其是 AI 相关的特性)(参见演示文稿、现场视频:B站YouTube)。

WebRTC 媒体传输探索和信令标准化应用陈成(字节跳动 WebRTC 传输资深工程师)分享了对 WebRTC 媒体传输的探索(包括 WebRTC 媒体传输流程、WebRTC Insertable Streams、Unbundling WebRTC),以及 WebRTC 信令标准化应用(包括 WHIP/WHEP 协议和应用场景)(参见演示文稿、现场视频:B站)。

WebNN 概述及最新进展胡宁馨(Intel 首席工程师)展示了 CPU、GPU、NPU 这三个 AI PC 的硬件引擎,阐释了 WebNN 为 Web 带来了神经网络的统一抽象,通过原生 OS ML API 访问 AI 硬件加速,提供接近原生的性能和下一代用例,并分享了相关规范的开发进度及实现状态(参见演示文稿、现场视频:B站)。

ncnn Vulkan 机器学习最新进展倪辉(腾讯优图实验室研究员)概述了 ncnn 神经网络推理框架,介绍了基于 Vulkan 的机器学习相关进展(参见演示文稿、现场视频:B站)。

WebXR 在 3D 引擎中的实践徐乾伟(蚂蚁集团 Galacean 3D 互动引擎团队负责人)展示了 XR 相关的业务诉求,分享了 Web 3D 引擎(Galacean Engine)、为什么选择 WebXR 以及 Web 3D 引擎中的 XR 框架设计,并介绍了正在进行的客户端 WebXR 基建与 XR 编辑器等工作(参见演示文稿、现场视频:B站)。

Web 媒体处理与实时传输标准实践高纯(声网高级架构师)分享了 RTC 行业的新趋势,重点分析了端到端加密、数字版权管理、WebRTC H265 支持、Alpha 视频传输等案例(参见演示文稿、现场视频:B站)。

Matroska 解封装原理与实践王妍君(哔哩哔哩高级工程师)分享了 Matroska 解封装的背景、原理、方案、应用,并展望了如何进一步优化解析流程和提升解析能力(参见演示文稿、现场视频:B站)。

安全摄像头的探索与实践张武(IIFAA 联盟技术高级专家)探索了在应对 DeepFake 实时图像流注入攻击风险时,如何通过安全摄像头的方式提升整个图片流的可信度和安全性(参见演示文稿、现场视频:B站)。

下一代互联网的探索 — 星际网络徐嵩(中国移动咪咕公司技术总监)分享了人类对太空互联网的探索活动、星际通讯面临的挑战,以及探索建设下一代太空互联网需要考虑的问题。

Immersive Web API 探索与实践於一飞(字节跳动技术专家)分享了字节跳动跨平台团队对沉浸式 WebAPI 的探索、实现和实际应用(参见演示文稿、现场视频:B站)。

用 OpenXR 构建一个全新的生态系统刘帅(字节跳动 PICO XRRuntime 技术负责人)重点介绍了 OpenXR 的基础概念与应用、OpenXR API 的概况、OpenXR 1.1 规范的近期更新以及未来的进一步扩展(参见演示文稿、现场视频B站)。

Vulkan 标准进展介绍蔡康颖(华为图形标准高级研究员)分享了图形 API 的演进,将传统与现代图形 API 之间进行了对比,重点介绍了 Vulkan API 及其2024年的发展路线图。

HDR Vivid 和 Audio Vivid 技术标准及相关应用周芸(国家广播电视总局广播电视科学研究院高级工程师)分享了 HDR Vivid 和 Audio Vivid 技术架构、关键技术、方案特点、应用场景以及标准所面临的问题,并围绕 HDR 和空间音频体验在 Web 上的应用提出了思考。

可嵌入的 WebGL + WebXR 双目实现刘亚中(Rokid 技术专家)介绍了空间小程序、统一渲染、WebXR 统一渲染的实现路径以及未来计划(空间中的浏览器)。

AI 赋能无障碍电影智能制作王炜(浙江大学高级工程师)阐释了无障碍电影、无障碍直播解说及其制作流程,探讨了优化电影字幕识别能力的方向,以及人工智能如何进一步赋能无障碍电影制作流程,并展示了目前已经取得的成果(参见演示文稿、现场视频:B站)。

基于 Web 的数智人开发与实践赵磊(中国移动咪咕前端开发总监)分享了数智人的概念、技术开发与相关实践,展望了 WebGPU 与 3D 渲染、生成式 AI 和渲染结合的未来前景(参见演示文稿、现场视频:B站)。

前端在数字人创作工具中的应用实践邓斌(哔哩哔哩资深工程师)展示了基于音色克隆和数字分身技术的“必剪Studio”智能创作平台,介绍了绿幕抠像的原理、流程、技术挑战和应对方案,以及音视频合成、音频波形可视化、音频在线转码、SSML 可视化编辑器等应用实践(参见演示文稿、现场视频:B站)。