W3C

无障碍专题交流

2022年9月7日

题目:借助人工智能和大数据提高屏幕阅读器的适用性

讲者:宋君(心智互动 首席架构师) [演示文稿]

现场纪要

宋君:大家好,我叫宋君,是北京心智互动科技有限公司的首席架构师,我今天讲的主题是借助人工智能和大数据提高屏幕阅读器的适用性。

首先介绍一下我们公司,成立于2017年3月23日,至今已经有五年半的时间,公司最大的特点是首要的目标用户是视障群体,所以我们目前整个公司的产品大概已经服务60万+的视障用户,聚焦于无障碍信息化视野,致力于互联网、移动互联网、5G、人工智能等技术,是一家为视觉障碍人群打造的移动互联网社交及娱乐产品和服务的爱心企业。

从企业成立,就具备多元与包容的文化,成为了多元融合就业的先行示范者,为视障者提供了多个工作岗位,占比约30%。

五年半的时间开发了一款心智无障碍的助手,联合科大讯飞一起开发,另外更为重要的是爱说笑社群,可以说是中国最热闹的盲人社群,可以提供盲人和盲人之间的交互、娱乐、交友、学习、直播的一些功能,也有主播通过在平台上进行直播,然后去进行一个多元化的就业尝试。

除此之外,还有多款游戏,比如说听游江湖等多款在线类的游戏,还有开拓性的用用户的话来说是盲人界的吃鸡,射击类的产品。

近期又开发了一个盲人沉浸式的实践训练培训系统,采用线上线下结合的方式来打造培训闭环,锻炼视障人群的生活和职业技能,促进多元就业。

视障人群使用移动应用的现状,从业工作者比较了解了,随着国家对适老化和无障碍改造的重视,推动充分兼顾老年人、残疾人需求的信息化社会建设,现在我身边的视障同事们,他们已经可以像明眼人一样自如的使用手机聊天、点外卖、打车、网购等等日常生活中所必须的技能,通过线上可以很好的完成。

提到外卖,我插一句话,刚才饿了么的江老师提到在8月份做了一次针对于视障用户的当天全免费的活动,我替我的视障同事跟你打听一下什么时候有下一次。

其实移动应用在无障碍方面已经取得了进步,目前表现在更多的大厂的国民级应用说,对更多的用户还不是十分的友好,有很大的提升空间。其中存在一些关键控件无法被选中,无法进行交互操作,缺少提示等硬性的通过性的问题。

从开发者的角度来说,从我个人的开发经验而言,如果就单单从技术工作的角度来说,对一款应用进行无障碍适配是一件很简单的事,一点都不复杂,无非是按照规范和标准调用一些相应的接口和做一些相应的标签设置,基本上技术人员的工作就已经完成了。

所以从我们的角度来说,在无障碍适配的过程中更为复杂的其实是设计和测试的工作,因为在某些情况下无障碍的交互操作,打开读屏时的交互操作是存在一定的限制,在这种情况下如何同时满足明眼用户和视障用户就成为一个比较棘手的问题。对于明眼人的测试人员有一个更多的要求,他们要熟练的使用各种厂商的读屏工具来进行应用的测试。

目前各个读屏厂商及各个移动操作系统及Web浏览器对于无障碍标准的理解和实践上也有一定的差异,导致产品在不同的设备上会有不同的表现。

以上这些对于我们这样的公司,因为我们是专注于视障用户的,所以这些工作是必不可少的,但是对于一些有更大的目标群体,视障用户只占其中一小部分的企业和公司开发者来说,以上说的这些都会是额外的成本。

这应该是他们在开始重视无障碍体验之后,必须要面对的一个问题。

屏幕阅读器,我们公司也在研发一款屏幕阅读器,目前已经上线了。对于目前的状况它只是一个机械的工具,把用户选择的控件,把一些标签朗读给用户,告诉用户选择了什么,接下来如何操作等等一些提示性的东西。这些标签和这些参数恰恰是开发者需要去设置和标记的,所以它在很大程度上对读屏工具来说,很大程度上会依赖于开发者开发应用中对无障碍的标准遵守的好与不好。

这是我们很想解决的一个痛点,目前的标准可以让我们的使用得更好,在无障碍适配方面做的更好,但是我们需要让更多的应用和开发者去参照这个标准,这是一个巨大的成本。

这是我们重要的愿景也是我们团队思考的一个方向,更像明眼人的屏幕阅读器。

好在目前绝大多数的应用对于明眼人都是友好的,因为明眼人都是他们的主要用户,对于屏幕阅读器来说,如果它变得更加的智能,能够像明眼人那样的操作方式、行为方式和理解方式去使用、应用的话,分析这款应用的话,帮助帮人,会对于读屏的适用性会有大大的提升。

可见即所得,这个是在开发中经常提的一点,这个是应用于开发人员的角度,但是对于无障碍方面,明眼人可见,视障人可得,这个是目前还达不到一个效果。

在我所参与开发中的一些经验来说,经常会遇到这样的情况,我在正常操纵下,也就是关闭读屏的情况下,可以选中某些控件进行正常的操作,但是当我打开读屏之后,明明有些控件可以看到,但是无法摸到,无法选择,无法聚焦的状态,而且这种问题在Web中比较常见的。

一般来说都是由于开发者没有开发无障碍的标准,导致屏幕阅读器没有识别于相应的控件,来导致出现这样的问题。

屏幕阅读器是否可以模仿明眼人的点选和操作的逻辑,而不是需要知道这个控件本身程序方面对它的定义是什么。

这就提到第二点,学习软件UI交互设计的通用习惯。我们使用应用的时候,一款应用中的聊天功能,我们通常会看到在文字输入框的旁边有一个按纽,这个按纽配有一个箭头或者是一个回车图标进去。

明眼人根据经验以及界面布局的位置、图像,依据自己的经验可以轻易的判断出这就是一个发送聊天信息的按纽,即便在程序方面没有定义为一个按纽,也没有做相应的标签设计和提示,但是通过一个相应的图片和位置,就可以分析出来它是做什么用的。

这是对于屏幕阅读器期望获得的能力,它可以分析通过深度学习和大数据分析界面的布局,以及一些图像的示意效果来提升屏幕阅读器的适用性,这样的话大大降低没有特别好的参照无障碍标准实现的那些应用它们对于视障人群的适用程度。

这也许会成为下一代屏幕阅读器的方向,随着全社会对无障碍的重视和推进和相关从业者的辛勤耕耘,无障碍技术的研发标准和准入的标准都会逐步的完善,如果能够在赋以更加智能的,更加人性化分析的读屏的工具,相信离真正的实现数字无障碍是可以期待的。

在此,我也希望能够与更多的无障碍的伙伴进行深入的合作,探索人工智能及大数据在无障碍领域的应用,一同推进无障碍事业的发展。

我的演讲到此结束,谢谢大家!

返回会议总结主页


若您对上述内容有任何疑问或需进一步协助,请联系:讲者冉若曦 <ran@w3.org> 或会议主办方 W3C 北航总部 <team-beihang-events@w3.org>。