@liuhui0803 2017-08-31T01:49:03.000000Z 字数 8131 阅读 3062

大话对话式UI

人工智能 UX 机器学习 AI

摘要：

本文从目前的应用场景和未来发展方向等方面探讨了以数字化个人助理为主的对话式用户界面（CUI）技术的发展现状和前景，并就这领域的相关问题进行了探讨。

正文：

在与ThoughtWorks的几位同事进行过几次比较有趣的讨论后，我决定撰文谈谈我们讨论的几个话题，以及我对“对话式用户界面”（Conversational User Interface）的感想。

对话式用户界面到底是什么？

首先，先来看看近些年来业界发布的几个重大成果：

2011年10月：Apple在发布的iPhone 4S中搭载了测试版Siri。
2012年7月：Android Jelly Bean中首次引入“Ok Google”，Galaxy Nexus智能手机成为首个支持该功能的设备。
2013年4月：微软开发者大会上展示了Windows Phone平台上的Cortana。
2014年11月：Amazon发布了Alexa以及Echo和Dot两款硬件产品。

这些都属于智能数字化个人助理，可通过对话式用户界面（CUI）与之交互，用户向这些产品说话，助理可以通过一些信息加以回应。

如今，这些技术实用吗？

用户向着设备讲话，通常会希望能得到超出预期的数字化信息回馈。然而哪怕已经到了2017年，根据记载，合成“语音”技术实现至今已经过了81年，我们依然很难将这样的技术广泛应用到日常生活中。

已经2017年了，除了简单的行程预订、播放音乐、询问天气，或者机械地重复一些最基本的信息这种我们通过其他方式就可以轻松搞定的事情，CUI技术的实用性并没有实现足够大的突破。

人工智能可以在国际象棋和围棋领域打败我们人类，确实厉害，然而我禁不住好奇到底等到哪一天，我们才能真正实现电影“Her”中那种程度的对话（译注：电影Her，中译名“她”，相关信息可参阅：https://movie.douban.com/subject/6722879/）？这一天还要等多久？从2011年Siri发布到现在，面向实际用户的应用市场到底发生了哪些变化？为什么相关领域无法像我们期待的那样取得足够快的进展？

Daniel Eckler在一篇很赞的文章中写到：“在技术能够真正领略交流沟通中的各种细节，包括面部表情、说话的语调，甚至身体语言之前，文字依然会是人工智能最完美的载体。也许无法实现像电影Her中Joaquin Phoenix通过操作系统体验的那种满怀感情的对话，但至少已经向着正确的方向开始推进了。”

读到这段话的一些人会试着解释说，CUI领域目前依然处于概念证实的阶段，公众本身也还没有准备好在现实生活中体验到那种程度的人工智能。但是要我说，自从1966年星际迷航第一集上映时，公众就已经准备好了。当然大家也被1968年上映，由Arthur C. Clarke编剧的“2001: A Space Odyssey（2001太空漫游）”中的人工智能吓得不轻。

似乎正如Daniel在自己的文章中提到的，我们在这方面依然处于蹒跚学步的阶段，而具体原因有很多。

情感的连接在哪里？

现在我们已经发现，统计显示应用的月度下载数量正在飞速降低，就算在我自己的手机上，我也已经记不起来上一次没有针对具体需求进行搜索就下载应用是在什么时候。

也许这只是个例，但我觉得大部分人的情况也差不多，我们与某些特定应用之间似乎有一种奇怪的情感连接。也许某些应用曾经非常有用，也许下载需要一定的成本，或者可能只是因为应用的视觉设计或交互比较赏心悦目。

例如我身边就有这样一个例子：用来记录笔记和创建清单的Clear App。在我看来，这个应用在大部分情况下远远好过Gmail的Inbox“提醒”功能，当然也远胜传统纸笔。

尽管我真的喜欢这个应用，喜欢它的交互方式、配色主题、触控反馈、声音反馈，以及最重要的……图标的设计。我喜欢它的图标以至于始终把这个应用放在主屏上，虽然从不打开也从不使用，但我就是爱这个应用。

虽然不再使用这个应用了，但我与它依然存在情感的联系。对于CUI，已经没有“实体”应用可供我们建立联系，没有可以吸引我们的视觉效果或品牌烙印，也没有可供操作的交互体验。但并不是说这会造成什么问题，也许不与应用建立那种奇怪的情感联系，这才是一种更好的做法。但CUI是不可见的，对人类而言这意味着很难建立并联系与CUI之间的关系和纽带。

再想想企业、初创公司、独立设计师／开发者该如何向公众推广他们的应用吧。他们该如何吸引用户尝试自己的应用，确保用户能持续使用，而不会将自己的服务抛诸脑后。不是说这不可能做到，只不过必须非常慎重地考虑这些问题，才能让CUI服务获得成功。

还有另一个问题需要考虑：我们与服务的交互方式可能会变的更自然。一旦用户习惯了个人助理应用，并且愿意与它展开对话交流，用户可能会期待这样的助理能做到更多事情，这样的助理可能会在他们的生活中无处不在。这种情况同时具有积极和消极的影响。

房间里的箱子

有人说自己已经与某些实物建立了情感联系，目前市面上的一些产品，例如Amazon Echo/Google Home/Apple的各种产品，它们的实体设计都很棒，摆在用户家里那些铝合金材质的设备（甚至超市里买的廉价塑料水壶）旁边也显得非常漂亮。

虽然这些实体产品看起来、摸上去感觉都不错，但若想获得成功，依然需要不可见的CUI在背后默默地努力工作。它们必须成为我们生活的一部分，想象星际迷航里的场景吧，它们“居住”在我们的电视里，与我们的房屋、汽车、工作场所，冰箱、水壶、吐司炉等各种物件无缝集成。它们生来就不是为了以一个小盒子的形态呈现，让我们随手摆到房间角落里使用的。

我觉得制造这些设备的人肯定也知道，他们必须从某方面着手让人们逐渐开始习惯这样的交互方式。很快我们将面临这样的情况：一旦CUI作为一种概念最终获得证实，很快将变得无处不在，并在伦理、道德以及管控等方面迎来各种复杂的挑战。

所有这一切主要取决于产品设计和开发团队对相关问题的理解和管理。这些团队中设计师、分析师和开发者的角色将会产生巨大的变化。

边缘案例将会倍增

对于桌面、手机、平板等更“传统”的接口，相关的核心用户体验更易于设计，并且由于人类自身习惯的影响，该领域有趣的/与众不同的/让人出乎意料的边缘案例也略多一些。

对于CUI，关注的是人本身以及他们的对话，但边缘案例已经不仅仅位于“边缘”，而是开始向着前方和中央位置挺进。人是一种奇怪的生物，他们的对话以及对话方式就更怪了。

人们相互交谈的方式，不只是语言和发音，甚至对话交谈的实际体验，都是千变万化的。现在我们要以直接或间接的方式与机器人进行这样的对话，如果对话无法让我们沉浸其中，那么整个体验会让人感觉极不自然，甚至感觉自己也像是机器人。

在某些情况下用户可能发现，为了让CUI更好地理解，自己会有意调整所说的话语，这也会导致交互式对话与人之间的对话方式产生更大偏差。用户并不希望这样，这样做也并不能让任何CUI服务获得成功。

人总是古怪的，非常古怪

说到古怪的边缘案例，其实很多人还会与CUI进行很多随机的对话交流。对实体设备来说，这种交互往往是非常个人的，并且会以很快的速度进行，这种做法可能是为了满足某些要求或需求，此外还有更多情况并非出于某种非常具体的原因，仅仅是为了让用户满意。

例如我母亲询问本周天气的做法就是一个范例。她最近刚刚迁居国外，不仅希望了解当地天气，而且希望了解故乡、她最喜欢的度假地、我的所在地，以及心里一直念念不忘的另一个度假地的天气情况。这些地点根本不在同一个国家，更不用说在同一个城市了。

这无疑是一种边缘案例，但这种案例只会在她自己的手机上偶尔出现一次。而她这样获取到的天气信息也可以用在稍后的交谈中（毕竟她是英国人……）。假设一下如果要通过某个设备，以CUI的方式这样做，那就奇怪了，需要花费大量时间，结果可能不如人意，甚至可能让人尴尬。

如果是那个芬兰的重金属乐队呢？

你会如何要求Spotify播放Roi Alekpehanhou的专辑Sato Na Hangna？或者其中你最喜欢的一首歌： Kwang Noi Chaolay？如果对方是芬兰的重金属乐队呢，例如Teräsbetoni或者Rytmihäiriö？

除非口述命令的人本来就来自非洲贝宁、泰国或芬兰，否则Spotify可能根本无法理解用户到底问了什么。口音是一方面，但更重要的是发音。

用户：“Simon，播放……‘Roy-a-lec-pea-hann-who的Saatoo-nah-hang-nah’……”
Simon：“好的，正在播放‘The Who’！”
用户：“……”

这些技术将会越来越能听懂我们说的话，但如果用户自己都不知道如何正确读出相应的单词或名称，那么最终也许只能直接播放某种类型的音乐，或者导致用户根本不再使用CUI。

这也会导致我们逐渐步入一种单一化社会（Homogenised society），不仅音乐缺乏多样性，甚至一切都会缺乏多样性。用户只能以自己可以正确发音的语言提问或查询信息，最终导致泰国音乐少为人知，所有人都在听艾德·希兰（Ed Sheeran）。

情境为王

CUI服务成功的关键在于对情境的理解以及不断学习和完善的能力。用上面的天气查询作为例子来说，随着我母亲继续使用，CUI需要了解到，她可能不仅仅只希望知道自己当前所在地的天气信息。这其中可能需要进行一定的设置，但效果通常会很不错，或者也可以通过手机提供某种可视化的提示，并主动询问是否需要相关的帮助。

如果CUI无法学习用户习惯，那么这种服务有何意义？明确来说，我说的不单单只是Alexa或Siri，我说的是所有针对不同平台构建的此类应用。恰恰是这些应用需要了解用户的真正需求，而这必须将通过用户信息收集的各类数据，以及用户以往对话历史相结合才能做到。

同时这也不应该仅仅由设备被动地响应用户问题，而是应该能主动向用户告知相关信息。我的个人助理会主动祝我早上好，也许是通过某种无声的方式，但只要我对此做出了回应，它就会为我提供更进一步的信息。我不需要主动问天气如何或者当天的日程安排，它会知道我想要知道这些信息，并在我问出口之前主动提供。

Cyril：“早上好，Chris”
用户：“嘿”
Cyril：“你今天计划前往曼彻斯特，那边在下雨还请注意！”
User：“哦，好的，在我出门前，记得提醒我带伞。”

相关硬件及其操作系统的成功与否将取决于提供这类智能应用，以及通过自己的平台提供各类实用服务的第三方厂商，此外在很多情况下，还需要妥善考虑到隐私和数据保护等问题。

它们的速度真的更快吗？

我经常听到看到有人说，与CUI交流获得信息的速度要比通过传统数字化设备借助不同服务获取同样信息的速度更快。

就询问天气来说，相比拿出手机、解锁、访问App Store、搜索天气应用、选择一款天气应用、输入密码、下载、安装、配置、了解使用方法、找到所在城市、保存地点信息、查看天气情况……直接询问个人助理当然速度会更快。

然而上述操作只需要做一次，并且如果我对手机自带的天气应用足够满意，上述大部分操作都可以省略。交互过程最关键的地方在于到底能以多快速度看到所需信息，而只要大致瞅一眼可视化界面，不仅可以知道一整天的天气情况，而且可以了解一周内的整体天气情况。

CUI可能需要额外花时间解释未来每小时甚至每天的不同情况，我觉得这可算不得快。

不过CUI的一个重要优势在于，我可以在询问最基本的天气预报同时，继续做手头正在处理的任何事情，因此虽然速度未必更快，但对日常生活的影响可以变得更小，让我可以将更多时间用在真正需要的地方。

CUI可以高效地满足大部分“标准”用户案例，查询账户余额、预订常住酒店或火车票。用户希望获得数字化的效率，以及高效率的数字化，这依然是企业需要解决的一个核心挑战，对此，成功的CUI往往扮演了重要的角色。

无形的“可发现性”

CUI是不可见的，在真正需要前，我不会知道自己想要什么，而在我真正需要时，它最好能让我非常轻松容易地获得。同理，我不希望通过一个手机应用安装其他更多应用，这些事情应该让个人助理自己搞定。

CUI该如何自动读取某一类别排名前三的应用，并将相关信息全部提供给我，帮助我做决定？或者直接让我自己选择一个移动应用？后一种情况，我只需要看看开发商信息以及应用的屏幕截图，就可以快速确定自己需要的应用。

其实也有一种更有趣的方法：假设个人助理能够根据我的日历项或其他数据知道我下周要去意大利，随后我当然可以自行下载一个应用，但更无缝并且让人印象更深的做法是，设备可以向我推荐罗马导游应用。

Valerie：“据说你下周要去罗马，需要我推荐好玩的地方吗？”
用户：“好呀好呀。”
Valerie：“你更喜欢谁家的导游服务？Lonely Planet还是Trip Advisor？”
用户：“第一个。”
Valerie：“好的！据说罗马斗兽场很有意思，不过每天早11点之后人很多，所以最好早点去。周四应该不错，那天不冷不热天气刚刚好。”
用户：“听着不错，帮我加入日历吧。”

我可能需要罗马导游应用、语言学习应用，甚至交通指南应用，这些东西最好能自动下载完成，并在我出行前陆续显示在手机里，然后在我到家后、下次再去之前，从我的手机里彻底删除。

也许很快我会再次去罗马，这种情况下CUI最好能记住我上次的游览情况，去过哪里、对不同景点有何感想、其他人是否喜欢去别的地方，我们应该能就这些情况进行交流，以便下一次能提供更贴心的推荐。

Valerie：“啊，你又要去罗马了呀！上次去斗兽场好玩吗？”
用户：“好玩啊，太棒了！”
Valerie：“那么这次建议你去古罗马广场转转，以前你去过这里吗？”
用户：“还真去过，也挺不错的。”
Valerie：“那好吧，要不这次去梵蒂冈博物馆？”

这里的重点在于，我自己不需要参与到决策工作中，类似这样的服务并不需要面向用户提供某种集成式的应用，帮助用户搜索、下载和安装需要的东西，只需要问我是否允许它“了解”我，并基于对我的了解提供相关的建议。

这就进入了非常复杂的机器学习领域，而这样的能力极为关键，毕竟如果不能了解用户喜好并酌情进行调整，这还算哪门子个人助理？

我只希望自己的个人助理能将相关服务推送给我，让我决定是否下载并使用某个应用，还是转为推荐下一个应用。至于哪个应用会排在推荐的首位？嗯……相信Amazon以及其他厂商对此已经有相应的变现广告方案了。

最简化可行交互

也许无法立刻了解每个应用的具体用途，毕竟没有说明信息等你阅读，没有可见的引导信息，没有导览或范例。缺乏图形化界面支持的情况下，新应用和交互方式的学习曲线将极为陡峭。想要在没有任何视觉辅助或繁琐的音频导览帮助的情况下让用户探索应用，这就需要好好动动脑筋了。

因此需要提供一些基本的交互方式，这些交互必须有价值，值得用户去尝试。必须要能立刻上手，就如同数字化的最简化可行产品（MVP），必须能让用户打开包装后立刻获得一定的价值，这样才能吸引用户进一步深入使用。

如上文所述，如果将思路从“需要安装的应用”转变为“CUI可以学习的东西”，服务的最简化可行交互就可以彻底隐藏起来了。这样的服务可以全面融入操作系统自身的功能中，用户可能完全无法察觉到某个应用的持续更新和优化，他们只会感觉到服务在不断完善，越来越了解自己了。

语调是关键

对于所有设计师/营销人员/文案来说，有一个重要的问题：“企业该如何以对话的方式将自己的品牌融入客户生活中？”答案不再是简单的单向对话方式，例如通过广播以声音的形式，或通过电视以视觉和声音的形式，更不是通过网络这一目前最主流的通信方式。同理，也不会是简单的双向对话方式，例如聊天机器人或即时聊天客户服务。

作为一种战略、指南和模式，语调向来都是成功的市场营销和客户交互的关键，只不过现在，语调的定义有所不同。语调提出了新的要求，内容文案，以及有经验的设计师和开发者需要非常密切的合作才能打造无缝的“对话式体验”。

文案将会花掉比设计和开发更多的时间

设计并构建一个基本的CUI其实并不难，大部分语言接口本身都是拆箱即用的。当然，机器学习以及大范围应用聚合后的大规模数据可以让CUI懂得对话的情境，这会让技术复杂度大幅激增。

然而我觉得可以这么说，设计并构建一个精巧的沉浸式CUI体验所需的时间至少需要等同于设计和开发工作同等数量，甚至需要翻一倍的时间来撰写整个体验涉及的文案。对话需要足够流畅，具备恰当并且恰到好处的人格，话不能太少，必须让用户感觉有用，但同时也不能太多而显得啰嗦。

对用户来说，成功的准则在于感觉不到任何品牌的存在

在考虑对用户来说，最棒的体验应该是怎样的时候，至少对我来说，我希望能尽量弱化甚至完全消除品牌的存在。结合我的上一个观点来看，用户真的希望在通过不同服务获取信息的时候听到一个完全不同的语调吗？如果不同服务能够呈现相同的整体式人格，无疑更容易赢得用户的信任。

如果用户购买了某款个人助理，那么意味着他需要这样的人格，同时希望借此获得第三方服务以此为基础提供的、更为深入的“智能”。正如上文中提到的，更好的做法是由智能助理学着了解用户需要哪些信息，而非让用户自行安装另一个具备不同人格的应用，并学习另一套交互方式。

对企业来说这是个大麻烦，当然，也容易造成伦理和道德方面的问题。例如，卫报和每日邮报是两个新闻平台，然而对于全球大事他们有着截然不同的报道角度和观点。然而CUI需要向用户推荐到底要安装哪个应用，尽管如此这依然显得很啰嗦，毕竟我只是想看看新闻，并且想要看的是按照自己的口味喜欢看到的新闻。

如果弱化品牌并提供整体式个性，用户该如何感受到不同内容之间的差异？我看到的是不是假新闻？此时用户的批判性思维会显得更重要，比以往任何时候都重要，而这也正是目前社交媒体和另类事实（Alternative fact）塑造的新时代所缺乏的。

多重人格又会怎样呢？

其实还有一种可能，就是让用户创建多个“角色”，帮助他们将不同服务和相应的业务关联在一起。每个角色可以成为一个接触点，可以作为联系人加入到聊天列表或邮箱中，联系相应角色即可执行某种特定的任务。

用户：“Steve，你能帮我预订一张明天去慕尼黑的火车票吗？”
用户：“Narinda，今天新闻里有啥大事？”
用户：“Cyril，今晚我有啥安排？晚上会下雨吗？”

在通过这种方式使用多个人格时，用户等于在自己的联系人列表中建立了不同的“朋友”圈，执行不同任务时联系不同的朋友即可。当然，这些“朋友”必须在所有相关平台和操作系统上可用，这样才显得更有用，更有吸引力，也正是因此，与第三方应用的全面集成才更重要。

这其实与传统的品牌战术类似，但需要使用截然不同的新方法实现。CUI的品牌在于人格，无论是一个整体式的操作系统层面的人格，或者专门用于完成不同任务的“朋友”，其实效果都是相似的。

最后的想法

我们所设计的个人助理或CUI是否需要有女性化的名称、语音和人格，这方面还需要大量的考虑。始终默认使用女性化的人格可能招致性别歧视的控诉，这一点需要尽可能避免，我们需要为用户提供选项，让用户在准备使用之前可以更改所用的人格。

目前来看，Amazon、Google以及Apple等公司提供的底层操作系统其实已经具备了这样的能力。不过这些操作系统依然需要通过第三方来为自己的平台提供良好的学习体验，才能显得足够有用，并最终获得成功。

讽刺之处在于，这些平台依然需要大量外部应用和服务，这样的第三方内容越多，平台才能显得更强大，因为第三方服务将会密切融入到整个平台的整体智能中。

这是一个激动人心，但也让人感觉担忧的领域。

致谢

下列人员针对本文的撰写提供了自己的意见，并对本文做出了不同的贡献，我想在此向他们表示感谢，按照我们的讨论顺序，真心谢谢你们的帮助：

Anthony Scatchell — ThoughtWorks San Fransisco
Axel Knauf — ThoughtWorks Cologne
Liam Hutchinson — ThoughtWorks Manchester

作者：Chris Compston，阅读英文原文：Thoughts on Conversational UIs

大话对话式UI

内容目录

选择主题