自从 Whisper 模型出现以来,语音转文字就成了我的写作流程中非常重要的一环,之前也写过一些文章分享了 AI 语音转文字的一些用法。而随着越来越多人开始使用语音转文字、越来越多相关的软件出现,这一「便捷」的输入方式也为越来越多人所熟知。在以前文章中也提到过,人工智能可能对人类社会生活方式造成许多改变,包括日常创作、人际交往乃至工作方式都迎来了诸多变化。最近我发现,这些变化已切实地体现在我身上。
近期写作上的一些变化
以前写文章的时候,我通常是有想法就直接用手机打开 Flomo 记录灵感,有空时在就随便找个咖啡店、或者在高铁、飞机上用iPad上打字成文。但最近在记录灵感时,我越来越多地通过语音来记录了,而使用语音时,出于「语音尴尬症」等原因,下意识地会避免利用一些在公共场合的零散时间进行片段的输入。更多是希望能找到一个相对空闲的时间、相对独立的地点,用语音来完成整体草稿的撰写。
这其实和我一开始想的「语音有利于片段化的输入」这一想法出现了很大的区别,也引发了进一步的思索——语音输入和键盘输入的区别到底有哪些,而语音输入对我们又会产生什么样的影响。
语音输入 vs. 键盘输入
思维模式
如果用一个简单的比喻来描述什么是键盘输入和语音输入,以及他们之间的区别,文字输入其实有点像我们是在一块砖一块砖地来「建一座房子」。在这个过程中,我们可以随时停下来审核结构,发现不满意的地方就拿掉,然后重新垒上,同时,我们可以交替着在多个地方开始垒墙。这个整个过程是异步、非线性的过程。在这个过程中,我们会经常需要做修改、拼接等等。经常写作的人也会有这种感受,我们会对每一个句子、每一个段落、每一个词进行琢磨,当我们写完一句话时会回头看看,删掉几个字,或立刻做出修改。
相比之下,语音输入更像一条「河流」。思想如水流,说出的话直接奔涌向前。我们无法让河流暂停,回到上游修改水流,只能保持它从头到尾流动。这过程同步且线性,需要不受打扰的环境。
为何会有这种差异?一个原因是认知摩擦力不同。打字时,我们经历思考、选词造句、寻找按键、拼写,然后看到文字出现,整体是一条很长的链条。语音输入则更容易进入心流状态,因此我们希望有个不受打扰的环境,一旦进入状态就不停下。写作时注重的会是思维的连贯表达,而非单个词语的完美与否。
同时,打字和语音输入调用的思维模式也不同。书面写作偏向逻辑结构和分析,讲述则偏向故事思维。讲故事追求连贯完整,写作的逻辑思维则完全不同。
我们并非说河流模式一定比建筑模式好,或更代表时代发展方向。相反,这是每个创作者面临的取舍。
效率
语音转文字技术对写作最直观、最可量化的影响,毫无疑问在于对效率的颠覆性提升。人类说话的速度远超打字,那自然,只要有足够的内容储蓄,能够维持输出强度,那么自然在相同的时间下,就能够输出更多的文字。不过需要注意的一点是,语音转文字也导致了编辑负担的转移。在起草阶段所节省的时间,一定程度上被转移到了编辑阶段。
正如上文所说,口述生成的初稿往往是未经加工的「原材料」,需要大量重写和结构调整才能成为合格的书面语。因此,语音转文字带来的生产力提升,其实并非简单地缩短了总时间,更多是重构了时间分配。
对于那些在编辑上比较苦手的人来说,实际上可能并不能减少他们总的输入时间。而真正的效率提升,属于那些能够成功适应新的两阶段工作流程,并掌握相应编辑技能的写作者。
对文字本身的影响
语音转文字技术对写作带来的转变远不止于效率,它也在潜移默化地改变文字本身的特质。
既然文字来源于口语,那写作出来的文本也自然会更加倾向于对话式的风格。这种风格在某些博客、介绍性文章中自有其优势,能营造出一种亲切、自然的氛围,但若讲述者本身不擅长讲故事,则有可能会囿于流水账的困境。
这也就引出了语音转文字所带来的潜在问题,即会导致行文冗长、结构松散。在我的语音转文字写作中就经常出现这个问题, 由于思考和写作是同时进行的,而人在思考的时候会不自觉地重复自己的观点,以保证逻辑的连贯性。当这种思维落在纸面上,就很容易会出现大段的重复。
影响不止于写作?
语音转文字所带来的影响不只局限于写作,它对于我们人与人之间的沟通,乃至于人与生活之间的互动都会带来很大的改变。
人和人之间的沟通模式
举个例子,语音转文字对工作中人与人之间沟通就会有很大的影响。以前当我们开会时,除非额外注明有人来专门做会议纪要,不然很多时候会议的内容是无法追踪的,人们相对而言就可以更加畅所欲言一些。而随着语音转文字技术的运用,所有的会议都可以留痕,这也就导致人们在线会议时会更加谨慎,更加注重自己的措辞,对于自己所抒发的内容会有更多审慎的考虑,会避免随意输出可能对自己或他人不利的内容。
这一方面使得同事与同事或者说不同部门之间的沟通变得愈发困难,但在某种程度上也增加了线下人与人之间沟通的重要性。在工作中,人们可能更加会倾向于线下的会议,或者说在茶水间等非正式场合的碰面。所以说,语音转文字技术在工作中可能会导致地理位置相近的人之间的关系变得更加紧密,而对于位置相对较远的人而言,反而会加深他们之间的隔阂。
人和社会之间的交互
语音输入正在重塑人们执行日常任务的方式,培养了新的行为习惯和用户期望,例如,人们期待技术能够提供即时、准确和个性化的响应 。然而,这种行为转变也面临障碍,包括用户对设备全部功能认知不足,以及在公共场合使用语音命令的社交尴尬感 。
而对于人与社会,以及人与社会中的一些事物的交互而言,也带来了很多的改变。语音转文字的效率大大优于传统的写作,人们在工作中也会更加依赖语音转文字,这就导致了人们工作范式的一定改变。很明显,在那些所有人坐在一个场合进行工作的场景下,语音转文字可能并不适用。人们会避免自己的隐私被探听,同时也担心会影响到别人。因此,在工作场所里,人们可能会需要更多个人的空间,或者更多可以短暂使用的个人空间,如电话间等。而这也同时进一步导致了人们工作节奏的加快。由于信息产生和处理速度的提升,人们的工作压力也会进一步增加,并且也会要求人们掌握更多的语音输入技巧。由于语音天生是流逝的,它也会要求人们学会怎样说出结构化的内容,这对人们的思维模式的要求其实更高了。
对社会的深层影响
而对社会交互的深层影响而言,优点自然在于,它在功能上进一步增加了信息的民主化程度。由于不善于打字的人也因此能够更加轻松地创作内容,在一定程度上降低了内容创作的门槛,同时也为那些文盲、不擅长书写打字,或者有手部残疾的人提供了一个相对公平的表达渠道。
而对于文化而言,语音转文字带来的可能更多是一些负面影响。相对而言,AI 虽然在一定程度上缩小了阶级之间的不公平,但是对于不同语言、不同族群人之间的公平程度反而有可能是一种放大。那些使用少数语种或者有特殊口音的人会因此丧失快速输出的机会,和主流人群之间的差距会进一步扩大。而且语音转文字在主流语言上的优势也会随着语料增加而进一步增加,一些地方语言很有可能会加速消亡。当然,这里面也有一些反例,人工智能也可以用来保护或识别一些比较古老的语言,这取决于人们如何使用人工智能技术。
第三个变化更多在于认知模式上,人们通过语音随时记录想法,这改变了大脑处理信息的方式,就像我们之前所说的「建筑」和「流水」之间的区别。这长期对于人们的思维方式也会有负面影响,一旦人们习惯于随时随地记录自己的语音,自然的记忆能力反而可能会被削弱。
简要横评常见的语音转文字软件
下文会对我使用过的一些语音转文字软件进行一些简单的评述。特此声明,我仅评测我付费使用过的产品,且不打总分,因为不同维度对不同人来说有着完全不同的权重。篇幅所限,每个软件仅作简单评述,如有需要详细介绍,可以在评论区留言,后期有时间了可能会写更详细的文章。
语音+笔记
TL;DR
Audiopen | Voicenotes | 闪念贝壳 | Flomo | Dinox | |
---|---|---|---|---|---|
价格 | ⭐ | 早鸟⭐⭐⭐⭐⭐ 订阅⭐ | 买断⭐⭐⭐⭐ 订阅⭐⭐ | ⭐⭐⭐ | 买断⭐⭐⭐ 订阅⭐⭐ |
UI/设计 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ |
输入便捷度 | ⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
AI 能力 | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
上传录音 | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ||
集成能力 | ⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐ | ⭐⭐⭐⭐ |
附加功能 | ⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
开发者能力 | ⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
未来预期 | ⭐ | ⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
Audiopen
在所有语音转文字笔记软件中,Audiopen 应该是最早出圈的一个产品。早在2023年它就诞生了,作者从来没有编程经验,通过 vibe coding 创造了这款产品。
由于它当时昂贵的定价,也激起过一些讨论。Audiopen的 UI 以及语音转文字的准确度在所有产品中都是最佳的。去年,它也开发出了 app 端,在易用程度上也很优秀。它的后端集成做得也挺好,可以自动把转录及AI修改好的内容发送到 Notion,或通过 webhook 发动到其他自己想要管理的软件之中。综合来看,作为这个行业里的先驱,除了价格较贵之外,没有什么值得吐槽的问题。
Voicenotes
如果你错过了 Voicenotes 早期的 50 美元早鸟价买断的话,那这可能是语音转文字笔记软件用户最大的遗憾之一。
Voicenotes 在所有笔记软件中可以说是综合了价格、 UI、设计逻辑、后期的集成等最好的一个产品。Voicenotes 的设计非常克制且优雅,无论是极简的设计还是对于 AI 改写的克制,在使用便捷度上是首屈一指的。
它既支持在 App 中进行转录,也支持上传语音文件进行转录。除此之外,Voicenotes 还支持通过一个叫 Pages 的功能来把自己的语音转文字发布出去,形成自己一个非常微型的博客。我也把它作为我个人博客的一个补充,记录一些我个人的日常闪念。同时,它也支持 AI 问答等功能。
值得一提的是,Voicenotes 的作者是 Buy me a coffee 的作者,因此信誉度相对可靠,暂时不用担心跑路。
综合下来,Voicenotes 是我在所有笔记软件中使用语音转文字的频率最高的。而且它同时支持网页端、手机端以及苹果手表端的输入,这让它的使用场景得到了大大的拓展。近期,它也更增加了在桌面端的快捷输入,并且更加扩展了它自己的使用场景。
闪念贝壳
闪念贝壳其实是先在海外做起来之后才拓展到国内的,在外区它的名字叫 Ideashell。作者不愧是设计出身,它的外观设计非常优美,UI也很简洁美观,对颜值党来说用着非常舒服。
而另外一个特色则是它与其他各种软件的集成。打开软件(或通过小组件/action button),录入一段语音,生成的内容,可以被非常便捷地立刻发送到包括从微信、提醒事项到 Notion、Obsidian、熊掌记、Craft、滴答清单、Day One等一系列笔记软件中去,在操作的便捷度上毫无疑问是在所有软件中最佳的。
此外,闪念贝壳支持上传录音文件进行转录,并且支持区分不同发言人,这个功能常被我用于临时会议记录。
Dinox
如果说闪念贝壳是典型的设计师作品,那么 Dinox 则是典型的工程师作品。
如果要论各种与 AI 相结合的功能最齐全、设置最复杂的产品,Dinox 非他莫属。它支持从语音转文字到后续的结构化处理、相关笔记、AI 聊天等一系列功能,甚至还支持手机端检测存储,并且包括 S3 等不同的对向存储。
可以说,所有你能设想的与笔记相关的功能在 Dinox 都有。但自然,缺点也是存在的:它的操作设置过于复杂,入门相对较为困难,且当前阶段 bug 较多;在美观上与其他几款产品相比略有缺失。同时,由于作者想法很多,整体作品割裂感比较强,并没有一个明确的产品特质。
但是,作者的更新频率以及响应速度非常之快,几乎每隔几天就有一个新版本,可以说是未来可期的一个选择。
Flomo
其实早在 AudioPen 流行之后,我就和少楠提过在笔记软件中加入语音转文字的想法。但当时他们觉得需要先研究语音转文字是不是一个笔记软件的刚需,以及如果真的加入了,如何进行最符合他们产品逻辑的设计,谁料这一研究就是两年。
对于他们这个解释,一开始我和其他挺多人一样,觉得他们只是出于成本考虑而拒绝做出一些新的尝试。也因此,我尝试了其他挺多速记软件。
几个月前,Flomo 终于加入了语音转文字。并且我也很欣慰地看到他们确实在里面融入了自己的想法。相比于那些着重于语音输入后,对笔记进行很多基于不同prompt调整的软件而言,Flomo 不支持自定义prompt(对不少人来说这是个缺点),非常注重写作者原来的结构,仅去除了一些常见的口辟等。
这其实也和我对于笔记的看法不谋而合。之前我也尝试过通过很多预先设置好的 prompt 来对自己的语音输入进行大幅度修改,但最后却发现这些修改过的笔记虽然看起来更加精致,但很多情况下并不能反映我自己的原意。亦或者,当我事后回顾的时候,总感觉这些笔记有些陌生。正如少楠和Lightory 想传递的笔记理念,只有那些在我们用自己的理解记下来的内容,才是我们当下最真挚的表达。我们自己通过思考来进行的重新编辑,也能让我们对自己的笔记有更深刻的印象。
此外,这半年支持的 AI 搜索和最近引入的 AI 洞察也很有想法,能帮助用户发现笔记和笔记之间的关联——虽然 Voicenotes和Dinox也支持类似的功能,但从易用程度以及完成度上来看,后两者只能称得上有这个功能,远远不算好用。
说了这么多,Flomo 当然也有一些问题,比如说他的语音笔记最长只能支持五分钟,对生成的内容会进行自动审核,替换掉一些不当语句,并且不支持同步到其他软件等。但从使用的易用性上,以及语音转文字这一功能本身的实现的完成度上,Flomo 还是做得很好的。
其他:Get笔记、即我笔记、Reflect、Tana、Workflowy等
这里提到的这些笔记软件并不代表市面上所有支持AI语音转文字的软件,还有几款可以简单提一下。
如果把市面上的语音转文字软件分成两类,一类可以算是所谓的「AI 原生」笔记软件,另一类则是「AI+」笔记软件
其中,Get笔记和即我笔记,以及这两年在即刻、小红书上各种独立开发者各种宣传的层出不穷的新软件大都是在AI语音转文字出现之后而诞生的。他们在从初始阶段就兼顾到了语音转文字的开发,但因为我使用的不多,也建议大家去找其他的评测。
而后面提到的这几款Reflect、Tana、Workflow则是基于已有的笔记软件的基础上,把语音转文字融入他们的工作流。其中,Tana毫无疑问是其中做得最好的一款。AI 已经成为其完整工作流中的一环。它既支持会议的转录,也支持日常的手机端以及电脑端的语音输入。此外,Tana还能在输入之后用AI对语音转文字的内容进行进一步修改,自定义化非常强。
但由于这几款都需要比较昂贵的订阅费,在性价比上,如果只是把它作为语音转文字软件而言,相对会比较低。不过,如果能把它们与自己的工作流结合起来,或者作为自己的知识库所在,那是可以考虑的选择。
语音转录输入法
桌面端的语音转文字输入法也有不少选择,最主流的包括 Superwhisper、Wispr Flow等,甚至 Voicenotes 近期也推出了 Mac 端的输入法软件,只需按住快捷键,就能直接把语音转文字输入到当前的文本框内。
由于我日常输入不依赖于 Mac,对这方面没有很深的研究,可以参考 Edison 的这篇文章来了解更多的细节。
语音输入是 AI 时代的唯一正解吗?
语音转文字软件确实加快了我单一文稿撰写的速度,例如这篇文章有 50% 的部分是通过语音输入完成的初稿。但回头看来,寻找具有仪式感的环境进行语音输入这一行为反而对我创作构成了新束缚。
以前我能在等地铁、午休时花几分钟,用手机或iPad快速写出文章一部分。然而习惯于用语音写初稿之后,我的零散输入时间反而变少了。
未来创作中我可能需要区分不同类型文字,采取不同写作方式。对偏向故事型、记录型的内容,使用语音可能更方便;对偏向书面信息的写作,找个安静地方写可能更好。更或者,在大部分情况下,我都会更加倾向于用打字的方式来进行写作。因为无论是在摘录闪念,亦或是在长篇梳理自己想法的时候,这种字斟句酌的输入方式都更有利于我理清自己的思路。并且,它能更加有一种创作的真实感以及仪式感。毕竟,有时候仪式感本身也是创造力的来源之一。
而如何根据自己所处环境、惯用设备而选择最适合自己的创作方式,是每个创作者都需要面临的课题