我们是否可以期望AI初创公司能获得与传统SaaS业务类似的经济收益?还是人工智能初创公司具有独特的品质,可以保证投资者和企业家提出不同的期望?
但首先,有一点历史
让我们倒退一下时钟。过去,软件供应商会编写代码,打包代码并经常进行物理分发(通过那些称为CD的漂亮东西)。在这个旧世界,购买者承担了大部分运营成本,例如在自己的本地数据和计算中心(或笔记本电脑和台式机)上运行购买的应用程序。
然后出现了更快的Internet速度和云计算的出现,这确实将软件开发和部署打开了一个全新的世界。这样一来,我们开始看到基础架构成本向软件供应商的巨大转移。也就是说,在SaaS世界中,供应商在自己的数据中心或云环境中托管和管理Web应用程序,从而使购买者能够逐渐减少与管理基础架构相关的投资和费用。
尽管基础设施成本开始向上游转移,但它仍然是一个更好的系统网络。供应商仍然可以一次构建软件,但是可以一次又一次地将其分发给任意数量的客户。他们也可以通过Internet而不是使用物理分发渠道来更快,更便宜地部署它。从这个意义上讲,供应商的客户范围也得到了扩大。任何拥有互联网的用户
连接可以即时购买和使用软件。此外,软件更新可以通过无线方式完成,客户可以通过订阅付费,同时获得对最新,最出色的功能,修补程序和版本的访问权限。而且,无需在本地计算机上进行很多麻烦的新安装过程即可完成所有这些工作。相应地,SaaS收入模型不仅可以扩展,还可以重复使用。基于使用量的定价为购买者带来了灵活性,从而取代了并非总是能很好地适应实际使用量的安装或许可证费用。
那么……人工智能初创公司真的像传统的SaaS业务一样吗?
尽管AI在技术上已经存在了相当长的一段时间(尽管有不同的口味和实用水平),但AI初创公司在商业领域仍相对较新。考虑到这一点,我认为在技术和运营方面,人工智能初创公司肯定具有某些特质,可以使其与传统的SaaS初创公司区分开。这些差异最终导致AI初创企业与传统SaaS初创企业之间的成本结构不同。
由于我亲自从事自动语音识别(ASR)的工作,因此我将始终以它为例,但我相信以下几点通常适用于其他AI领域,包括图像识别,OCR,翻译,文本分析等。
技术差异驱动不同的成本结构:培训和推论。
1数据和模型培训增加了成本
在ASR中,建立语音识别模型需要大量的训练数据。您不仅需要音频数据,还需要相应的真实注释来构建ASR引擎。关于训练数据的事情是,它不是一次性的成本。这实际上是一笔持续的费用。即使您要将连续的用户数据提取作为整个培训流程的一部分,您仍然必须花费在数据选择,结构化,再培训等方面,以使其有用。
还有另一种现象称为数据漂移,即随着时间的推移,改进模型所需的数据将会改变。这意味着您必须购买/获取更多数据。
而且,如果您要支持多种口音,语言和域(技术术语等),那么您将不得不增加培训数据来源的投入和支出。为简单起见,我们也可以在测试数据时采用相同的成本效果,尽管可以有所缓解。
然后是模型训练活动的实际成本。如果人工智能是一劳永逸的交易,那么就不会有太多的“学习”。因此,为了获得越来越好的结果,例如语音识别的准确性,您需要重新训练模型。而且不一定便宜。实际上,它会消耗大量计算资源。
举例来说,假设您经营的是经典的数据库SaaS业务。尽管肯定需要维护和保养,但是软件开发的传统活动并没有使它们承受与连续模型训练相对应的成本水平,对于AI初创公司而言,模型训练可能会非常耗费计算量。无论您是购买云基础设施还是将其用于管理自己的云基础设施,AI初创公司都必须将可变成本账单放在某处。
2推论
推论是使用训练有素的模型来产生结果(例如进行预测)的过程。例如,在ASR中,每当用户将音频传递到您的服务时,与运行模型以将语音转换为文本相关的计算成本就会变化。
在传统软件中,您可以构建它并进行分发。使用软件通常不会在软件启动时增加最终的大量额外可变成本。回到前面的示例,您正在管理传统的SaaS数据库业务。与运行大量矩阵计算以收听音频文件并将其转录为文本相比,读写活动的复杂性要低得多。因此,较高的推理复杂度直接推高了每个用户(或每个单位消费,例如转录的音频分钟数或处理的图像数量)的可变计算成本。图像,视频或音频均符合某种形式的富媒体格式,与向数据库中写入值或从中读取值相比,这需要更多的计算能力来处理。
总而言之,收集培训数据,培训后端模型以及运行推理都增加了可变成本,而传统SaaS业务通常不会产生可变成本。这是什么意思?在其他所有条件相同的情况下,这似乎暗示着AI业务的毛利率将低于传统SaaS业务的毛利率。
运营差异也会导致不同的成本结构。
就像我们希望的那样,人工智能还没有达到好莱坞喜欢的水平。语音识别,图像识别,文本分析等并非完美的方法(尽管它们都在迅速改善)。
现在,在某些应用中,不需要完美。但是在很多用例中,它们都是。这是什么意思?
这意味着AI服务的输出结果实际上可能需要额外的人工后处理才能达到所需的结果状态。这通常被称为“人在环”。例如,如果您经营一家提供AI转录的初创公司,则您可能还会雇用一组人员对机器输出的转录本进行更正。即使我们认为转录精度高达90%(取决于使用情况),也可能仍然需要人为触动才能最终被客户使用(例如医学转录)。因此,换句话说,额外的人工也会增加成本(如果您有很多人待命,则固定;如果按小时支付,则可变。)
现在,您可以将这种人工的后处理工作传递给您的客户,并说网络,生产机器成绩单的基本活动已经具有很高的价值,因为使用机器输出成绩单要比传统的手动转录快得多。因此,您的客户可能只需要花费一部分时间/精力/成本来校正自动笔录,而不必花大量时间与手动笔录相关联。
在某种程度上,这可能是一个公平的观点,除了将成本转移给客户之外,您正在降低AI产品主张的价值。结果是您可能必须收取较低的价格才能获取价值。无论牺牲是来自最高收益还是来自最高收益,都会降低收益。
人工智能初创企业面临着不同类型的成长痛苦,这转化为对营收的不同期望(例如收入和规模)。
作为任何类型的初创企业,您衡量的关键指标之一就是您的成长。为了快速增长或快速采用,您的产品需要体现许多特征。其中之一需要质量。
对于AI初创公司来说,质量的概念很难定义。例如,您如何判断语音识别精度是否足以满足应用程序的要求?
考虑到这一点,我喜欢在葡萄酒中使用一个比喻。
除非您是侍酒师(葡萄酒大师),否则在辨别葡萄酒是“好”还是“坏”的能力时,您可能会属于普通或新手。
撇开:事实上,研究表明,没有人真正知道,而且人们在很大程度上以价格为指数(较高的价格会导致人们认为自己拥有更好的葡萄酒)。
现在,普通的葡萄酒饮用者具有足够的基本本能,可以知道什么时候质量曲线的末端。例如,您不必是专家就可以知道其中带有一些残留砂砾的葡萄酒非常破旧。您也可以判断出葡萄酒是不是天堂般美味。但是,这条质量曲线之间的空间确实令人迷惑,可以解释,至少可以质疑。
事实证明(至少根据我的观点),这种现象也与确定AI质量非常相似。例如,在ASR中,如果您的产品正在识别,例如……仅准确地讲了10%的语音,那么您就知道这是一项劣质的语音到文本服务。另一方面,如果ASR引擎可产生98%以上的准确度,那么您会知道这非常好(请记住,人类语音识别的准确度最多在92%至95%之间)。但是ASR服务的准确率在80-90%之间吗……不好吗?好?大?够好了?
在某些领域,例如医学或自动驾驶汽车,错误的危害非常严重,以至于我们制定了非常明确的标准,例如……临床笔记的医学转录或识别行人的计算机视觉。但这就像处于质量期望曲线的最末端。规则很严格,风险很高,因此就推理准确性而言,每个百分比都很重要。
但是,如果您正在运营联络中心,该怎么办?您的目标是使用ASR和文本分析(NLP)来确定为什么客户打电话投诉?购买具有75%准确性的ASR服务是否足够好?毕竟,这不是生死攸关的问题。
我要说的是,您不能像销售传统软件那样出售AI产品,因为用例的分布不仅是多种多样的,而且还取决于许多客户的掌握,解释和定制POC大厦。销售周期的摩擦更大,因为您必须帮助您的客户了解什么是“实践质量”与什么是“学术基准”。(而且与葡萄酒不同,品牌和价格可能只在信号质量中起着初步作用,而信号质量会通过直接服务测试迅速消失)。
此外,用户不一定总是掌握如何使用您的服务。AI产品通常是开放式的,这意味着它们处理非常复杂的数据和输入,例如语音,图像或视频等。这意味着与传统软件初创公司相比,边缘情况有很大的余地。如果我运行的是ASR服务,并且您尝试用大量会干扰语音数据的背景音乐来转录音频文件,则该产品可能会成为机器转录效果不佳的产品。或者,如果您只是输入没有语音的无声音频文件怎么办?或者,如果您尝试转录在音乐会上欢呼的人群的录音,该怎么办?换句话说,存在巨大的状态空间,容易被滥用和模棱两可,这仅仅是因为用户可以(并且很可能会)滥用它。
商业意义在这里很明显。销售速度可能会变慢。可能会提取POC。实际上,当涉及到AI产品性能时,用例需求可能会变得更加模糊。所有这些都意味着扩展和扩展客户的能力有限。因此,在其他条件相同的情况下,人工智能初创公司不太可能享有与传统SaaS初创公司相同的非线性采用曲线。
人工智能初创公司的未来是什么?
坦率地说,我认为判决仍然没有。但是,如果您是投资者,我认为与传统的SaaS投资相比,降低对AI创业公司财务底线的期望很重要。我并不是说AI初创公司不是很好的投资,甚至不是很好的投资。我只是说,您必须平衡自己的期望。
对于想进入AI初创公司的企业家来说,我认为您需要深入考虑您的成本结构,尤其是可变成本的形成方式。您还希望对目标用户具有高度的针对性,并可能通过更严格的约束来限制您的问题空间,以使问题与解决方案的匹配更加紧密。