笔者今年二月在武汉出差时有一次赶早班高铁,用打车软件叫了一辆网约车之后,定位信号显示网约车准时到达并停在指定地点,笔者在定位地点附近绕了几圈看不到车的影子,打电话给司机一直无人接听。后来意识到可能司机嫌时间太早、距离太近,但迫于平台派单压力,所以以“ghost”的方式“出车”了。焦急之时,有位出租车司机看到我在等车,询问后表示,他接的乘客也去高铁站,可以一起去。至于结局,一方面是笔者坐着一辆拥挤的车准时赶上了高铁,另一方面是出租车司机收了两笔费用。现在回头看仅仅只差半年,但现在的“萝卜快跑”几乎可以完全解决当时的困境,如果笔者仅以消费者的心情看待萝卜快跑,那只能是:我可想死你了!
一、自动驾驶技术简介
人工智能本质上来说,是机器模仿人的行为和思考的过程。自动驾驶技术的发展见证了从人到机器的思考逐渐进阶的全过程。比如:最初级的人机交互方式,是通过人直接输入代码,给予机器指令,让车辆遇见红灯时实现“停车/减速”的行为结果;但是,路况复杂,并不是只有红灯才需要停车或减速,也有可能遇上其他障碍使得车辆必须停止或者减速。所以人类的编程给机器传达指令,尽可能穷尽所有必须停车或减速的情形并通过代码“告诉”机器,使得相关情形出现时,车辆自动做出相应的反应,是最早的人工智能运作方式,但这种低效率完全无法满足自动驾驶的汽车能够像“老司机”一样安全上路。所以需要让机器通过无数次的模拟训练达到“老司机”的应变标准。而这里的模拟训练,就是从“人工智能”走向“机器学习”,再走向“深度学习”的突破性步骤,即:给予机器自我学习的“算法”,也就是一种学习规则,让机器根据人设定的学习规则长期、反复自我学习。模拟“新司机”到“老司机”的思考、训练和行为。(点击阅读:《人的智能vs人工智能,ChatGPT生成作品的著作权如何归属》)
二、Transformer模型:自动驾驶的底层技术
Chatgpt在2023年初大火的时候,Open AI的技术被推上风口浪尖,深究Chatgpt技术原理以后会发现,其实它的底层技术来自于一篇“经典咏流传”的论文《Attention is all you need》,本文公开了人工智能领域具有划时代意义的“Transformer”模型,它作为底层技术已经广泛应用于各种涉人工智能的技术领域。而这篇文章的八位作者曾经组成谷歌大佬工程师团队,目前这几位作者都已经离开谷歌,其中一位目前就职于Open AI,所以从最初的Chatgpt到后来的Sora,Open AI的拳头产品,包括其他公司相关的AI产品,都散发着“Transformer”这一熟悉的配方。
(一)Transformer专利在中国的驳回
今年年初,一件由谷歌于2018年申请的名为《基于注意力的序列转换神经网络》的专利(以下简称“谷歌专利”)被国家知识产权局驳回。审查员给出的驳回理由是:该申请不属于专利法意义上的技术方案,不符合《专利法》第2条第2款的规定。具体给出的详细理由包括:对神经网络的改进,是神经网络本身的问题,而不是专利法意义上的技术问题,且对神经网络本身的计算过程,该手段不是专利法意义上的技术手段,不产生专利法意义上的技术效果。权利要求1所要求保护的技术方案并未解决具体技术领域的具体技术问题,其解决的仍然是神经网络本身的问题,采用的手段是改变神经网络结构及设置,相应所获得的效果是:使得神经网络操作更容易并行化,进而提高神经网络的转换效率和性能,不属于技术效果。[1]
本驳回引起国内人工智能从业人员的关注,一方面是,谷歌的中国专利有在先其他国家在先申请的同族专利作为优先权基础,且同族专利已经在不少国家被授予专利权,而在中国确却被驳回。另一方面是,该论文是大语言模型中具有里程碑意义的技术方案,为何都无法达到专利的最低授权标准。
下文中笔者尝试探索《专利法》立法意图并结合《审查指南》相关标准对谷歌专利是否应当被驳回进行分析。
(二)谷歌专利不可授予专利权的理由
1、大语言模型本身并非专利法意义上的技术方案
论文本身的重要价值是毋庸置疑的,但论文公开的是底层的技术方案和基本数学模型,它是一种具有“普适性”作用的抽象的技术方案。而专利授权要求“符合自然规律”的具体技术方案,这里可以理解为论文给出的抽象算法本质上属于“自然规律”,还未触及具体应用目的的“技术领域”,远远没有达到授权的标准,只有将其落地,应用到具体技术领域,解决了该技术领域的具体技术问题才能认为符合专利法意义下的授权标准。
被誉为人工智能之基石的Transformer模型,同时也是所有人工智能产品应用场景中出现频率最高的模型,笔者将其与谷歌论文中的流程图和谷歌专利说明书的附图进行比较如下:
不难看出专利申请文本就是论文的中文翻译。当然本申请以国外同族专利作为优先权基础,撰写过程有诸多限制,为了避免失去优先权以及修改超范围,无法在中国专利申请文本上给予细化和调整,以至于本专利公开的技术方案,尽管经过几次答审,但仍然无限接近论文原文。由此可见,一篇学术意义重大的论文仍然与其能解决的具体技术问题之间有一道鸿沟。
2、涉大语言模型的专利的权利要求保护范围过大,将造成较高的法律壁垒
专利申请的根本目的是将技术壁垒加固一层法律壁垒,加强市场的垄断性优势。在此目的下,专利申请人必然试图扩大权利要求保护范围,也就是尽可能尝试获得“抽象化”“上位化”技术方案的保护范围,这样以后凡是其他应用者采用了包含“上位”技术方案、且附加了“下位”技术特征的产品,都无可避免的会触碰到“上位”技术方案的保护边界,从而导致侵权的结果。从谷歌将抽象的论文内容作为专利文本直接申请专利的行动也可以看出其野心,也就是试图将保护范围扩张到最大,使得所有的应用领域的技术都成为侵犯其专利权的对象。无限扩大权利人的保护范围,且最大程度的压缩了将改进的技术“落地”到具体应用领域的商业价值,与专利法律制度的立法目的也是相悖的。
(三)以大语言模型应用中的技术方案克服谷歌专利无法授权的缺陷
关于专利授权每个国家都有自主制定的审查标准,比如我国的《审查指南》对仅涉及大语言模型和算法的专利不予授权也是有据可依的。《审查指南》第二部分第九章第6节记载例5如下:
申请的权利要求:一种深度神经网络模型的训练方法,包括: 当训练数据的大小发生改变时,针对改变后的训练数据,分别计算所述改变后的训练数据在预设的候选训练方案中的训练耗时; 从预设的候选训练方案中选取训练耗时最小的训练方案作为所述改变后的训练数据的最佳训练方案,所述候选训练方案包括单处理器训练方案和基于数据并行的多处理器训练方案; 将所述改变后的训练数据在所述最佳训练方案中进行模型训练。
分析及结论:该解决方案是一种深度神经网络模型的训练方法,该模型训练方法为解决训练速度慢的问题,针对不同大小的训练数据,选择适配具有不同处理效率的单处理器训练方案或多处理器训练方案,该模型训练方法与计算机系统的内部结构存在特定技术关联,提升了训练过程中硬件的执行效果,从而获得符合自然规律的计算机系统内部性能改进的技术效果。此,该发明专利申请的解决方案属于专利法第二条第二款规定的技术方案,属于专利保护的客体。
回顾谷歌专利,在说明书的“具体实施方式”的第[0015] -[0021]段在公开了本发明核心的技术特征,即:“编码器”“解码器”,以及“输入和输出方式”的同时,也详细列举了本技术特征可以使用的具体技术领域,包括:该系统可以是神经机器翻译系统[0016] 、该系统是语音识别系统[0017] 、该系统是自然语言处理系统[0018] 、该系统是计算机辅助医疗诊断系统的一部分[0019] 、该系统是图像处理的一部分[0020] 。如果在权利要求保护范围的布局时,将其中一种具体的应用场景作为具体的技术领域,着眼于在该场景下的应用方式作为核心技术方案,同时纳入底层算法模型结合应用方式确定发明点,即可通过具体技术领域的应用方式进一步限定并缩小权利要求保护范围,以克服底层技术过于抽象无法解决具体技术问题的缺陷。
三、建立在Transformer模型上的自动驾驶技术细分技术领域
自动驾驶技术最早依赖于卷积神经网络的训练方式,自Transformer模型的论文发表以及应用逐步成熟以后,这一模型更好的将自动驾驶深度学习和执行过程中所需要的摄像头、激光雷达等这些不同设备采集的信号提取特征并融合。
百度于2023年2月14日申请了一件名为“多视角图像的视角转换方法、装置、设备和介质”的发明专利(以下简称“百度专利”),目前已经公告授权。百度专利的权利要求1记载了如下技术特征:一种多视角图像的视角转换方法,包括: 提取多视角图像的图像特征,得到各视角图像的特征图,并将所述特征图作为值,其中,所述多视角图像是由不同视角的相机获取;根据所述特征图,构建所述各视角图像在对应的相机视角的局部3D坐标系下的局部键; 根据全局坐标系到各视角的相机坐标系的转换关系,构建所述各视角图像在所述局部3D坐标系下的局部查询; 将所述值、局部键和局部查询,以及所述全局坐标系下的全局键和全局查询,输入Transformer网络的解码器,通过所述解码器得到所述多视角图像在所述全局坐标系下的图像特征。
在本专利的发明点中,笔者提取两个重点技术特征进行考察:
1)Transformer网络的解码器
很显然要实现自动驾驶中“提取多视角图像的图像特征,得到各视角图像的特征图”这一技术效果,必须要用到论文中公开的Transformer模型。因此该模型不但构成百度专利的现有技术,也是权利要求1的必要技术特征。
2)三要素:“值”“局部键”和“局部查询”
这三个要素同时也出现在论文和谷歌专利申请中,比较如下:
要将Transformer模型应用到自动驾驶领域的“提取多视角图像”这一细分技术领域下,需要对三个要素进行定性,百度的申请正是将自动驾驶场景下提取多视角图像的值、局部键和局部查询对应到Transformer模型能识别、训练的Q、K、V,才能使权利要求1的技术方案得以实施并实现预期的技术效果。
可见,上述论文以及谷歌专利已经构成了百度在后申请的现有技术,如果谷歌专利被授予专利权,未经谷歌许可的情况下,百度的自动驾驶产品也将侵犯谷歌的专利权。
四、建立在Transformer模型上的自动驾驶技术细分技术领域的技术改进
有了Transformer模型在自动驾驶领域的具体应用,训练和执行过程中对细节进行逐步改良和深入专利布局也具有其必要性。比如这次萝卜快跑在运行过程中出现撞人的交通事故,虽然行人擅自闯红灯是造成车祸的主要因素,但也给自动驾驶在面对更复杂的突发情况该如何“决策”的模型改良提出了更高的要求。
针对此技术需求,特斯拉采纳蒙特卡洛树搜索和神经网络组成的架构在传统的多头注意力机制的技术下对执行方法和执行模型进行了改良,以特斯拉在 2022 年人工智能日上给出的例子为例(如下图所示),在此示例中,车辆必须:1.非法让行人过路;2.让右侧驶来的车辆先行。因此,它构建了一个树结构,在其中生成并准确评估这些选择。[2]
此示例中,出于对Transformer模型中的多头注意机制的执行方法和模型进行改良,必然会对上文中提及的Q、K、V以及输入和输出方式进行微调,当出现图中的行人即使在红灯的情况下坚持过马路的情况,如何出于人性化考虑进行车辆运动中的“决策”模块的技术改进,也是技术改良过程中可以解决的具体技术问题和实现技术的效果,因此可以成为下一层次专利布局的核心。
五、基于大语言模型的人工智能专利多层次布局思路
对于大语言模型在专利中的价值,本文从最抽象的论文,到具体应用领域的专利申请,到具体应用领域的细分领域的专利申请,再到细分领域的技术改进,逐一分析和建议。具有自主研发能力的企业可以参照这一思路设计专利内部管理制度进行研发成果的巩固和转化,笔者将该制度的设计思路总结如下:
结语
“萝卜快跑”出现至今总还有很多人觉得,“无人驾驶”就是有真人司机在后台玩“模拟人生”的游戏,还有很多人都坚信没有人的车子是跑不起来的。但其实传统的人工智能技术加上现今Transformer模型的迭代,早就可以实现用“算法”驾驶,目前看到的后台的安全员们仅仅是在人工智能失控或者出现故障的时候及时接盘作为额外的保障。但是随着大语言模型的优化和驾驶数据的累积,机器深度学习的结果会进一步降低对安全员的依赖而终将完全趋于驾驶过程的“无人化”。“萝卜”既然来了就别跑,好好地生根发芽成长壮大吧!
——
[1]《AI大语言模型基石专利被驳回!改进神经网络算法本身,不受专利保护!》,百科君IP杂谈,2024年6月13日
[2]《自动驾驶算法——Breakdown:特斯拉如何从模块化过渡到端到端深度学习?》,机器人规划与控制研究所,2024年06月28日,
https://mp.weixin.qq.com/s/EKxGuowMUcwfX8oaKGEBgA
作者:周文洁