朋说丨人工智能语音合成技术生成物的权利保护_专业研究

首页

关于我们

律所简介

服务客户

党建引领

业务领域

律师团队

新闻动态

专业研究

联系我们

专业研究

首页专业研究

朋说丨人工智能语音合成技术生成物的权利保护

2023-08-29

人工智能语音合成技术生成物的

权利保护

随着5G时代的来临，互联网的蓬勃发展，社会需要更为快捷且高效的信息传播方式，语音内容逐渐受到更为热烈的欢迎。从最早的百度地图通过推出明星语音作为导航语音，到现如今语音合成技术广泛用于娱乐配音行业，制作者无需耗费大量人力物力去完成后期配音，仅需要利用人工智能语音合成技术，通过输入脚本，便可快速生成声音。也就是说，任何一个用户都能够利用这项技术模仿名人的声音，制作自己想要的音频内容。那么，利用该语音合成技术生成的“虚拟声音”是否可以得到法律的保护？用该“虚拟声音”生成的作品涉及哪些著作权问题？又该如何对其进行保护？本文将对此进行详细讨论。

一、关于人工智能语音合成技术

人工智能语音合成技术，包括语音分析和语音合成技术，可以将用户的声音信号进行分析演算，并且以99%的还原度来模拟发声，用户只要在软件内输入文字信息就能转换成目标音色的音频。同时，软件还内置了上千种声音，用户可以通过使用人工智能软件，在人工智能软件中通过从声源库获取不同的声源、调整声音的参数，包括但不限于音调的高低、音域的范围、声音的响度以及音色等，提供高度拟人、流畅自然的语音合成服务。用户可使用该声音去进行歌曲创作、作品配音、评书亦或是主播领读等有声作品。

国内首先推出这一技术的是科大讯飞公司，该公司的网络平台在2018年就推出了定制个人主播的功能，通过简单录制10句话样本，模拟和生成用户的完整音库，且能够较为完整地保留用户的音色、语气以及情感，用户可以输入任意文本，将其转换为个人主播的声音。例如，近期华语乐坛产量最高的歌手AI孙燕姿，就是利用这些技术，将孙燕姿的音色提取出来，再用于翻唱其他歌手的歌曲。

二、“虚拟声音”的法律保护

用户通过人工智能语音合成技术合成的“虚拟声音”，是用户的智力成果的体现，每个人都可以生成成千上万种不一样的声音，那么该种“虚拟声音”是否能够得到保护？可分为两种情况进行讨论：（1）该“虚拟声音”系来源于真人声音的录制，保留其声音中的个人特征，例如音色、音调等，再进行重新提取、拆分从而形成全新的声音；（2）该“虚拟声音”为无明显来源，无任何明显特征，不具有可识别性的完全虚拟声音。本文从《民法典》声音条款、声音商标、个人信息以及反不正当竞争法四个方面进行详述。

1.《民法典》声音保护条款

《民法典》颁布后，第1023条第二款设立了关于声音权利的保护规则，“对自然人声音的保护，参照使用肖像权保护的有关规定”。肖像权，是自然人享有的权利。因此，对“声音权益”保护也仅限于自然人。

对于前文所述的第（1）种情况，如果该虚拟声音来源于真人声音的录制，首先要区分该声音是否具有可识别性。声音作为一定权利进行主张时，必须拥有一定的可识别性，听众听到该声音时，可以联想或对应到某个人物。例如单田芳的声音，和普通百姓相比，单田芳的声音更具有识别性，足以和其他人形成区分，其“声音权益”可参照肖像权的保护方式对其声音进行保护。根据全国人大常委会法制工作委员会民法室主任黄薇主编的《中华人民共和国民法典人格权编释义》中关于《民法典》1023条的释义来看，即便认为声音还不足以构成具体的人格权，但若对声音一概不予保护，任由他人随意复制、模仿、伪造特定自然人的声音，确有可能对该自然人的人格尊严造成较大的损害，特别是随着人工智能技术和大数据技术的发展，利用信息技术手段深度伪造他人声音的情形不但会严重损害该自然人的人格尊严，而且具有极大的社会危害性。

但是，对于前文所述的第（2）种情况，本文认为，如果人工智能语音合成技术合成的虚拟声音并非由真人发出，缺乏了享受声音权利的主体，自然不享有“声音权益”，无法通过声音本身对其进行保护。

2. 声音商标

《商标法》（2019修正）第八条规定，声音可以作为商标申请注册。但是，想要通过商标法对声音进行保护，首先要满足四大条件，即形式确认易认、有显著性（识别区分性）、符合公序良俗、无在先冲突权益。目前获准通过商标保护的声音，都是经过长期持续使用获得显著性的声音标识。例如，腾讯公司的QQ软件提示音“嘀嘀嘀嘀嘀嘀”、《新闻联播》片头曲、诺基亚开屏/关机声音等。整体而言，声音商标与传统图形、文字、颜色等视觉商标差别较大，对声音的审查标准也较高，其显著性需经过长期的使用才可体现，因此若想通过声音商标来保护人工智能语音合成技术合成的声音非常困难。

无论“虚拟声音”是否源自于真人，只要满足商标法规定的授权要件都可以获得授权，但是如上文所述，基于“无在先权利（包括在先权益）冲突”的要求，对于情况（1）所述的源自于真人的“虚拟声音”，由于存在在先的声音权益人，故而此类声音商标的申请人处理要通过使用声音使得其符合显著性的要求外，还应当获得在先权益人的许可。

3. 个人信息保护

声音权侵权是指侵害声音本身所体现的人格利益，是侵犯声音的音调、音色、振幅等声音的物理特性，而不是侵犯声音所表达的内容，也不是侵犯声音的表现形式，对声音表达内容和表现形式的侵犯，应该归于对自然人隐私权和著作权等权利的侵犯。由于每个人声带的振动、发声部位及音色音调的不同，因此每个自然人的声音也不相同，带有个人属性。声音因此具有唯一性，每个人的声纹都是独一无二的。

依据《个人信息保护法》第4条规定：个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息，不包括匿名化处理后的信息。个人信息的处理包括个人信息的收集、存储、使用、加工、传输、提供、公开、删除等。故而可知，声音的音调、音色、振幅等声音的物理特性本质上属于个人信息的范畴。因此，在提取他人声音特征并制作有声读物时，涉及对他人个人信息的处理。而《个人信息保护法》第10条规定：任何组织、个人不得非法收集、使用、加工、传输他人个人信息，不得非法买卖、提供或者公开他人个人信息；不得从事危害国家安全、公共利益的个人信息处理活动。第13条规定：符合下列情形之一的，个人信息处理者方可处理个人信息：（一）取得个人的同意；可见，利用声音合成技术合成他人的声音也需要经过个人的许可同意。

但是需要注意的是，只有上述第（1）种情况种所述的来源于真人声音并保留其声音中的个人特征的虚拟声音才属于个人信息保护的范畴。而对于第（2）种无真人来源的虚拟声音而言，由于缺乏了“自然人属性”并不属于个人信息，故而不能通过《个人信息保护法》获得保护。

4. 反不正当竞争

如前文所述，“声音权益”的保护是仅限于自然人，本质是基于对人格权的保护。而反不正当竞争则是对防止商业混淆、虚假或引人误解的商业宣传，禁止经营者在生产经营活动中，扰乱市场竞争秩序、损害其他消费者或经营者的合法权益的行为。因此，通过反不正当竞争对声音的保护，主要是从禁止其他经营者采用不正当竞争手段，引起他人误认或者混淆的行为，将声音作为商业竞争手段进行规制，是一种兜底保护。

三、通过“虚拟声音”制作而成的有声读物的法律保护

（一）是否能取得著作权法律保护

“有声读物”以音频形式呈现于观众，而音频并非《著作权法》规定的法定作品类型，现阶段主要包括有声书、广播剧、评书、相声等多种形式，不一而足。本文讨论的“有声读物”指语音技术合成型有声读物，广义的语音合成包含文本到语音转换（即Text-To-Speech，TTS）、声音转换等。文本到语音合成（TTS），系通过人工智能语音合成技术识别文字并选择声音库合成的人声，再将原文字作品转化为音频的有声读物。TTS作为生成式人工智能（Generative AI或AIGC）的重要课程，在近年来取得了飞速发展。

在语音合成的技术下，一部文字作品被制作成该种有声读物后是否存在著作权？是否能得到著作权保护，其本质是要考虑是否创作出了新作品。本文认为，通过语音合成技术将文字作品制作成有声读物的过程仅是对原文字作品的复制过程，不具有独创性，无法得到著作权的保护。改变的只是原文字作品的形式，其文字内容并未被改变，如果未取得原文字作品著作权人的授权，将会侵犯其复制权。如果将该等有声读物用于交互式传播，还将会侵犯原文字作品著作权人的信息网络传播权。

典型案例：谢某与某在线公司信息网络传播权纠纷案——该案例为最高院2018年8月16日发布的第一批涉互联网典型案例之一。

谢某作为《72变小女生》的作者，发现某在线公司未经其授权许可，在其经营的网站“懒人听书”（www.lrts.me）上，通过信息网络非法向公众提供涉案作品《72变小女生》的在线听书服务。该案中，法院认为，在著作权法中，朗读行为不属于创作行为，而属于对作品的表演，朗读本身不会为作品添加新的独创性成分。固然，对同一作品，不同的朗读者在朗读时会对音调、语速作出不同的选择，甚至于会配以富有个性的背景音乐或音效，最终传递出的声音可能存在差别，给听众带来不同的感受。但因这种选择与安排并未改变作品的文字内容，即未改变作品之表达，故不属于对作品的演绎。因而，严格对照文字作品原文朗读形成的有声读物，无论其是否添加了背景音乐、音效，都没有改变文字作品的独创性表达，因而不构成改编作品，实为朗读涉案作品并进行录音后形成的录音制品，是对涉案作品的复制，而不属于对涉案作品进行演绎之后形成的新作品。缺乏许可制作、通过信息网络传播交互式提供有声读物，构成对文字作品复制权及信息网络传播权的侵害。

（二）是否能取得表演者权法律保护

如果采用真人朗读的形式制作而成的有声读物，该有声读物本身虽然不构成新的作品（后文详述），不享有著作权，但是该真人却享有该有声读物的表演者权。但是，对于用户通过人工智能语音合成技术生成的“虚拟声音”而制作成的有声读物来说，其是否享有表演者权？如享有，表演者权属于谁？

依据《著作权法》的规定，表演者权是表演者对其表演活动享有的权利。那么，是否能够取得表演者权，就取决于其通过智能语音合成技术，利用已有作品制作有声读物的行为能否被视为表演作品。在著作权法中的表演存在两种形式，即“自然人的现场表演”和“通过设备进行的机械表演”。在著作权法中，唯有自然人的现场表演行为才能产生表演者权。虽然2010年《著作权法》第37条[]将“演员、演出单位”都视为表演者，似乎“非自然人”也可以成为表演者，享有表演者权。实则不然，从比较法的角度来看，多数国家都将表演者的范围限定为“自然人”[]；我国加入的《世界知识产权组织表演和录音制品条约》《视听表演北京条约》均将表演者的概念限定为“自然人”。《世界知识产权组织表演和录音制品条约》第二条、《视听表演北京条约》第二条均规定，“表演者”是演员、歌唱者、演奏者、舞蹈者和其他演出、歌唱、讲述、朗诵、演奏、诠释或以另外方式表演文学或艺术作品或民间文艺表达形式的人员。我国2020年《著作权法》修改之后，将原著作权法第三十七条中的“表演者（演员、演出单位）”修改为“表演者”，删去了 “（演员、演出单位）”。这就意味着可见，表演者仅指表演作品或者民间文学艺术表达的自然人，而不包括“非自然人主体”。

人工智能语音合成技术合成的声音，是个虚拟的“人物”，并不能成为《著作权法》规定的表演者，自然也不能获得表演者权的保护。

（三）是否取得录音制作者权法律保护

录音制作者权是著作权法明确列举的邻接权类型。依据《著作权法实施条例》第5条规定：“录音制品，是指任何对表演的声音和其他声音的录制品。”全国人大法工委编订的《著作权法释义》将录音制品定义为“任何凭听觉可感知的对表演的声音和其他声音的固定”。可见，录音制品包含了“对作品的表演声音的录制”和“对作品的表演之外的声音的录制”两种类型。上文可知，通过智能语音合成技术制作作品的有声读物并不属于表演作品的行为。但是，其本质上还是将他人的作品以声音再现的方式将其固定下来的行为，也就是将一个音乐作品固化为了录音，属于对作品的表演之外的声音的录制，可以产生邻接权意义上的录音制品。同时，用户也是该录音制品的首次制作者，故而可以取得对该录音制品的录制者权。

其次，从邻接权政策的角度出发，通过录音制作者权保护通过智能语音合成技术产生的有声读物既符合邻接权的制度目标，也不打破著作权法的基本逻辑。邻接权制度的设立就是为了保护那些独创性程度不足以构成作品，但是对其不加以保护又会导致投资者产生巨大损失的客体。用户通过大量投资产生的此类有声读物，本质上属于作品的复制件，无法作为作品加以保护。但是此类成果又面临着被未经许可复制、传播的风险，若用户无权制止他人的利用、传播有声读物，必然会导致其投资损失。若赋予用户以录音制作者的地位，不但可以保护其投资利益，亦可以促进作品的传播，符合作品传播者权的定位。

四、“有声读物”的其他保护

语音技术合成型有声读物虽然是对原作品复制件的使用，不生成新作品，但也不意味着，该语音技术合成型有声读物发行后，可以被公众随意使用。该有声读物的产生凝结了投入者（包括但不限于用户、软件开发者等）的心血，如果对该有声读物不加以保护，不利于保护行业创新和技术创新。投入者制作有声读物的过程中时，加入了自己的判断与思考，何种作品采取何种声音更有利于表达作品的情感，均是投入者智慧的体现，应当赋予投入者一定的保护。

但是，目前的法律中，对该种弱人工智能的生成物如何进行保护并未有明确的法律规定。本文认为，依然可采用反不正当竞争法这一兜底制度来寻求保护。这也更加符合人工智能时代的社会发展趋势，鼓励人工智能在文化、艺术以及科学领域的应用。

本文作者：徐婷婷、张庆栋（实习生）

作者介绍