华政学报 | 刘友华魏远山机器学习的著作权侵权问题及其解决

Original 刘友华魏远山华东政法大学学报 2022-05-11

机器学习的著作权侵权问题及其解决

作者简介

刘友华

湘潭大学法学院教授

“法制湖南建设与区域社会治理”2011协同创新中心研究人员

魏远山

湘潭大学法学院博士研究生

一、机器学习技术及其原理

二、机器学习过程中的著作权侵权分析

三、机器学习的著作权侵权困境与出路

四、机器学习著作权侵权问题的制度回应

摘要

机器学习是人工智能的关键技术，包括输入、学习与输出三个过程，需要以大量资料作为训练数据，但在获取、使用受著作权法保护的作品时可能侵犯他人著作权。严苛的著作权保护模式在一定程度上将阻碍机器学习技术的发展与应用，反之，过于宽松的著作权保护模式将抑制作者的创作激情。利益平衡理论要求著作权制度在保护著作权人利益时应考虑社会公共利益，为机器学习技术的发展与应用让渡一定空间。相较于合理使用制度的倾斜保护，法定许可制度能兼顾各方利益，实现技术发展与文化创新的平衡。

关键词

机器学习　著作权制度　人工智能　利益平衡理论

机器学习是人工智能的关键技术，在人工智能技术快速发展并广泛应用的当今，机器学习技术不仅带来诸多社会问题，也对现有法律制度带来挑战。譬如机器学习的生成物是否构成著作权法意义上的“作品”，以及人工智能是否属于著作权法意义上的“作者”等议题已引发热议。但学界对机器学习过程中著作权侵权问题的研究并未展开。机器学习需以大量的“资料（Data）”作为训练数据，这些资料包括受著作权法保护的作品。在机器学习中，未经权利人许可，获取、使用受著作权法保护的作品可能侵犯他人的著作权，引发侵权纠纷。因此，机器学习的著作权侵权问题及其解决方案值得思考。

一、机器学习技术及其原理

机器学习技术的原理对深入分析机器学习过程中的著作权侵权问题具有关键作用，是解决机器学习的著作权问题的前提。

（一）何谓机器学习

何谓机器学习，目前尚未形成统一观点。通说认为，机器学习可以追溯到20世纪60年代末。机器学习技术的先驱亚瑟•萨缪尔（Arthur Samuel）将其定义为：“在不经人为编程的情况下，赋予计算机学习能力的一个研究领域。”汤姆•米切尔（Tom M. Mitchell）将机器学习定义为：“计算机程序从经验E中学习并完成任务T，机器学习就是提高完成任务的性能P，进而实现P如何随着经验积累自动提高。”Trevor Hastie、Robert Tibshirani和Jerome Friedman从统计学角度认为机器学习就是“从数据中学习”，在大量数据中提取有价值的信息，提取重要的模式与趋势。Christopher M. Bishop从工程学的角度论述了机器学习与模式识别的关系，认为“模式识别起源于工程学，而机器学习产生于计算机科学。机器学习和模式识别可以看作是同一领域的两个方面。”Stephen Marsland从算法（Algorithms）的角度阐述了机器学习的概念，认为“机器学习介于几个不同理论学科之间，主要是计算机科学、统计学、数学和工程学。机器学习经常被作为人工智能的一部分来进行研究，这把它牢牢的置于计算机科学中。”

虽然不同学者对机器学习的界定不同，但具有共性——机器学习就是提高计算机性能的学科。为便于理解，以“垃圾邮件识别”为例做进一步说明。如果由程序员设计程序来识别邮件并加以分类，将耗费大量时间和精力，且需持续更新，甚至因没有注意到一些邮件而导致程序设计存在缺陷。最好的办法就是使用一种自动化运行并可从例子中提取模式进而优化这一过程的算法。机器学习使之成为可能。根据Mitchell的定义，邮件集合是经验E，识别垃圾邮件并将其分类是任务T，而性能度量P是一个类似于准确率的百分比。运行这样一个程序的过程通常称为训练，邮件集合就是训练集或训练数据，机器学习就是程序通过实例提取模式，并使最初的程序和模型在实例中不断优化的过程。

（二）机器学习的原理

人工智能就是致力于机器智能化的活动，使机器能够在现实环境中良好运行，并具有预测的能力。机器学习就是推进机器智能化活动的关键技术支撑。机器学习技术运用统计学、数学、信息论、控制论等多门学科知识，通过训练程序实现计算机程序的自动优化，提高程序性能，最终推动人工智能的发展。机器学习的原理与人类学习的过程类似。我们从他人处学习到一种学习方法并通过自己的人生阅历（经验）完善，将完善后的学习方法运用到各种学习中。机器学习则是在对训练数据的回归（Regression）与分类（Classification）中不断优化既有的模型或程序，最终达到自行处理实时案例的智能化水平。机器学习原理如图1所示。

图1　机器学习原理图

如图1所示，可将机器学习分为三个阶段，分别是输入阶段、学习阶段和输出阶段。输入阶段主要是将收集到的数据输入到初步模型，以便初步模型可通过算法分析数据；学习阶段依赖于计算机强大的处理能力与运算能力对训练数据进行分析，优化模型并完成任务；输出阶段是机器学习的最后一个阶段，通过模型对任务进行处理，得到相应的答案（Outputs）。

根据训练数据是否有标注（Labels），可将机器学习分为监督学习（Supervised Learning）、半监督学习（Semi-Supervised Learning）和无监督学习（Unsupervised Learning）。监督学习指通过已知数据及其对应的输出为训练数据优化模型，再用优化后的模型来预测新数据的映射输出。无监督学习指根据类别未知的训练数据完善模型，最终达到对数据进行分类的目的。半监督学习是指同时使用类别已知数据和类别未知数据训练模型，进而完成识别任务。

无论是监督学习、无监督学习，还是半监督学习，都需要对训练数据进行复制和处理。首先对数据进行清洗提取特征，再根据特征进行标注，得到可供模型使用的数据。模型以处理后的数据作为素材，从中提取出有价值的成分完善自身。如图2所示，在监督学习模型中，数据处理阶段如图中虚线线框区域所示，先从训练数据中清洗出特征数据并对数据进行标注，再对选出的特征和标注的数据进行处理，生成可供模型使用的数据。

图2　监督学习模型

二、机器学习过程中的著作权侵权分析

在机器学习过程中，输入阶段必须收集足够的训练数据，学习阶段需对数据进行复制处理，最后输出机器学习结果。这一过程涉及受著作权法保护作品的获取和使用等行为，可能引发著作权纠纷。

（一）输入阶段的侵权分析

输入阶段的主要工作是收集训练数据。训练数据是一个集合，包括公共领域的素材，也包括受著作权法保护的作品。获取、使用公共领域的数据不会侵犯著作权，本文对此不做分析，仅关注受著作权法保护作品的获取与使用问题。目前，人工智能技术创新公司获取受著作权法保护的作品主要通过以下四种途径：

第一，通过“爬虫协议”爬取网站数据。“爬虫协议”是网站与搜索引擎之间沟通的桥梁，示明网站的哪些内容可以抓取，哪些不可抓取。而且，“爬虫协议”已经成为互联网服务提供者的一种行业准则，对该协议的违反会造成不利后果，即通过“爬虫协议”爬取数据将侵犯著作权或构成不正当竞争。一方面，人工智能研发公司（大都属于互联网大型企业）与网站经营者是竞争关系。如果人工智能研发公司妄置“爬虫协议”不顾抓取在线资源，则构成不正当竞争。如百度诉奇虎360反不正当竞争案，法院认为“爬虫协议”属于搜索引擎行业内公认的、应当被遵守的商业道德，被告奇虎公司在推出搜索引擎的伊始阶段没有遵守百度网站的“爬虫协议”，其行为明显不当，应承担相应的不利后果。另一方面，网站的资源大部分受著作权法保护，未经权利人同意，不向其支付报酬，获取并商业性使用其作品构成侵权。

第二，未经许可抓取数据库的数据。数据库聚集着大量素材，这些素材大多受著作权法保护，未经许可抓取数据将侵犯数据库权利人的权利。在我国，数据库的著作权法保护规则并不完善，著作权法并未对数据库保护进行专门性规定。不过，可将数据库所有者视为作品传播者，其通过对作品的收集、遴选和分类，对数据库作品享有传播权。所以，数据库拥有者通过技术措施防止他人未经许可获取数据库中的数据，除法律、行政法规另有规定外，任何人不得故意避开或破坏技术措施，否则构成侵权。

人工智能开发者在技术上有着巨大的优势，为其获取数据库的资源提供了便利。为训练人工智能算法，研发者大多通过破译数据库的技术保护措施获取大量数据。在破坏或避开权利人设置的技术措施后，人工智能开发公司或将数据库中的数据复制存储到自己的服务器，或不复制存储而直接由算法和模型使用。这两种行为构成对数据库所有人的权利侵害，其中前者还侵犯作者的复制权。

第三，未经权利人的许可，以商业目的数字化非电子数据（Digitizing Physical Media），进而为机器学习提供训练数据。这种行为构成侵权。数字化非电子数据有两种情况：一是合法获得非电子出版物再进行数字化；二是以非法渠道获得非电子出版物，然后再进行数字化。以合法的方式获得非电子出版物，但是随后的数字化过程伴随着对作品的复制等行为，据我国《著作权法》第48条第1款第1项规定，构成对复制权的侵害。而以非法方式获取非电子出版物并进行数字化，其行为完全落于侵权之境地。

表1　BAT用户知识产权声明条款对比表

第四，人工智能开发公司通过服务协议强制获得许可。人工智能开发者通常是大型互联网公司，占据着相当大的市场份额，保有数量庞大的用户群。人工智能开发公司在服务协议中大多约定了著作权许可事项，由用户在全球范围内免费许可其使用，这与著作权制度激励作者创作和促进作品传播的价值初衷格格不入。以百度公司、阿里巴巴集团和腾讯公司（简称“BAT”）为例，他们皆在其公司的服务条款中对此进行了明确规定。如表1所示。从表1中可见，BAT公司在其服务条款中明确约定可免费使用用户上传或提供的信息，并可用于当前或以后的产品开发或技术研究中。虽然通过合同的方式获取训练数据并不违反法律规定，但是这与著作权的制度初衷是否相违背值得关注。著作权作为私权并具有政策功能，为促进文化发展与传播而赋予作者著作权。而人工智能研发公司通过合同的方式直接获取并使用用户的作品，使著作权制度演变成以剥夺著作权人的利益转而服务大型公司经济利益的工具。

（二）学习过程中的侵权分析

在训练数据收集完成后，要将训练数据输入计算机中供模型使用以完成训练。如图2所示，训练数据的处理过程是机器学习的前置步骤，可能侵犯作品权利人的相关权利。

以基于人工神经网络的机器翻译（Neural Machine Translation）技术为例。该翻译技术就是在深度学习（Deep Learning）的基础上发展起来的，需以大量的文本材料进行分析，将文本语句向量化并层层传递直至转化为机器可以理解的机器语言，再经过多重传导运算，最终生成译文。在训练机器翻译算法时，并不是针对作品所表达的思想，而是对作者的表达进行分析，抽取可供优化翻译模型的特征。这种训练过程涉及对作品的复制、翻译、改编、汇编等行为。

通过机器翻译的例子可知，在机器学习过程中涉及对训练数据的复制、翻译、改编、汇编等行为。而这些行为是否侵犯著作权则需进一步分析。机器学习阶段的各种行为均是在获得训练数据的基础上进行的。如果以非法方式获得数据，机器学习过程中的复制、翻译、改编、汇编等行为当然构成侵权。以合法的方式获取训练数据则需分情况讨论。

首先，机器学习过程中的复制行为是否构成侵权需区别对待。著作权法对复制与临时复制行为的态度迥异。临时复制本身不符合著作权法意义上复制的特性，将临时复制纳入复制权范畴，将不合理地扩大著作权人的权利，不利于他人对信息的获取。因此，著作权法并不承认临时复制是著作权法上的复制行为。换言之，在机器学习过程中，临时复制并不构成对复制权的侵犯。但非临时复制符合侵害复制权的构成要件，构成侵权。

其次，机器学习过程中的翻译、改编、汇编等行为是否构成对著作权的侵权，需结合机器学习的输出结果分析。按照机器学习输出结果是否具有独创性，可将机器学习分为表达型机器学习（Expressive Machine Learning）和非表达型机器学习（Non-Expressive Machine Learning）。非表达型机器学习的输出结果不具有独创性，而表达型机器学习的输出结果是具有一定独创性的。如果机器学习输出的结果不具有独创性应认为不构成侵权；反之，则构成侵权。

（三）输出阶段的侵权分析

算法或模型基于对训练数据的提取和处理，最终形成学习结果并予以输出。与输入、学习阶段一样，输出阶段也可能侵犯著作权。

机器学习生成物是否属于著作权法意义上的“作品”？有学者认为机器学习生产物具有独创性，是著作权法意义上的“作品”。也有学者认为现阶段的人工智能属于弱人工智能，机器学习等均是以一定算法或模型为基础，由此产生的生成物不是著作权法上的作品。世界知识产权组织将作品定义为：“作品是作者自己的创作，完全不是或基本上不是从另一作品抄袭来的。”可知，只要是独立完成不是完全抄袭的成果就是作品。质言之，只要机器学习生成物具有一定的独创性，符合著作权法要求的构成要件，即使其生成过程是依靠算法，并不影响其生成物属于著作权法意义上的作品。至于独创性的判断，已有成熟的判断标准，不再赘述。

既然机器学习生产物属于作品，那么该作品的权利归属需进一步明确，以便确定侵权责任承担。学者关于机器学习生成物的权利归属应当如何认定存在以下几种不同意见：认为是归开发者、或是归对该作品的创作进行必要安排的人、或是归人工智能所有者、或是遵循合同约定决定权利归属。著作权制度的初衷之一是保护自然人的利益，通过法定方式赋予作者一定时间内享有专有权，填补作者的付出，以达到促进文化发展与传播的目的。人工智能或计算机仅仅是人类的附属物，不具有独立的法律人格。机器学习生成的具有一定独创性的生成物是著作权法意义上的作品，其权利归属应当是自然人，既是当下社会环境的诉求，也是自然秩序的要求。至于权利究竟应归哪个自然人享有，将权利配置给对作品的创作进行必要安排的人不失为较好的安排。

机器学习以训练数据的表达方式为基础并最终输出结果，其生成物可能与训练数据实质性相似（substantial similarity）。若实质性相似，则该生成物构成对原作品著作权的侵害。不过，因为训练数据获取方式的不同，在机器学习生成物的侵权认定上存在一定的差异。第一种情形是当机器学习训练数据输入到计算机并存储在设备上时，这时只需要查看训练数据库是否包含与之实质相似的作品即可证明存在侵权。第二种情形是当机器学习输入数据中缺少被复制的原作品时，此时情况就变得更加复杂。导致这种现象的原因有：第一，模型是通过爬虫来查找输入数据的，但爬取行为没有被记录下来；第二，给出了确定的训练数据集，该数据集中的每一部作品均与未被收录在内的某一部作品相似，由此创作出与未被包含的“某一部作品”实质相似的作品。在此种情况下，按照第一种认定标准可能不构成侵权，但可适用“接触+实质性相似”的判定标准，只要证明“某一部作品”是行为人可获得的即可。

三、机器学习的著作权侵权困境与出路

机器学习从训练数据输入到学习结果输出均与著作权紧密相关。著作权制度为促进文化创作与传播，赋予作者一定范围的专有权以激励创作。但作者享有的专有权与机器学习技术的发展存在一定程度的对立冲突。

（一）固有利益平衡机制被打破

“著作权法作为促进国家文化繁荣、经济发展和社会进步的重要法律，对作者等著作权人利益的保护不是惟一目的，它还有更重要的促进知识和信息的获得与交流、促进学习和后续创造，实现国家文化政策的重要功能。”因此，著作权制度主要有以下三种功能。其一，基于作者创作作品而由法律授予专有权，以填补作者创作所付出的劳动，同时为防止著作权强保护带来不利后果而明确其合理界限，避免保护不足或过度保护。其二，平衡个人利益与社会公共利益，从保护作者迈向超越个人的更高层面。作者希望通过作品获得更大的经济利益，作品使用者则希望廉价或免费使用作品。处理的关键在于使两者利益各得其所，确保作者利益使其不丧失创作积极性，同时保障公众使用作品的利益。其三，保证公众能“接近”作品，促进文化创作与传播。这也是实现著作权制度的社会公共利益的体现。只有让公众接触作品，才能发挥其价值，最终促进文化创作与传播。

“著作权法被认为是一种平衡的设计，在获得受保护作品的成本和对作者提供激励所产生的利益之间需要平衡。”上述功能在一定程度上达成了均衡，即权利人得到回报，使用者可以“接近”作品，社会公共利益得到尊重。但机器学习技术的出现，打破了这种利益平衡，主要体现在以下方面：

1.著作权人的利益受到威胁

机器学习技术的应用需要大量数据，再加之其研发者一般是大型互联网企业，在技术和财力方面拥有压倒性优势，将对著作权利人的预期利益造成巨大威胁。

一方面，著作权利人对作品的控制力进一步被削弱。互联网时代，虽然作品权利人可通过技术措施防止他人未经许可获取作品，但面对以强大的数据挖掘技术和计算机技术为支撑的机器学习技术，权利人所采取的技术措施通常显得苍白无力。以“爬虫”等为工具的数据挖掘技术可通过低成本、高效率的方式复制和分析数据，因而在训练数据的获取方面具有得天独厚的优势，且这些行为具有高度的隐秘性，作品权利人很难及时发现其作品被获取。

另一方面，机器学习技术的兴起导致权利人与使用者的地位很大程度上被颠覆。传统技术条件下，著作权人相对于作品使用者而言处于相对优势的地位，通常掌控着谈判主动权。但人工智能时代，尤其是作为先进技术掌控者——人工智能开发者——通常是集资本优势与技术优势于一身的大型创新企业，其优势地位更为凸显，而作品权利人多是势单力薄的个体，在谈判能力与维权救济方面均难以抗衡，势必处于弱势地位，导致作品权利人只能在较低水准下获得少许经济收益。

2.社会公共利益受到减损

机器学习技术的广泛使用一方面导致作者利益受到威胁，同时在一定程度上也将导致社会公共利益减损，形成以剥夺著作权人利益为代价服务于大公司利益的局面，长远看将抑制作者创作的积极性，减少作品创作的数量，进而损害社会公共利益。著作权制度重要的功用之一在于为社会全体成员提供激励，增加作品存量，促进文化创作与传播。当激励力度减损后，潜在作者群体因预期收益难以弥补创作支出而不愿创作，作品数量势必减少。以机器学习为典型的新技术的出现，大型公司通过获取大量著作权作品研发新型技术，增加自身经济效应，导致著作权人的个人利益向大型公司流转，打破了既有著作权制度构建的平衡状态，改变了既有的利益流转方向与流量。机器学习技术需要大量使用作品，但因获取和使用作品的隐秘性、服务协议的不公平性、议价能力不平性等原因降低了激励力度，抑制作者创作的积极性，减少了作品供给数量，间接影响公共领域的扩展。

3.著作权保护力度影响机器学习技术的进步

一方面，机器学习技术对现行著作权制度带来诸多挑战，另一方面，著作权制度对权利人的保护又在一定程度上制约机器学习技术的发展。在缺乏外力协调的情况下，因利益驱动效应，著作权制度与机器学习技术发展的关系有二：一是著作权制度阻碍机器学习技术发展；二是机器学习技术减损著作权制度的效能。

第一种情况，著作权制度的严苛保护模式将会限制机器学习技术的发展。按照著作权法的要求，除《著作权法》第22条规定的合理使用条款与第23条规定的法定许可条款之外，使用在著作权法保护期限内的作品须取得权利人的同意并向其支付报酬，否则构成侵权。机器学习技术的发展需以大量的训练数据为基础，训练数据包括受著作权法保护的作品。按现行著作权法的规定，在获得训练数据之前，人工智能研发公司需要甄别哪些训练资料是受著作权法保护的作品，哪些是公共领域的素材；若是受著作权法保护的作品就需要向权利人获得授权。这虽对作品权利人有利，但需人工智能开发公司在训练数据的获取上投入大量人力、物力和时间，增加了机器学习的成本，将阻碍机器学习技术的发展与使用。若不获得许可也不支付报酬，依现行法律规定，作品权利人要求研发公司给付赔偿金，虽每部作品的赔偿数额并不高，但庞大的作品基数加之赔偿金也非一般公司所能承受的，更不用说司法维权将导致诉讼爆炸，耗费巨额的司法资源和社会成本。

第二种情况，宽松的著作权保护模式将抑制作者创作的积极性。一般而言，为保护和促进技术创新发展，著作权制度通过设置著作权例外规定，对新技术使用作品持容忍态度，如将使用作品研发机器学习技术的行为归为著作权例外，甚至将该种行为视为合理使用，将为机器学习技术大开方便之门，极大促进技术的快速发展。但允许人工智能研发公司无条件或超低成本地使用作品，将急剧降低创作者的经济效益，导致作者无法获得足够多的激励和回报，严重抑制创作积极性。这不仅不符合著作权制度初衷，还会导致整个社会文化式微，甚至从根本上威胁著作权制度。

（二）著作权利益平衡格局的重塑

由上可知，机器学习技术对著作权制度的冲击主要体现在对既有利益平衡的打破以及其自身发展需求与著作权保护的对立。欲处理好机器学习技术带来的挑战，就必须处理好上述问题。从利益平衡格局看，主要是著作权人、机器学习技术开发者和社会公共利益间的平衡；从技术发展与著作权保护看，则是著作权制度对技术发展容忍的程度问题。著作权保护过于严苛或宽松都难以解决现有问题，所以需要尝试寻找“第三条路”——在严苛和宽松之间寻找平衡点。从本质上看，问题的解决之道仍是微调著作权制度，以调和技术发展与著作权保护的冲突，回应新技术挑战，平衡各方利益。

著作权制度的调整涉及著作权利人、作品使用者和社会公众三方利益主体，不同利益主体诉求不同。首先，著作权利人希望通过著作权法保护其智力成果，根据作品回收和享有利益，实现自身价值。其次，作品使用者希望以较低成本获得作品，并按照自己的意愿（在法律容忍的限度内）使用作品。比如，机器学习技术开发者希望能以较低成本获取作品并用于机器学习。最后，社会公众“接近”作品的可能性不被限制，社会文化传播与创新不被阻碍。

机器学习技术的发展与使用凸显了著作权严苛保护与宽松保护之弊端。严苛保护不利于机器学习技术的发展，宽松保护将削减作者创作的积极性。从机器学习技术发展的角度看，现行著作权法更偏向于严格保护，要求作品使用者（如机器学习技术的研发者）使用作品应征得权利人的许可并支付报酬，否则将陷入侵权之境地。不过，从现实操作看，因机器学习技术开发者获取和使用作品的行为隐秘性较强，权利人难以及时发现侵权行为，再加之维权成本相对较高，实际处于劣势地位的反而是著作权人。

可见，问题的解决方向是如何维护作者的利益，确保作者创作积极性的同时兼顾技术发展的需求。从作者的角度考量，激励作者创作的主要方法是保证作者能够获得必要且合理的精神性回报与经济回报。精神性回报就要求使用者标明作品出处和作者身份，确保作者能够出现在公众面前，展现作者的人格利益；经济回报主要是收回经济利益，以填补作者的创作支出。从技术发展的角度考量，满足技术发展的需求就是确保机器学习开发者能够便捷、低成本地获取和使用作品。考虑到机器学习需要大量获取和使用数据的现实，这要求尽可能简化获得许可和报酬支付的程序。唯如此，方可在保证作者创作积极性的基础上促进机器学习技术的发展，且不阻碍公众“接触”作品的可能性，还能促进文化发展与传播。

四、机器学习著作权侵权问题的制度回应

机器学习涉及的著作权侵权问题的最核心难题是机器学习训练数据的获取和使用问题。学习结果的输出阶段虽然也存在侵权的可能，但在明确生成物的权利归属后，可依照现行规定作出安排。如自始至终机器学习训练数据的获取就不合法，那么后续的行为很难得到豁免。因此，要确保机器学习技术的进步，就须确保获得作品是以一种低成本的或程序简洁的方式进行。现行著作权法能够提供合理使用制度和法定许可制度两条路径。

（一）合理使用制度：偏向技术进步

获取并使用作品完善机器学习技术的行为是否能被归于合理使用范畴尚有争议。有学者认为，著作权制度以自然人为中心，若将“人类受众”利益作为评判合理使用的重心，则机器学习训练数据输入可看作是合理使用的一种新类型，因为机器学习的复制行为均发生在机器层面，就如同爬虫技术对网页内容的抓取，并未直接将作品提供给人类阅读者。将机器学习纳入合理使用范畴，不仅未压缩作品市场，也未侵害作品权利人的合法权益，甚至还有利于机器学习技术的进步。

也有学者认为，合理使用制度要么威胁着机器学习的进程，要么剥夺人类创造者权利。一方面，若不将机器学习纳入合理使用范畴，就给作品权利人明确的信号可起诉机器学习研发者侵权，不仅会导致诉讼爆炸，还会严重抑制机器学习技术的进步。另一方面，将机器学习纳入合理使用范畴，将减损作品权利人的经济收益，不利于著作权制度实现其价值。

合理使用制度是为社会公共利益限制著作权利人的权利，欲扩展合理使用制度则需经充分论证。我国合理使用制度需经“三步检验法”的考量，即作品已公开发表、不侵犯权利人权利和在法定情形下。我国虽吸纳《伯尔尼公约》第9条第2款所规定的“三步检验法”，但未明商业性使用是否为合理使用的构成要件。其他《伯尔尼公约》成员国多将其作为条件之一，如美国《版权法》107条规定的“四要素法”就要求判断作品使用行为是否属于商业性使用。但在我国，无论是业界还是学界，均认为合理使用制度内含非商业性使用之构成要件。

因此，当前不宜将机器学习完全排除在合理使用制度之外，也不可将其完全纳入，而应针对机器学习的具体情形做具体分析。如以机器学习技术研发主体性质为区分依据，若研发主体为商业机构，可将其行为判定为商业目的使用；若研发主体为非商业机构，其行为是否可视为合理使用，应根据其目的进行判定。就非商业性目的获取并使用作品的行为，如以研究或开发机器学习技术为目的获取并使用作品的行为，可视为合理使用。但以商业目的，获取并使用作品训练机器学习模型的行为，需将其排除在合理使用范畴之外。由于当前机器学习技术基本掌握在大型互联网公司的手中，若允许大公司无偿获取并使用作品，将损害作品权利人的经济利益，抑制人们创作的积极性。因此，将机器学习技术完全纳入合理使用范畴值得谨慎考量。

（二）法定许可制度：兼顾各方利益

除合理使用制度之外，法定许可制度也可简化作品获取环节，促进机器学习技术发展。法定许可制度要求作品的使用者可不事先获得作品权利人的许可直接使用作品，仅需向权利人支付合理报酬。相较于合理使用制度，法定许可制度在简化作品获取和使用程序的同时，保证了作品权利人的经济利益，实现了机器学习技术研发者与作品权利人之间利益平衡，不至于形成以剥夺作品权利人利益为代价而服务于人工智能企业的现象，因此较合理使用制度更具优势。

机器学习需大量获取版权作品，可要求人工智能研发公司就其获取的作品进行登记，再向权利人支付报酬。不过，将机器学习纳入著作权法定许可制度需要一定的技术支撑、制度支撑和实施保障。从技术支撑看，获取作品的痕迹一般容易被遮盖或隐藏，需一定的技术作支撑，以确保获取作品的痕迹不被篡改或清除。而区块链技术能提供支持。区块链技术能以区块方式将训练数据固定，并以密码学方式保证不可篡改和不可伪造，使后期查验训练数据成为可能。从制度支持看，要确保支付的报酬能到权利人手中或做到专款专用。对作品权利归属清楚的作品，人工智能研发者应将费用支付给作者或其权利人。对权利人不清的作品，人工智能研发者使用这些作品也需支付费用，但因没有明确的权利人，导致费用无法支付到位。可建立专项基金或社会公益信托，将基金收益用于促进文化创作与传播。从实施保障看，要确保人工智能研发者能够如实记载获取作品的痕迹、统一其行为，确保统一的行为准则和规范。在行业自律方面，可成立行业协会并要求强制入会，制定行业自律标准，严格贯彻实施行业标准。在政府监管方面，完善人工智能研发公司注册和登记，加强信息公开和信息披露，确保人工智能开发和机器学习过程中合法使用作品。

法定许可制度可有效解决机器学习的著作权侵权问题，但后续配套措施的落实仍存在相当的难度：一是技术支持是否能够能跟上机器学习技术的需求。区块链技术能够保证训练数据获取的记录不被篡改，但区块链技术的普及与使用仍需时日；二是实施保障并非朝夕可成，在《著作权法》修改中将机器学习纳入法定许可之中，难以短时得到认可并获得实质性突破；三是法定许可中的报酬的合理分发将是艰巨任务，有效实施将存在相当大的不确定性，需高效合理的程序以明确费用授权和分发。正如此，法定许可制度是需要时间考验的理想型解决方式。

此外，也有观点认为可用成品征税补偿金制度解决机器学习技术发展与作品保护之间的矛盾。正如“欧洲议会机器人问题民法规则委员会的一份报告”指出的那般：“为了税收和社会保障的目的，需要对机器人和人工智能对一家公司的经济收益贡献的程度和比例进行披露。”比尔•盖茨也建议对“接手你工作的机器人”征税进行再分配。虽然全面的、大幅度的税制改革是不可取的，但机器学习或人工智能技术带来的经济效益会促使政策制定者采取小额度的税率帮助机器学习摆脱著作权的束缚。虽然将对机器学习或人工智能的征税视为一种交易，以一定比例的税制换取机器学习或人工智能技术的未来，并将税收反哺文化创作或支持那些通过创造性的智力劳动谋生的个人或群体。但该种思路在我国仅具学理上的逻辑性与可采性，实践上的针对性与可操作均不值一提。

经济主导地位不再属于著作权利人或独占许可持有人，而属于使用他人作品的大型创新技术企业。机器学习技术使这些公司能在未经授权的情况下从受保护的表达中获得价值，并将这种价值用于商业目的，这有朝一日会危及人类作者的生计。若不能作出合理的解释与制度安排，将使著作权制度与社会公共利益相冲突，加剧人工智能技术造成的社会不平等现象，抑或阻碍技术的进步。合理使用制度并不能完全适应技术发展与作品保护的需求，甚至阻碍社会文化发展，而法定许可制度能较好平衡作品保护与技术发展诉求，平衡各方利益，长远看不失为一种可取的理想方案和制度安排。

（责任编辑：吴一鸣）

（推送编辑：潘佳妮）

本文原载于《华东政法大学学报》2019年第2期。欢迎学界同仁惠赐大作，编辑部网站更新维护期间稿件请投：journal@ecupl.edu.cn，感谢支持！

桐城一派｜突发！湖南省财政厅厅长刘文杰坠楼身亡

因为地铁逃票，警察拔枪乱射，无辜乘客爆头

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

华政学报 | 刘友华魏远山机器学习的著作权侵权问题及其解决

您可能也对以下帖子感兴趣

桐城一派｜突发！湖南省财政厅厅长刘文杰坠楼身亡

因为地铁逃票，警察拔枪乱射，无辜乘客爆头

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

生成图片，分享到微信朋友圈

华政学报 | 刘友华 魏远山 机器学习的著作权侵权问题及其解决

您可能也对以下帖子感兴趣

华政学报 | 刘友华魏远山机器学习的著作权侵权问题及其解决