本文是一篇知识产权法论文,本文在结合分析著作权合理使用与技术措施等法理与 TDM 技术特征、社会实践的基础上,借鉴其他国家与地区具参考性价值的立法,有针对性地对我国的 TDM 例外的具体制度设计中可能涉及的焦点问题作出界定,并就设置制度改良性的措施提出建议。
一、文本与数据挖掘的基本问题与著作权法相关规定
(一)文本与数据挖掘的基本问题
1.文本与数据挖掘的概念
文本与数据挖掘(TDM),作为一种随着人工智能技术发展应运而生的数字信息分析技术,当下正随着社会各领域的研究方法从单纯的假设导向转为结合假设与探求新知导向的转变,而日益凸显其独到的实践价值。法学界、图书馆学界等等领域的相关文献术语的多样性有时促进了实践中的误解:文本与数据挖掘、数据挖掘、内容挖掘、文字资料探勘、文本信息分析等类似术语经常被交替性地使用,事实上它们共同描述或涵盖了文本与数据挖掘这一种操作流程;且除了名称存在差异之外,它的定义也不尽相同。例如,国际图书馆协会联合会认为TDM是指从计算机可读的材料中抽取信息并加以重组,通过识别模式判断事物之间联系的过程;①欧盟的《2019 版权指令》在明确使用 TDM 名词的基础上,将“文本和数据挖掘”的定义等同于旨在分析数字形式的文本和数据以生成某些模式、趋势和相关性等信息的自动化分析技术;②英国知识产权局则将 TDM 定义为从处于机器可读状态的资料中提取具有价值之信息的过程,过程中目标资料将被大量复制、提取、演绎、整合;③日本在新著作权法中也加入了可以涵盖 TDM 行为的例外,其于新著作权法第 47 条之 5 的“利用计算机进行资讯处理,提供新知与讯息,促进作品利用”的法定例外之中,列举了包含资讯检索、信息分析与其他政令所定的“处理资讯以生成新知”的情形,且强调“不限方法”,可见其立法对该例外的具体实践具有较大的包容空间。④TDM 的定义虽然因为立法规制范围不同等因素存在细微差异,并未形成一致结论,但基本概念已成为共识:概言之,文本与数据挖掘,是一种以大量数字形式的资料(例如文本、声音、图像)的利用为必要前提,基于给定的技术与流程规范,对相关资料进行收集、编译、分析并提取和传输相应结果的过程;如以功能性的角度对它进行审视,它就是一种利用信息科技筛选、组织和分析大量资料的工具,它将给定结构应用于非结构化的电子文本的分析,并使用统计方法发现新信息。
(二)我国文本与数据挖掘的著作权法相关规定
1.文本与数据挖掘涉及的著作权权利
(1)复制权
复制,是文本与数据挖掘得以成功实行的基础性行为;而复制权,则为国内外主流学术界与实务界均认同的文本与数据挖掘行为可能涉及的著作权权利。使用者能提供相关挖掘材料作为挖掘对象,是文本与数据挖掘的先决条件,不论该材料原始状态是作为印刷品亦或是作为电子数据的存在,也不论其位置位于互联网云端亦或是使用者个人的存储设备,客观上都需要经过将该材料转变成数字形式,再复制至挖掘系统所指定的位置的步骤。如复制对象为作品,则该行为属于复制权控制的行为。另外,挖掘结束后,使用者出于验证研究可重复性与分享研究论证过程与结果之重要目的,亦常常需要完整保存数据挖掘所使用之原材料,此处亦涉及到相关作品的复制权。实践中许多研究项目对研究资料保存规定有制度化的要求,如我国对国家自然科学基金资助的研究项目,即有相关的研究材料采集和保存的要求,以确保科研项目结果的可靠性。①我国新修订的著作权法中,关于复制权的定义在基本延续之前的定义之基础上,于条款中列举的复制的行为模式中增加了“数字化”的复制方式,②进一步确定了各种技术形态的数字化复制行为属于复制权的调整对象,包容性的定义减少了技术快速发展的时代中司法固有的滞后性可能带来的争议。其中,文本与数据挖掘的流程将涉及到我国著作权法中复制权的控制范围。
值得注意的是,有时 TDM 的技术特征将使得它于获取挖掘对象的过程中仅需要对对象进行至今于理论界与实务界存在争议的“临时复制”,而不必制作持续稳定状态存在的副本,则此时获取材料行为本身并不一定构成复制权所控制的行为。目前与知识产权相关的国际公约并未明确将临时复制纳入成员国应保护的权利范畴,③例如《伯尔尼公约》正文中虽未明确规定,但其修订时的修订会议委员会主席的简要报告亦强调复制行为应满足产生能固定作品,且可基于此进行二次复制与传播之效果的要求,④因此以非固定性为特征的临时副本并非公约的调整范围。各国之间出于不同立场对于该权利亦争议较大,例如在《跨太平洋伙伴关系协定》(TPP 协定)等国际协定的谈判过程中,新西兰、越南等众多与会国家即明确反对美国将临时复制纳入复制权调整范围的提议。⑤基于临时复制本身的固定性界定困难、常常不具有独立经济价值,仅仅作为技术组成部分而存在等现实因素,⑥即使是基于自身发达的互联网版权产业,鼓励国际协定将临时复制纳入复制权规定的美国,其版权法亦明确有著作权法意义的副本应为“足够持久或稳定,以允许其被感知、复制或以其他方式超过短暂的持续时间地传播”的副本,⑦可见其并未将临时复制的情形纳入其中。
二、文本与数据挖掘可能适用的著作权制度模式对比分析
(一)域外具有代表性的合理使用规制模式
1.美国
美国作为立法体系上较为典型的英美法系国家,其合理使用制度采取了基于四要素原则与各种重要司法判例的开放式立法,对此美国最高法院亦明确于 Campbell 案中明确了任何使用模式都不能推定为属于合理使用,③而是应根据美国《版权法》第 107 条规定的四要素原则综合分析,即“使用的目的和特征”、“作品的性质”、“与全作整体相关的使用部分的实质与数量”、“使用对作品的潜在市场的影响”。④因此分析美国的文本与数据挖掘的合理使用模式,亦需要结合典型判例中的认定去框定;其中谷歌图书馆项目涉及的两个判例,即 Authors Guild, Inc. v. HathiTrust(简称 HDL 案)以及 Authors Guild, Inc. v. Google, Inc.(简称 Google books 案)因其系统性复制的 TDM 行为被认为是认定文本与数据挖掘在美国法中构成合理使用的代表性判例。
谷歌出于发展其数字图书项目中的图书馆项目(Library Project),从 2004 年开始便与合作的图书馆签订协议,由谷歌扫描图书馆馆图书的全部内容,向每个图书馆提供扫描的每本书的数字副本以用于数字化利用,而谷歌则从对图书的推销中获利。HDL案中,HathiTrust 数字图书馆(简称 HDL)就是美国多所大学共同设立的公益性文化机构,该机构亦与谷歌签约,使其资源库容纳了 Google 提供的超过一千万件作品的数字副本。HDL 基于上述数字副本主要提供三种服务,其中利用文本与数据挖掘技术的即为全文检索服务,使用者可以通过搜索关键词得以实现不经浏览全文便可获知该词汇于作品中的相关情况的目的。而 Google Books 案中,Google 涉案的技术手段与前案基本一致,但是具有著作权法意义的区别在于该案主体为明确具有商业动机的商业主体,且对于挖掘结果的利用方式 Google books 更进一步地向使用者提供了上下文片段。
(二)版权方主导的协议许可模式
1.谷歌图书馆计划的默示许可模式
在 Google 的图书馆计划相关的系列案件中,虽以判定谷歌的 TDM 行为构合理使用告终,谷歌其实亦提供了默示许可的机制,给被使用的相关作品的权利人以自行退出该计划的机会。所谓默示许可,即指代在权利人特定行为或具体特定情形中,推定未曾作出明确意思表示的权利人向相对方作出了相关权利许可的制度;①谷歌图书馆计划中的默示许可模式,具体则为“选择退出”的机制,即在双方未有许可合同的情况下,权利人如未以给定的方式声明退出,即视为授权许可使用。就作品使用者的角度来说,相比起在海量的来源复杂,甚至包含许多孤儿作品的作品中逐一获取权利人的许可后再行利用,该类默认许可的机制确实能极大程度地降低交易成本,②但该机制毕竟与著作权制度传统的“选择进入”原则相违背,且从 2008 年谷歌公布的与版权人的涉及巨额赔偿引发诸多社会争议,几经修改的和解协议最终因公平合理性之不足被法院否定,③并于后续的裁判中判定其行为构成合理使用之结果来看,该模式并未进一步于实践中得到肯认。
2.“CC”协议为代表的公共版权许可模式
知识共享协议,即 CC 协议(Creative Commons),作为国际支持知识共享与反对版权过度扩张的制度成果,其起源于美国的开源运动。美国学者 Lawrence Lessig 为了促进作品的流通,④保障公众获取作品的机会,提出了该以具有自治性为主要特征的制度构思。作为一种许可协议,其向权利人提供了各种可选的权利限制要求,例如署名、使用非商业性、禁止演绎行为、相同方式共享等,⑤均可供权利人选择适用;使用者在满足权利人相应要求的情况下即可自由使用该作品,其中亦可能包含对相关作品的数据挖掘行为。而从实践来看,权利人自由选择适用的 CC 协议,对于文本与数据挖掘面临的问题而言仍存在着许多问题。
三、利用合理使用制度调整文本与数据挖掘行为的正当性探究..........................40
(一)符合宪法的制度要求...........................40
1.利于实现国家发展文化事业的义务.................................40
2.利于实现公民基本权利中的文化活动自由......................41
四、我国文本与数据挖掘的著作权法例外制度构建.......................55
(一)文本与数据挖掘的合理使用制度的设计...................