大数据与版权（第一部分）

23 Jun 2020

版权在多个方面与大数据关联。从用于数据收集和处理的计算机软件到数据集（数据集合），再到运用大数据技术生成的成果，我们将在本文中探讨大数据如何从版权保护中受益。

根据《伯尔尼公约》，版权保护文学和艺术作品，其必须首先满足“独创性”要求。根据司法辖区的不同，此类作品可能还必须满足“固定”和/或“人类智力创造”的要求。

独创作品是指由作者创作的、反映了作者本人的智力创造的作品，与复制品，剽窃物或衍生作品形成对比。

作品作为版权的对象，是作者某些思想和情感的表达。客体的无形性是知识产权区别于其他财产权利的基本特征，版权的客体亦是如此。但是，这种无形的客体通常可以以有形形式固定。

《伯尔尼公约》第2.2条规定：“本同盟各成员国得通过国内立法规定所有作品或任何特定种类得作品如果未以某种物质形式固定下来便不受保护。”

以我国为例，《著作权法实施条例》第二条将“作品”定义为“文学、艺术和科学领域内具有独创性并能以某种有形形式复制的智力成果”，既提出了“独创性”要求，同时也包含了“固定”的要求。

此外，我国学界的主流观点是，只有人类智力活动的成果才能被称之为“创造”。

计算机软件

《与贸易有关的知识产权协定》（TRIPS）要求成员国将计算机软件按照《伯尔尼公约》下的“文学作品”加以保护。

在我国，计算机软件保护受《著作权法》和《计算机软件保护条例》等具体法律法规调整。计算机软件的保护既适用于计算机程序，也适用于相关文档，但不涉及软件开发中使用的思想，处理，操作方法，数学概念等。

毋庸讳言，如果数据收集和处理过程中使用的计算机软件符合上述要求，则它们在中国可以得到版权保护。

数据集

大数据语境下的数据库通常是非结构化和非关系型（NoSQL）的。与以结构化表格形式存储数据的传统关系（SQL）数据库相比，NoSQL数据库往往无表，高度灵活，并且通常具有更大的规模。

结构化和关系数据库可能符合适用于汇编作品的独创性标准，该标准要求在内容的选择或者编排方面体现独创性，从而触发版权保护。

而NoSQL数据库，鉴于其性质，很难以充分满足独创性要求的方式对其内容进行选择和编排。

显然，对“volume（大量）”和“variety（多样）”的追求势必会偏离“独创性”的初衷。对于追求数据完整性的数据库，将难以满足独创性的要求，从而获得版权保护。

另一方面，大数据倾向于依赖云计算并涉及动态数据集，而这几乎不可能“以有形形式复制”。因此，在中国这样的司法管辖区，此类数据集可能无法通过“固定”测试。

大数据的应用

继续深入这个主题，我们可能会讨论到诸如文本数据挖掘（TDM），机器学习和人工智能（AI）等数据驱动技术。

大数据资源通常可以生成通过数据驱动技术产生的可视化输出。这些最终产品可以通过原始数据以叙事性的方式呈现，也可以通过进一步应用AI技术以更“具有创造力的”形式呈现。

那么，这些最终产品是否有资格获得版权保护呢？

首先，由于这些输出已经是数据处理的可视化成果，他们可以通过有形形式表现，因此我们可以简单地得出他们将满足“固定”的要求。

其次，这些输出似乎将体现独创性——既可以成为汇编作品（根据算法对原始数据进行选择和编排的结果），也可以成为更具创造力的作品（如文章、诗歌、绘画等）。

话虽如此，立法者对于机器生成的内容是否可以受到版权保护采取了更为谨慎的态度。大多数司法管辖区都要求作品创作过程中至少涉及一定的人为干预。

我们将在下一篇文章中详细介绍应用大数据技术所产生的最终产品的版权保护问题以及TDM技术应用中的版权问题。

钱佳蕾

HFG Law&Intellectual Property

当“种子”遇上“化肥”，法院说：它们是“亲戚”！——一场商标跨类保护的操作