免费数据集模式生成器 - JSON-LD | OneStepToRank

数据集模式生成器

生成有效的 Dataset JSON-LD 结构化数据,适用于数据页面和研究出版物。帮助 Google Dataset Search 通过正确的名称、描述和分发标记发现您的数据集。

构建您的数据集模式

想要自动化的 模式监控

OneStepToRank 在生产环境中监控您的结构化数据,及时提醒模式失效,并跟踪丰富结果随时间的变化。

立即开始

什么是数据集模式?

数据集模式 是一种结构化数据标记,告诉搜索引擎页面托管或描述数据集。基于 Schema.org Dataset 类型,它提供机器可读的关于您数据的详细信息:名称、描述、创建者、许可证、文件格式、下载 URL 和地理或时间覆盖范围。当 Google 读取此标记时,会在 Google Dataset Search 中索引您的数据集,这是一个供研究人员、数据科学家、记者和分析师查找网络上公开数据的专用搜索引擎。

如果没有数据集模式,您的数据页面基本上对 Google Dataset Search 是不可见的。即使您的数据集在普通 Google 搜索中排名,也不会出现在日益推动数据发现的专用数据集搜索体验中。结构化数据是确保您的数据集被最需要它们的人找到的唯一途径。

为什么数据集需要结构化数据

数据发布者在日益庞大的公开数据集海洋中争夺可见性。政府机构、大学、研究实验室和公司发布了数百万个数据集,可发现性是关键差异点。数据集模式为您的数据在 Google Dataset Search 中提供 结构化呈现,以研究人员信任和识别的格式显示数据集名称、创建者、许可证和描述。

Google Dataset Search 使用数据集结构化数据来驱动其 搜索结果和过滤器。用户可以按许可证类型、文件格式、更新频率和地理覆盖范围进行过滤——但前提是您的模式包含这些字段。完整的 Dataset 标记页面在 Dataset Search 中排名更高,并为用户提供下载和使用数据的信心。包含 明确的许可证尤为重要,因为研究人员需要在投入分析时间之前了解是否可以合法使用、修改和重新分发数据。

数据集模式的关键属性

  • name -- 数据集的标题。Google 必需。
  • description -- 数据集的详细描述(50-5000字符)。Google 必需。应说明包含哪些数据、如何收集以及预期用途。
  • creator -- 创建数据集的个人或组织。可以是 Person 或 Organization,并可选提供 URL。
  • license -- 指向数据集分发许可证的 URL(例如 Creative Commons、Open Data Commons)。
  • distribution -- 一个 DataDownload 对象,指定文件格式、下载 URL 和内容大小。
  • keywords -- 用于帮助用户查找数据集的描述性关键词数组。
  • spatialCoverage -- 数据集覆盖的地理区域。
  • temporalCoverage -- 数据集覆盖的时间段,使用 ISO 8601 区间格式。

如何在网站上添加数据集模式

从此工具复制生成的 JSON-LD <script> 标签,并粘贴到数据集页面的 <head> 部分,或放置在闭合的 </body> 标签之前。JSON-LD 是 Google 首选的结构化数据格式,因为它与可视内容解耦,便于在不更改页面布局的情况下添加和维护。

对于托管大量数据集的数据门户,可从元数据数据库动态生成 JSON-LD。每个数据集页面应拥有其独特的模式,包含准确的名称、描述和分发细节。如果您的数据集属于更大的目录(如 data.gov 或大学存储库),请包含 includedInDataCatalog 属性以建立关联。

部署后,使用 Rich Results Test 验证实时页面,并直接访问 Google Dataset Search 检查数据集是否出现。将此生成器与我们的 本地排名检查器 以及其他 免费 SEO 工具 结合使用,构建完整的结构化数据策略。

常见问题

什么是数据集模式标记?

数据集模式标记是您在托管或描述数据集的网页上添加的结构化数据。它使用 Schema.org Dataset 类型并以 JSON-LD 格式编码,提供机器可读的细节,如数据集名称、描述、创建者、许可证、文件格式和下载 URL。此标记使您的数据集能够出现在 Google Dataset Search 中,便于全球的研究人员、数据科学家和分析师发现。

数据集模式如何帮助 Google Dataset Search?

Google Dataset Search 是一个专门索引网络上数据集的搜索引擎。它高度依赖 Schema.org Dataset 标记来发现和理解数据集。具有正确 Dataset 结构化数据的页面有资格出现在 Dataset Search 结果中,并展示包括创建者、许可证、格式和覆盖范围在内的丰富元数据。没有此标记,您的数据集基本上在这一重要发现渠道中不可见。

数据集模式需要哪些必填字段?

Google 至少要求 Dataset 模式提供名称和描述。描述应在 50 到 5000 字符之间,清晰说明数据集包含哪些数据、如何收集以及可用于何种用途。强烈推荐的字段包括创建者、许可证、datePublished、distribution(包含下载 URL 和文件格式)以及关键词,以获得在 Dataset Search 中的最佳可见性。

在数据集模式中应指定什么许可证?

license 属性应包含指向数据集分发许可证全文的 URL。常见选项包括 Creative Commons 许可证,如 CC BY 4.0(https://creativecommons.org/licenses/by/4.0/)和 CC0(https://creativecommons.org/publicdomain/zero/1.0/),以及 Open Data Commons 许可证。Google Dataset Search 会突出显示许可证,因此使用知名的开放许可证可提升数据集的可访问性和对潜在用户的吸引力。