结构化数据 (Schema.org): 用“通用语言”与机器对话
我们已经通过 sitemap.xml
告诉了爬虫我们有哪些页面,但我们还能不能更进一步,主动告诉爬虫每个页面是什么?它的内容代表了什么?
答案是可以的。这就是结构化数据 (Structured Data) 的用武之地。
什么是结构化数据?
想象一下,当爬虫读取一篇关于“如何烤面包”的文章时,它看到的是一堆由<h1>
, <p>
, <img>
等标签组成的HTML代码。它能猜到这是一个菜谱,但它不“确定”。
结构化数据,就是一套全行业公认的、标准化的“词汇表”(最常用的是 Schema.org
这套词汇表),我们可以用它来给内容“贴标签”,从而消除机器的猜测。
通过添加一段专门的代码,我们可以明确地告诉搜索引擎:
- “嘿,这整篇内容是一个菜谱 (
Recipe
)” - “这个
<h1>
标签是这道菜的名字 (name
)” - “这张图片是这道菜的成品图 (
image
)” - “这段文字是这道菜的制作步骤 (
recipeInstructions
)” - “这个数字是这道菜的评分 (
ratingValue
)”
结构化数据的“双层价值”
简单地说“它对SEO至关重要”是远远不够的。它的价值体现在两个层面:一个是我们能立刻看到的“上层价值”,另一个是影响更深远的“底层价值”。