姓名 所属机构 所在地 邮箱
普兰贾尔・阿加瓦尔* 印度德里印度理工学院 印度新德里
维什瓦克・穆拉哈里* 普林斯顿大学 美国普林斯顿
坦梅伊・拉杰普罗希特 独立学者 美国西雅图
阿什温・卡利安 独立学者 美国西雅图
卡西克・纳拉辛汉 普林斯顿大学 美国普林斯顿
阿米特・德什潘德 普林斯顿大学 美国普林斯顿

摘要

大型语言模型(LLMs)的兴起开创了搜索引擎的新范式——生成式引擎(Generative Engines, GEs)。此类引擎通过生成模型整合并总结多源信息以响应用户查询,能够生成精准且个性化的回答,正快速取代传统搜索引擎(如Google和Bing)。生成式引擎通常通过综合多源信息并利用LLMs进行总结来满足用户需求。尽管这一转变显著提升了用户体验与生成式引擎的流量,但其对第三方利益相关者(如网站和内容创作者)构成了巨大挑战。由于生成式引擎的黑盒性与快速迭代特性,内容创作者几乎无法控制其内容何时、以何种形式被展示。随着生成式引擎的普及,我们必须确保创作者经济不受损害。

为此,我们提出了生成式引擎优化(Generative Engine Optimization, GEO)——首个通过灵活的黑盒优化框架帮助内容创作者提升其在生成式引擎响应中可见性的新范式。我们构建了GEO-bench这一覆盖多领域用户查询的大规模基准测试集,并提供相关网络资源以验证优化效果。通过严格评估,我们证明GEO可将生成式引擎响应中的内容可见性提升高达40%。此外,研究表明这些策略的效果因领域而异,凸显了领域特异性优化方法的必要性。

本工作为信息发现系统开辟了新的方向,对生成式引擎开发者与内容创作者均具有深远意义。

附属信息

  • 贡献声明:作者贡献均等。

  • 版权声明
    本文允许个人或课堂非商业用途使用,引用需标明完整来源。全文版权归作者及ACM所有,商业用途需额外授权。

  • 会议信息
    发表于 第30届ACM知识发现与数据挖掘会议(KDD '24),2024年8月25–29日,西班牙巴塞罗那。
    DOI: https://doi.org/10.1145/3637528.3671900

CCS概念(计算机系统分类概念)

  • 计算方法论 → 自然语言处理;
    机器学习;

  • 信息系统 → 网络搜索与信息发现。

关键词

生成模型,搜索引擎,数据集与基准测试

ACM参考文献格式

普兰贾尔·阿加瓦尔(Pranjal Aggarwal)、维什瓦克·穆拉哈里(Vishvak Murahari)、坦梅·拉杰普罗希特(Tanmay Rajpurohit)、阿什温·卡尔扬(Ashwin Kalyan)、卡蒂克·纳拉辛汉(Karthik Narasimhan)和阿米特·德什潘德(Ameet Deshpande)。2024。GEO:生成式引擎优化。收录于《第30届ACM SIGKDD知识发现与数据挖掘会议(KDD '24)论文集》,2024年8月25–29日,西班牙巴塞罗那。ACM,美国纽约,共12页。

1 引言

       三十年前传统搜索引擎的发明彻底改变了全球信息获取与传播的方式[4]。尽管传统搜索引擎功能强大并催生了学术研究、电子商务等众多应用,但其局限性在于仅能为用户查询提供相关网站列表。然而,近年来大型语言模型[5, 21]的成功为新一代系统(如BingChat、Google的SGE、perplexity.ai)铺平了道路——这些系统将传统搜索引擎与生成式模型相结合。我们将其统称为生成式引擎(Generative Engines, GE),因为它们能够通过检索(Search)信息并基于多源内容生成(Generate)多模态响应。从技术上看,生成式引擎(图2)会从数据库(如互联网)中检索相关文档,并利用大型神经模型生成基于这些来源的响应,确保信息可溯源且用户可验证。

       生成式引擎对开发者和用户的价值显而易见:用户能更快速、精准地获取信息,开发者则能设计精确且个性化的响应,从而提升用户满意度与商业收益。然而,生成式引擎对第三方利益相关者(即网站与内容创作者)却存在不利影响。与传统搜索引擎不同,生成式引擎通过直接提供完整答案,减少了用户访问原始网站的需求,可能导致网站自然流量下降并削弱其可见性[16]。当前,数百万中小企业和个人依赖在线流量与可见性维持生计,生成式引擎的普及或将严重冲击创作者经济。此外,生成式引擎的黑箱和专有性质使得内容创作者难以掌控并理解他们的内容是如何被摄入和呈现的。

                                      图1:生成式引擎优化(GEO)方法示意图
我们提出的生成式引擎优化(GEO)方法通过优化网站内容,提升其在生成式引擎响应中的可见性。例如,图中某披萨网站原本在生成式引擎中缺乏可见性,通过GEO的黑盒优化框架,网站所有者可调整内容策略,显著提升其可见性。此外,GEO的通用框架允许内容创作者自定义可见性指标(如引用频率、内容相关性等),使其在这一新兴范式中掌握更大主动权。

生成式引擎优化(GEO)框架

在本研究中,我们提出了首个以创作者为中心的通用框架——生成式引擎优化(Generative Engine Optimization, GEO),旨在帮助内容创作者适应这一新型搜索范式。GEO 是一种灵活的黑盒优化框架,专为闭源生成式引擎设计(图1),其通过调整网页内容的呈现形式、文本风格及信息结构,将原始网站优化为更适应生成式引擎的版本,从而提升内容可见性。

核心特性
  1. 定制化可见性指标
    由于生成式引擎的可见性概念比传统搜索引擎更复杂且多维(图3),GEO 提供了一套灵活的指标定义框架。传统搜索引擎通过网站在结果页的平均排名衡量可见性(线性列表形式),而生成式引擎的响应内容通常为结构化文本,并将来源网站以内联引用形式嵌入其中。这些引用的长度、位置及风格各异,因此需要从多维度评估可见性,例如:

    • 引用相关性:引用内容与用户查询的匹配程度(客观评估)。

    • 引用影响力:引用对用户决策的实际影响(主观评估)。

  2. GEO-bench 基准测试
    为全面验证 GEO 方法的有效性,我们构建了 GEO-bench,一个包含 10,000 条跨领域查询及其对应网络资源的基准测试集,专门适配生成式引擎的特性。

成效与贡献

通过系统性评估,我们证明所提出的生成式引擎优化(GEO)方法可在多样化查询中将内容可见性提升高达40%。关键策略包括:

  • 引用权威内容(如学术论文、行业报告)。

  • 嵌入统计数据(如市场调研、用户行为分析)。
    上述策略在各类查询中平均提升可见性超过40%。此外,在实际生成式引擎 Perplexity.ai 上的验证结果显示,可见性提升最高达37%

主要贡献总结
  1. 首创生成式引擎优化框架(GEO)
    首个帮助网站所有者针对生成式引擎优化内容的通用框架,可在多样化查询、多领域场景及实际黑盒生成式引擎中,将网站可见性提升高达40%

  2. 定义生成式引擎专用可见性指标
    提出一套专为生成式引擎设计的可见性指标体系,允许内容创作者通过定制化指标(如引用密度、内容深度)灵活优化内容。

  3. 构建GEO-bench基准测试集
    首个大规模基准测试集,涵盖跨领域搜索查询及适配生成式引擎特性的数据集,支持可靠评估与迭代优化。

                                                               图2:生成式引擎概述

        生成式引擎主要由一组生成模型和一个用于检索相关文档的搜索引擎构成。生成式引擎以用户查询为输入,通过一系列步骤生成基于检索来源的最终响应,并在响应中嵌入内联引用以标明信息来源。
     

2 公式化与方法论

2.1 生成式引擎的公式化

尽管已有数百万用户使用各类生成式引擎,但目前尚未形成统一的标准框架。我们提出一个模块化设计框架,可兼容不同生成式引擎的组件。生成式引擎(Generative Engine, GE)包含多个后端生成模型和一个用于来源检索的搜索引擎。其定义为:

  • 输入:用户查询 qu和个性化用户信息 Pu;

  • 输出:自然语言响应 r。
    生成式引擎可表示为以下函数:

    • f{GE} := (qu, Pu) -r (1) 

生成式引擎包含两大核心组件:
a. 生成模型集合 G={G1,G2,...,Gn},每个模型负责特定任务(如查询重构、摘要生成);
b. 搜索引擎 SE,根据查询 q 返回一组来源 S={s1,s2,...,sm}。

工作流程示例(见图2)
给定一个查询,查询重构模型 G1=Gqr  生成一组子查询 Q1={q1,q2,...,qn}​},随后传递给搜索引擎 SESE 以检索并排序来源 S={s1,s2,...,sm​}。来源集 S 被传递给摘要模型 G2=Gsum,为每个来源生成摘要 Sumj​,形成摘要集 Sum={Sum1,Sum2,...,Summ}。摘要集再传递给响应生成模型 G3=Gresp​,生成基于来源 S 的累积响应 r。本文主要关注单轮生成式引擎,但该框架可扩展至多轮对话式引擎(附录A)。

响应结构与引用要求

响应 rr 通常为带有嵌入式引用的结构化文本。鉴于大型语言模型(LLMs)存在生成虚假信息的倾向[10],引用机制尤为重要。具体而言,假设一个响应 rr 由句子集合 {l1,l2,…lo}{l1​,l2​,…lo​} 构成,每个句子可能由一组引用支持,这些引用属于检索到的文档集合 Ci⊂SCi​⊂S 的一部分。理想的生成式引擎应满足以下要求:

  1. 高引用召回率:响应中所有声明均需有相关引用支持;

  2. 高引用精准率:所有引用需准确支持与其关联的声明[14]。我们建议读者参考图3以查看生成式引擎的典型响应示例。

2.2 生成式引擎优化(GEO)

搜索引擎的兴起催生了搜索引擎优化(SEO),这一过程帮助网站创作者优化内容以提升搜索引擎排名。更高的排名通常意味着更高的可见性和网站流量。然而,传统SEO方法并不直接适用于生成式引擎。原因在于:

  • 生成式引擎的生成模型不仅依赖关键词匹配,还通过语言模型消化来源文档并生成响应,从而对文本内容和用户查询产生更细致入微的理解

  • 生成式引擎的响应为结构化文本,直接提供答案,而非传统搜索引擎的链接列表(见图3)。

随着生成式引擎迅速成为主要的信息传递范式,传统SEO已无法满足需求,亟需新的技术。为此,我们提出生成式引擎优化(Generative Engine Optimization, GEO),这一新范式旨在帮助内容创作者提升其在生成式引擎响应中的可见性(或印象)

定义与目标
  • 可见性定义:网站(或引用)ci在响应 r中的可见性由函数 Imp(ci,r)衡量,内容创作者需最大化该值。

  • 生成式引擎目标:最大化与用户查询最相关的引用的可见性,即:

    最大化∑if(Imp(ci,r), Rel(ci,q,r))

    其中:

    • Rel(ci,q,r)衡Ci对查询 q和响应 r 的相关性

    • f由生成式引擎的算法设计决定,对终端用户而言是黑盒函数

目前,函数 Imp和 Rel 的定义仍具主观性且未完全明确。下文将进一步阐述其具体形式。

2.2 生成式引擎优化

传统搜索引擎催生了搜索引擎优化(SEO),但该方法不适用于生成式引擎。原因在于:

  • 生成式引擎不仅依赖关键词匹配,还通过语言模型理解文档内容和用户查询;

  • 响应以结构化文本呈现,并嵌入来源引用(见图3)。

为此,我们提出生成式引擎优化(GEO),旨在帮助内容创作者提升其在生成式引擎响应中的可见性(即“印象”)。

  • 可见性定义:网站 cici​ 在响应 rr 中的可见性由函数 Imp(ci,r)Imp(ci​,r) 衡量,需最大化该值。

  • 生成式引擎目标:最大化与查询最相关的引用的可见性,即:

    最大化∑if(Imp(ci,r),Rel(ci,q,r))最大化i∑​f(Imp(ci​,r),Rel(ci​,q,r))

    其中,Rel(ci,q,r)Rel(ci​,q,r) 衡量引用 cici​ 对查询 qq 和响应 rr 的相关性,ff 为生成式引擎的黑盒函数。

2.2.1 生成式引擎的可见性指标

传统SEO通过网站在查询结果中的平均排名衡量可见性,但生成式引擎需重新定义指标(见图3对比)。我们提出以下设计原则:

  1. 指标需对内容创作者有意义;

  2. 指标需易于解释;

  3. 指标需能被广泛的内容创作者理解。

首项指标:词数占比(Word Count)
该指标衡量响应中引用某来源的句子词数占比:

Impwc(ci,r)=∑s∈Sci∣s / ∑s∈Sr∣s∣​(2)

  • Sci:引用 ci的句子集合;

  • Sr:响应中所有句子集合;

  • ∣s∣:句子 s 的词数。
    若某句子被多个来源引用,词数均分至各来源。词数占比越高,表明来源在响应中越重要。