生成式AI赋能需求工程：一场正在发生的变革

作者团队：早稻田大学博士生 / 蒙特利尔工程学院访问研究员程浩伟（通讯作者），特尔科姆大学助理教授 Jati H. Husen，早稻田大学博士生芦一均，东北大学副教授 / JAIST 客座教授 Teeradaj Racharak，早稻田大学教授 / QAML 株式会社 CEO 吉岡信和，九州大学名誉教授鵜林尚靖，早稻田大学教授鷲崎弘宜。

在软件开发领域，需求工程（Requirements Engineering, RE）一直是项目成功的关键环节。然而，传统 RE 方法面临着效率低下、需求变更频繁等挑战。根据 Standish Group 的报告，仅有 31% 的软件项目能在预算和时间内完成，而需求相关问题导致的项目失败率高达 37%。

随着 ChatGPT 等大语言模型的爆发式发展，生成式 AI（GenAI）为需求工程带来了前所未有的机遇。来自早稻田大学、东北大学等机构的研究团队，对 2019 年至 2025 年间发表的 238 篇相关论文进行了系统性文献综述，为我们揭示了这一新兴领域的全貌。

论文标题：Generative AI for Requirements Engineering: A Systematic Literature Review 论文地址：https://onlinelibrary.wiley.com/doi/10.1002/spe.70029

这是目前为止对生成式 AI 在需求工程领域最系统、最全面的文献综述，揭示了从技术到落地的全貌与未来路线，是理解「GenAI 如何重塑软件开发起点」的必读论文。

研究现状：

快速增长但分布不均

爆发式的研究热度

数据显示，GenAI 在需求工程领域的研究呈现指数级增长：

2022 年仅有 4 篇相关论文； 2023 年激增至 23 篇； 2024 年达到 113 篇； 2025 年前 5 个月已有 97 篇。

Distribution of papers across years (N=238).

这种增长轨迹充分反映了 ChatGPT 发布后，学术界对 GenAI 应用于 RE 领域的浓厚兴趣。

研究聚焦点的失衡

尽管研究热度高涨，但不同 RE 阶段受到的关注度严重失衡：

需求分析占据 30.0% 的研究比重，位居首位；需求获取和需求规约各占 22.1%；需求验证占 19.0%；需求管理仅占 6.8%，严重缺乏关注。

这种分布反映出当前研究主要集中在 GenAI 擅长的文本分析和生成任务，而对需求管理等涉及复杂社会技术因素的阶段探索不足。

Distribution of RE phases (N=238).

GenAI 在 RE 领域已进入「快速扩张但尚未成熟」的阶段，研究数量暴涨但深度不足，仍停留在「概念验证」层面。

技术图景：GPT 主导下的同质化困境

模型选择的单一化

研究发现，67.3% 的研究采用 GPT 系列模型，其中：

GPT-4 系列占 36.7%，主要应用于复杂需求分析； GPT-3.5 系列占 25.3%，在常规分类任务中表现良好；开源替代方案（如 LLaMA、CodeLlama）仅占 11.6%。

这种过度依赖单一模型家族的现象，限制了多样化技术路径的探索。值得注意的是，CodeLlama 在代码 - 需求追溯任务中表现出色，幻觉率比通用模型低 23%，但采用率仍然很低。

Distribution of GenAI models (N=238).

提示工程的实践模式

在提示工程方面，研究呈现出以下特点：

指令式提示占 62.2%，反映 RE 任务的高度结构化特性；少样本学习占 43.6%，成为最受欢迎的学习范式；零样本学习占 37.7%，适用于相对简单的 RE 任务；思维链（CoT）方法仅占 14.0%，采用率相对较低。

令人欣慰的是，超过 80% 的研究公开了提示词细节，这为研究的可复现性奠定了基础。

Distribution of learning paradigm (N=238).

Distribution of prompt types (N=238).

质量关注的偏颇

在软件质量特性方面，当前研究呈现明显的短期导向：

功能适用性获得最多关注（124 次提及）；可靠性次之（80 次）；安全性仅被提及 39 次；可解释性和准确性几乎被忽视。

这种关注度分布表明，研究者更注重即时的功能表现，而忽视了长期的系统级质量属性。这种质量关注的偏颇表明，当前研究仍以「可用性优先」驱动，而非「可靠性与可解释性优先」，这是 AI 走向工业级软件系统的最大隐患。

三大核心挑战：紧密交织的困境

研究识别出 10 个主要挑战，其中三个核心挑战形成了紧密关联的「三角关系」：

可复现性（66.8%）可复现性是最严重的问题。LLM 的随机性、参数敏感性以及黑盒 API 的不透明性，使得研究结果难以验证和重现。这在需求生成和验证等关键场景中尤为严重。幻觉问题（63.4%）AI 生成的需求可能与输入冲突或包含虚构内容。在 RE 领域，需求的精确性和可追溯性至关重要，幻觉问题可能导致严重的系统设计偏差。可解释性（57.1%）LLM 的决策过程不透明，在医疗、法律等高风险领域尤为致命。研究发现，这三个挑战的共现率达 35%，表明它们必须被整体性地解决，而非孤立应对。

Correlations among the LLM issues reported in literature on RE (%).

可复现性影响幻觉问题的验证，幻觉问题又加剧可解释性缺失；三者相互强化，构成当前 GenAI 研究最难攻克的「信任瓶颈」。

评估实践：基础设施的薄弱环节

工具和数据集的可用性困境

尽管越来越多研究开发了工具和数据集，但实际可用性令人担忧：

仅 23.9% 的研究公开发布了工具； 45.8% 的研究使用了不公开的数据集；缺乏统一的基准测试框架。

评估指标的表面化

评估方法主要依赖传统 NLP 指标：

精确率 / 召回率 / F1 分数最常用（119 项研究）；准确率次之（40 项研究）；人工评估较少（22 项研究）；错误分析极为罕见（仅 11 项研究）。

这种表面化的评估无法捕捉 RE 任务的复杂性和领域特异性。

Distribution of tool and dataset availability (N=238)

Distribution of evaluation metrics and methodology (N=238)

当前 RE 领域缺乏类似 MMLU、HumanEval 那样的标准基准测试，导致学术成果难以横向比较，这也是产业界迟迟未能采用的重要原因。

工业落地：从实验室到生产的鸿沟

成熟度现状令人担忧

研究显示，GenAI 在 RE 领域的工业化进程严重滞后：

90.3% 的研究停留在概念或原型阶段；仅 8.4% 达到原型或实验部署水平；只有 1.3% 实现生产级集成。

Industrial adoption stages of GenAI use in RE (N=238).

系统性障碍

研究识别出 11 类主要限制因素：

泛化能力和领域适应（39.9%）；数据质量和可用性（39.1%）；评估方法（28.8%）；人工介入需求（27.0%）。

值得注意的是，47.2% 的研究面临三个或以上的限制类别，表明这是系统性而非孤立的问题。

从产业角度看，GenAI 在 RE 的价值主要体现在「加速需求文档生成」和「减少沟通成本」，但由于缺乏合规性与风险控制标准，企业普遍持观望态度。

未来路线图：四阶段推进策略

基于系统性分析，研究团队提出了多阶段研究路线图：

第一阶段：强化评估基础设施

建立标准化基准测试、RE 特定指标和可复现性协议，这是解决当前 90% 研究停留在早期阶段问题的关键。

第二阶段：治理感知开发

将伦理审计、公平性约束和利益相关者验证纳入 GenAI 系统设计，应对当前治理相关问题关注不足的困境。

第三阶段：可扩展的情境感知部署

采用模块化架构、参数高效微调（LoRA、PEFT）和 RAG 等技术，降低幻觉率，提高系统可控性。

第四阶段：工业级标准化

建立社区驱动的工具包、开源基准和法律框架（如著作权治理），为生产级应用奠定基础。

对研究者和实践者的启示

给研究者的建议

技术多元化：探索 GPT 之外的模型，开发 RE 特定的混合架构。评估体系重构：建立结合定量指标和人工洞察的混合评估方法。全生命周期关注：将研究扩展到需求管理和验证等被忽视的阶段。可复现性优先：建立提示词共享和实验协议的社区标准。

给实践者的建议

谨慎采用：当前 GenAI 工具最适合作为辅助加速器，而非自主决策者。聚焦低风险任务：在自动化草稿生成、需求分类等结构化任务中应用。人机协同：在关键任务中保持人工监督，特别是在安全关键领域。关注新趋势： RAG 和混合方法显示出提高可靠性的潜力，值得持续关注。

结语

GenAI 在需求工程领域展现出变革性潜力，但要实现从学术探索到工业应用的跨越，仍需克服可复现性、幻觉控制和可解释性这三大核心挑战。研究表明，这些挑战高度关联，必须采用整体性解决方案。

更重要的是，成功应用 GenAI 需要技术健壮性、方法论成熟度和治理整合的协同发展。从 90% 的研究停留在早期阶段到仅 1.3% 达到生产级别的现状来看，这条路还很长。但随着评估基础设施的完善、治理框架的建立和标准化工作的推进，GenAI 终将成为需求工程领域不可或缺的智能助手。

这不仅是一场技术革命，更是软件工程实践的范式转变。当需求从「人工编写」转向「人机共创」，软件工程正进入一个全新的智能时代。

游戏百科

生成式AI赋能需求工程：一场正在发生的变革

热门分类