https://arxiv.org/abs/2409.192326. Code-Survey:一种由大语言模型驱动的大规模代码库分析方法简介:现代软件系统如 Linux 内核规模庞大且复杂,理解它们面临挑战。研究者引入 Code-Survey,首个由大语言模型驱动的大规模代码库分析方法。其以大语言模型为人类参与者,将非结构化数据转化为可分析数据集,可定量分析软件演变并揭示有价值见解。以 Linux 内核的 eBPF 子系统为例,构建包含众多特征和提交记录的数据集,定量分析得出开发模式等重要见解并经专家验证。Code-Survey 可应用于 Linux 其他子系统及其他大规模软件项目,是多功能系统分析工具,有助于理解复杂软件系统、实现多领域改进及支持实证研究,其代码和数据集在 https://github.com/eunomia-bpf/code-survey 开源。