斯坦福大学的一个研究团队开发了一个 LLM 系统,以减少官样文章。
被称为“System for Statutory Research” (STARA) 的 LLM 可以帮助政策制定者快速、廉价地解析大量规则,以识别冗余、过时或过于繁重的法律。研究人员表示,它最终可以提高政府的效率。
旧金山市律师 David Chiu 的办公室最近使用 STARA 筛选该市的市政代码和已发布的解决方案,其中包括 27 卷和近 1600 万个字。几十年来,这些法律要求不同的机构创建大约 500 份报告供该市审查。AI 分析了旧金山的法律,确定了每个城市授权的报告,并强调了可以调整的报告,与类似的报告相结合,或者完全归零。
领导 STARA 团队的斯坦福大学法学教授 Daniel Ho 表示:“监管改革的最大障碍之一是仅仅了解现有法律或法规的内容。”他表示,旧金山因程序问题而声名大噪,而且靠近硅谷,这似乎是测试 STARA 的好地方。
像律师一样思考
从历史上看,仅使用布尔搜索来梳理联邦、州或城市代码是一项艰巨的任务,而且在很大程度上是不够的。即使是最好的单词或短语搜索也会被不透明的法律术语阻止。定律有自己定义的术语,通常交叉参考章节或单个段落嵌套在截然不同的法规中。
也许最令人苦恼的是,法律密集且很少更新。
《美国法典》是所有联邦法律的集合,包含超过 3200 万个字词,包括 54 个不同的标题。国会授权的报告数量太多 (官方估计从 2500 份到 3359 份不等) ,因此国会对这些报告置若闻。2020 年,国会研究局表示,他们“不知道有一种搜索方法可以准确说明需要提交给国会的所有报告。”
同样,包括 San Francisco 在内的州和城市也必须避开密集的法律威胁。
斯坦福大学监管、评估、治理实验室 (RegLab) 的研究人员训练 AI 像律师一样思考。
Ho 表示,STARA 旨在全面解释法律文本,寻找“statutory trees”。在实践中,这意味着一起阅读法律的各个方面,而不是作为独立的组成部分。例如,法律的标题、章节和 statutory definitions,以及对其他法律的任何 cross-references,都是根据上下文理解的。
RegLab 团队发现,这种基于领域信息的解读显著提高了准确性和速度。
“我们的模型系统对准则条款进行推理的方式与我们向法律专业学生教授《Statutory Interpretation 101》的方式相同,”Ho 说。“从本质上讲,我们教会学员必须注意定义的术语、代码中的交叉引用以及代码的整体结构。”
研究人员使用 LLaMA-3 70b 和 NVIDIA A100 Tensor Core GPU 以及 PyTorch 和 vLLM 作为基础模型。经过预训练,模型能够在 94% 到 99% 的时间内准确识别法规和法定授权报告中的相关语言。他表示,STARA 的性能明显优于需要执行相同搜索的现有 LLM,其提取精度比基础系统高 2.7 倍。
节省资金和时间
STARA 的价格和节省时间的潜力或许与注重成本的立法者相关。
一项研究任务需要两个人 8 到 13.5 小时,花费约 3000 美元,STARA 只需 20 分钟就能完成,花费约 86 美分。
Ho 和他的团队计划在《Proceedings of the International Conference on AI and Law (ICAIL)》上发表一篇关于 STARA 的论文。在这篇论文中,RegLab 团队引用了旧金山市副检察长的话,称该模型“非常有用”
在旧金山与 STARA 和 Ho 的团队的合作下,市检察长 Chiu 发起立法,修改了近 500 份城市报告中的三分之一,并完全删除了 140 份报告。
Ho 和他的团队目前正在与几个有兴趣使用 STARA 来帮助简化其法定制度的州和市进行讨论。
“与我们合作的市政律师有力地说明了技术如何帮助减少政策上的污。”Ho 说。