在最近发布在arXiv预打印*服务器上的一项研究中,一个由谷歌工程师和研究人员组成的大型团队展示了一个名为个人健康洞察代理(Personal Health Insights agent,简称PHIA)的大型语言模型(LLM)代理系统,该系统可以使用信息检索工具和高级代码生成方法来分析和推断从可穿戴健康追踪器获取的行为健康数据。
*重要提示:arXiv发表的初步科学报告未经同行评议,因此不应被视为结论性、指导临床实践/健康相关行为,或视为既定信息。
可穿戴健康跟踪技术的进步有助于收集临床环境之外的行为和生理的纵向、连续和多维数据。监测睡眠模式和身体活动水平的研究进一步强调了来自可穿戴设备的数据在收集关于健康的个性化见解以及利用这种理解来促进积极行为以降低疾病风险方面的重要性。
然而,尽管可穿戴数据丰富,但在数据收集过程中缺乏临床监督,用户无法寻求专家的帮助来解释这些数据,这限制了他们获得个性化见解的能力,这些见解可以转化为合适的健康方案。
最近对机器学习模型的研究表明,法学硕士在医学教育、问答、心理健康干预和电子健康记录分析等任务中表现出了准确性和效率。将这些法学硕士与其他软件工具相结合,可用于开发基于法学硕士的代理,这些代理可以与世界动态交互,并从可穿戴设备的个人健康数据中获取见解。
在本研究中,研究人员描述了个人健康洞察代理(PHIA),这是第一个基于llm的代理,用于解释和从可穿戴健康追踪器获得的个人健康数据中获取见解。
PHIA使用ReAct代理框架,它可以自主地执行功能,并将对这些自主功能的观察合并到决策中。使用先进的代码生成方法,集成的web搜索和ReAct代理框架,PHIA旨在帮助回答许多关于健康的现实问题。
该研究还进行了一项耗时的人类评估,涉及19名人类注释者对超过6,000个模型响应进行注释,并对两倍数量的模型响应进行自动评估,以表明基于llm的代理在纵向行为健康数据上表现出卓越的推理能力。他们还表明,PHIA可以提供对健康解释的深刻见解,并将其性能与纯文本数值推理工具和基于llm的非代理工具进行了比较。
基线比较。两种基线方法(数值推理和代码生成)的响应示例以及PHIA的响应。PHIA能够搜索相关知识,生成代码,并进行迭代推理,以获得准确而全面的答案。
两个语言模型基线,代码生成和数值推理,被用来比较和评估PHIA的性能。为了评估PHIA的开放式推理能力,该研究包括12名独立的人类注释者,他们在分析可穿戴设备的健康和睡眠模式数据方面经验丰富。注释者评估了PHIA对开放式查询提供的推理质量。
他们的任务还包括确定模型回答是否利用了相关数据,是否准确地解释了问题,是否纳入了领域知识,是否使用了正确的逻辑,是否排除了有害的内容,是否就个性化的见解提供了清晰的沟通。
调查结果表明,PHIA展示了迭代能力以及交互式地使用推理和规划工具来分析个人健康数据并提供解释的能力。与代码生成和数值推理这两条基线相比,PHIA在提供个人健康查询的客观见解方面的表现分别提高了14%和290%。
此外,对于开放式的复杂查询,人类注释专家报告说,PHIA在健康洞察推理和健康数据的交互式分析方面的表现明显优于基线。鉴于PHIA能够在没有监督的情况下完全自动化地工作,这个基于llm的代理可以通过一些高级规划、与网络搜索的交互和迭代推理选项来分析来自可穿戴设备的个人健康数据。
人工和自动评估还显示,PHIA能够为超过84%的事实数字查询和超过83%的众包开放式问题提供准确的答案。这项研究表明,这种基于法学硕士的代理可能会帮助个人解读来自可穿戴设备的个人健康数据,并利用这些见解来制定个性化的健康方案。
总而言之,该研究表明,基于llm的代理PHIA在使用工具和迭代推理分析可穿戴设备的个人健康数据并对事实数值查询和开放式问题提供准确的回答方面比既定基线表现更好。研究人员认为,随着先进的法学硕士模型与医学领域知识的整合,基于法学硕士的智能体在个人健康领域的应用将会大幅增长。
*重要提示:arXiv发表的初步科学报告未经同行评议,因此不应被视为结论性、指导临床实践/健康相关行为,或视为既定信息。