任何输入任何输出:一个新的模块化AI模型

   日期:2024-08-17     来源:本站    作者:admin    浏览:59    

  

  Anything-in anything-out: A new modular AI model

  EPFL的研究人员开发了一种新的、独特的模块化机器学习模型,用于灵活的决策。它能够输入任何模式的文本、视频、图像、声音和时间序列,然后输出任何数量或组合的预测。

  我们都听说过大型语言模型(large language model,简称llms)——在大量文本上训练的大规模深度学习模型,这些模型构成了OpenAI的ChatGPT等聊天机器人的基础。下一代多模态模型(mm)可以从文本以外的输入中学习,包括视频、图像和声音。

  在较小规模上创建MM模型会带来重大挑战,包括对非随机缺失信息的鲁棒性问题。这是模型所不具备的信息,通常是由于资源中存在一些偏差。因此,确保模型在做出预测时不会学习到有偏见的缺失模式是至关重要的。

  为了解决这个问题,来自EPFL计算机与通信科学学院的机器学习教育(ML4ED)和机器学习与优化(MLO)实验室的研究人员开发并测试了与大型语言模型完全相反的模型。

  由世卫组织和耶鲁大学医学院联合主办的全球智能卫生技术实验室负责人Mary-Anne Hartley教授和ML4ED负责人Tanja K?ser教授带头,MultiModN是一种独特的模块化多模式。该技术最近在NeurIPS2023会议上发表,有关该技术的论文发表在arXiv预印本服务器上。

  与现有的多模态模型一样,MultiModN可以从文本、图像、视频和声音中学习。与现有的mm不同,它由任意数量的较小的、自包含的、特定于输入的模块组成,这些模块可以根据可用的信息进行选择,然后以任意数字、组合或输入类型的序列串在一起。然后,它可以输出任意数量或组合的预测。

  “我们在十个现实世界的任务中评估了MultiModN,包括医疗诊断支持、学业成绩预测和天气预报。通过这些实验,我们相信MultiModN是第一个固有的可解释的,抗mnar的多模态建模方法,”ML4ED和MLO的博士生Vinitra Swamy解释说,他是该项目的联合第一作者。

  MultiModN的第一个用例将是在资源匮乏的环境中作为医务人员的临床决策支持系统。在医疗保健领域,临床数据经常缺失,这可能是由于资源限制(患者负担不起检测费用)或资源充裕(由于进行了更好的检测,因此检测是多余的)。MultiModN能够从这些真实世界的数据中学习,而不采用其偏差,以及适应任何组合或输入数量的预测。

  “缺失是低资源环境下数据的一个标志,当模型学习到这些缺失模式时,它们可能会在预测中编码偏见。面对不可预测的可用资源,对灵活性的需求激发了MultiModN的灵感,”哈特利解释说,他也是一名医生。

  然而,出版只是实现的第一步。Hartley一直在与洛桑大学医院(CHUV)和伯尔尼伯尔尼大学医院Inselspital的同事合作,开展临床研究,重点是在资源匮乏的环境中诊断肺炎和结核病,他们正在南非、坦桑尼亚、纳米比亚和贝宁招募数千名患者。

  研究团队开展了一项大型培训计划,教100多名医生系统地收集包括图像和超声视频在内的多模态数据,以便训练MultiModN对来自资源匮乏地区的真实数据敏感。

  “我们正在收集的正是MultiModN设计用来处理的那种复杂的多模式数据,”CHUV的传染病医生nosammie Boillat-Blanco博士说。伯尔尼大学医院Inselspital的Kristina Keitel博士补充说:“我们很高兴看到一个能够理解我们环境中缺乏资源的复杂性和常规临床评估的系统性缺失的模型。”

  MultiModN的开发和培训是EPFL努力使机器学习工具适应现实和公共利益的延续。它是在Meditron推出后不久推出的,Meditron是世界上性能最好的开源法学硕士,也旨在帮助指导临床决策。

  更多信息:Vinitra Swamy等人,MultiModN- Multimodal, Multi-Task, Interpretable Modular Networks, arXiv(2023)。引用本文:Anything-in - anything-out:一个新的模块化AI模型(2024年2月26日)检索自https://techxplore.com/news/2024-02-modular-ai.html,本文受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。内容仅供参考之用。

 
打赏
 
更多>同类文章

推荐图文
推荐文章
点击排行