如果没有合适的消息来源,新闻还会是什么?为了讲述一个引人注目的故事,记者需要找到有新闻价值的叙述和值得信赖的信息。这些信息通常来自广泛的出版物、官方记录和专家,他们都有自己的偏见、专业知识、观点和背景。面试候选人的数量很多,但很难驾驭。
然而,人工智能可能会起到指导作用。
南加州大学信息科学研究所的研究人员正在创建一个资源推荐引擎,旨在为记者推荐参考资料。南加州大学维特比工程学院计算机科学与传播学教授埃米利奥·费拉拉说:“在实践中,该软件应用程序将分析给定的文本或主题,并通过与潜在受访者、专家或信息资源的数据库进行交叉参考,提出相关来源。”他补充说:“该工具可以提供联系方式、专业领域和信息源以前的工作。”
该工具的开发由亚历山大·斯潘格(Alexander Spangher)领导,他是南加州大学维特比分校(USC Viterbi)的计算机科学博士生,曾在《纽约时报》担任数据科学家。在沉浸在新闻行业的过程中,斯潘格见证了传统新闻编辑室的压力。他说:“我还没有和任何一个当地记者交谈过,他们不是完全超负荷工作的。”“新闻荒漠和报纸纷纷倒闭。这正是我们真正想要帮助和开发工具的领域。”
为了给记者提供有用的资源,斯潘格尔正在开发各种人工智能设备,其中包括他在2023年自然语言处理经验方法会议上被接受的论文“识别新闻文章中的信息来源”中介绍的来源推荐系统,该论文目前已发布在arXiv预印服务器上。
为了创建一个可以建议消息来源的人工智能模型,研究人员首先奠定了基础:人类记者目前是如何在新闻写作中使用消息来源的?为了研究这一点,他们从一千多篇新闻文章中收集了一个句子数据集,并标注了信息来源和来源类别(例如,“直接引用”、“间接引用”、“出版作品”和“法庭诉讼”)。
然而,一千篇带注释的新闻文章的数据不足以让研究人员得出关于记者在不同报道类型中使用消息来源的各种方式的确切结论。但是,训练语言模型(LM)来继续注释过程就足够了。该论文的资深作者费拉拉解释说:“语言模型是一种人工智能框架,它通过分析大量文本的模式和上下文来处理和理解人类语言。”
作者透露,研究人员训练的LMs可以以83%的准确率检测来源归因。现在配备了这些LMs,他们注释了大约10,000篇新闻文章,并进一步深入了解新闻写作的组合性:记者目前何时以及如何使用消息来源?
人工智能模型发现,平均而言,新闻文章中大约有一半的信息来自来源,在每篇文章中,通常有一到两个主要来源(即那些贡献了文章中20%或更多信息的来源)和两到八个次要来源(贡献较少的来源)。斯潘格解释说:“人工智能还发现,文章的第一句话和最后一句话最有可能是来源。”他还补充说,记者通常以引用的信息开头,以引语结尾,以吸引读者。
研究人员用另一个测试挑战了他们的新算法:他们能检测到一个源是否缺失吗?如果人工智能能够识别信息的缺失,那么它就可以被配置为知道何时推荐一个特定的专家来完成完整的画面。
人工智能模型分析了随机删除部分来源的4万篇文章,当主要来源缺失时很容易发现,但当次要来源缺失时就很难发现。斯潘格说,虽然它们可能是新闻报道中最不重要的,但不太明显的来源也可能是人工智能有朝一日可能提出的最有价值的建议。
“你将从主要参与者那里获得大量信息,但补充的声音将为文章提供额外的色彩和细节,”他指出。“让引擎识别和推荐次要来源将是一个挑战,但它们可能是最有用的。”
研究人员还认为,如果该工具能够多样化地推荐资源,那么它将具有重要意义。费拉拉说:“它可以让记者在他们通常的网络之外接触到新的、多样化的声音,从而减少对熟悉消息来源的依赖,并有可能带来新的视角。”
然而,他补充说,如果设计不当,每个人工智能系统都容易产生偏见。他指出:“为了确保源数据库的多样性,标准应包括来自广泛人口统计、学科和观点的代表。”
南加州大学维特比分校(USC Viterbi)计算机科学研究副教授、ISI首席研究员乔纳森·梅(Jonathan May)设想,在未来,采购引擎将启动报道过程,使记者更有效率。
该论文的合著者梅说:“技术可以帮助我们进行创造性工作,并发挥最大的创造力,这是一件好事。”“这就是我对此抱有希望的原因。”
该团队计划与记者合作,为进一步改进收集反馈。
斯潘格说:“有了这样的项目,我真的很喜欢和记者交谈,了解他们的需求、观点,以及他们认为什么行得通、什么行不通。”“任何地方新闻的解决方案都需要一群有着不同背景的不同的人走到一起。”
更多信息:Alexander Spangher等人,识别新闻文章中的信息源,arXiv(2023)。DOI: 10.48550/ arXiv .2305.14904期刊信息:arXiv由南加州大学提供引文:人工智能如何帮助记者找到多样化和原始的来源(2023年12月19日)检索自https://techxplore.com/news/2023-12-ai-journalists-diverse-sources.html此文档受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。内容仅供参考之用。