ChatGPT 在医疗保健领域的应用 – 科学期刊的研究

ChatGPT 2022年底推出以来引起了轰动。底层技术的潜力在大型科技公司之间引发了一场竞争,同时也引发了存在危机。尽管这些发展为人工智能(AI)领域带来了有趣甚至重要的讨论,但同样重要的是退后一步,考虑一下科学研究对ChatGPT在医疗保健领域的看法。

有鉴于此,着手分析了医疗领域中ChatGPT的研究。这些文章发表于2022年11月至2023年3月初之间,涵盖了从技术在医学教育中的应用到辅助放射学决策的多个主题。以下表格对这些出版物进行了总结。

标题 期刊 摘要
ChatGPT:朋友还是敌人? 《柳叶刀》 该文章讨论了ChatGPT的好处和道德关注,并提出了需要更多的监督和投资来解决其输出中潜在的错误和偏见问题的建议。
在医疗保健中评估ChatGPT的可行性:对多个临床和研究情境的分析 施普林格 该文章研究了在医疗行业内利用ChatGPT的可能性,并强调了其在临床设置、科学产出、医学和研究不当使用以及公共卫生问题的潜在用途和约束。它强调了教育个体正确应用基于AI的语言模型的重要性。
ChatGPT在临床和翻译医学中的潜在影响 PMC ChatGPT在辅助基础研究和加速临床和翻译医学的技术转型方面具有巨大潜力,如药物研发、疾病预测、诊断和治疗靶点评估,但重要的是将其用作支持而不是取代医疗专业人员的决策过程的工具。
医学教育和研究的未来:ChatGPT是福还是变相的枯萎病 TandFOnline 科学研究中的ChatGPT引发了道德问题,由于责任问题、缺乏批判性思维和内容不准确,专家建议目前它应仅用作构建写作和审查材料的附加组件。
人工智能是否有助于科学写作? BMC 该文章讨论了OpenAI的ChatGPT聊天机器人在科学写作中的潜在用途,例如协助研究人员组织材料、生成初稿和校对,但警告不应取代人类判断,并且需要通过监管来解决诸如抄袭和可访问性等伦理问题。
ChatGPT在美国医师执照考试中的表现如何?大型语言模型对医学教育和知识评估的影响 Jmir Publications 这篇论文展示了ChatGPT准确回答医学问题并提供逻辑解释的能力,使其成为医学教育和小组讨论的潜在有用工具。
ChatGPT的知识和解释能力是否可以与参加寄生虫学检查的韩国医学生相媲美? Jeehp 研究发现,ChatGPT在寄生虫学考试中的表现低于韩国医学生,其正确答案率与项目知识水平无关。
AI聊天机器人尚未准备好用于临床使用 Medrxiv  本文比较了两个生成型AI模型,ChatGPT和Foresight NLP,在临床情节的基础上预测相关诊断,同时讨论了临床使用转换器型聊天机器人的重要考虑因素和局限性。
ChatGPT是否提供适当和公平的医学建议?基于案例的临床评估跨照护背景 Medrxiv 该研究通过向ChatGPT提供96个寻求建议的案例,评估了其提供适当和公平的医学建议的能力,发现虽然它始终提供背景信息,但在提供适当和个性化的医学建议方面并不可靠。
人与人工智能在健康期刊写作中的比较:一项探索性研究 Medrxiv 该研究旨在评估ChatGPT生成的科学写作质量与人类作者的比较,并强调需要解决潜在滥用和技术风险的解决方案。
评估ChatGPT在整个临床工作流程中的效用 Medrxiv 该研究提出了在临床工作流程中使用ChatGPT等人工智能工具的潜在用途,并显示其在所有情节和问题类型中的平均性能为71.8%,尽管它具有与人工智能模型本身相关的局限性,需要予以考虑。
评估ChatGPT对临床决策支持优化的价值 Medrxiv AI生成的建议被认为是原创的,并且具有较高的清晰度和相关性水平,具有适度的实用性、低接受度、偏见、倒置和冗余。
ChatGPT作为医学教育辅助工具的评估:谨慎使用 Medrxiv ChatGPT可以用作协助教育者的工具,但目前不是医学生和教育者可靠信息来源。
ChatGPT与人类生成的有关糖尿病常见问题的回答的比较:丹麦糖尿病中心员工的图灵测试启发式调查 Medrxiv 研究发现参与者能够在某种程度上区分ChatGPT生成的答案和人类编写的答案,但之前使用过ChatGPT的参与者比没有使用过的参与者多正确回答了10%的问题,这表明文本结构提供了一个重要的线索。
评估ChatGPT在肝硬化和肝细胞癌相关问题中的表现 Medrxiv 该研究分析了ChatGPT在肝硬化和肝细胞癌管理方面的回答,并发现它在为患者和医生提供信息方面具有潜在作为,以改善结果。
评估ChatGPT作为放射学决策辅助工具的性能 Medrxiv 这项研究表明,ChatGPT这一大型语言模型可以在临床环境中协助进行放射学决策,在乳腺癌筛查和乳房疼痛评估方面实现中等到高精度,尽管在为大型语言模型设计临床导向提示时需要考虑模型的局限性,如失调和“幻觉”。
大型语言模型与人类在遗传学问题上的表现对比 Medrxiv  像ChatGPT这样的语言模型在临床遗传学中的应用具有潜力,可以为遗传相关问题提供快速准确的答案,帮助医疗专业人员进行诊断和治疗,使遗传信息更广泛地传播给非专业人士。
将ChatGPT的医学建议放在(图灵)测试中 Medrxiv 本文讨论了一项研究,发现基于AI的聊天机器人在回应方面与人类提供者在回应方面区分度较低,受访者对其略微持积极看法,潜在用途包括医疗行政任务和慢性病管理。
评估ChatGPT在眼科学中的表现:其成功和缺陷的分析 Medrxiv 该文章讨论了ChatGPT语言模型在眼科学OKAP考试中的表现,发现其准确性与一年级住院医生相当,尽管在高度专业化的主题方面表现较差,并讨论了该模型在临床眼科学中的潜在限制和潜力。
ChatGPT 在医疗执照考试中表现如何? 大语言模型对医学教育和知识评估的影响  Medrxiv 该研究表明,ChatGPT 可以用作教育工具,因为它拥有与三年级医学生相当的医学知识量,并提供个性化和可解释的响应,从而创建一个为学生提供按需互动学习环境,以改善他们的信息保留和学习体验。
ChatGPT 在 USMLE 上的表现:使用大型语言模型进行人工智能辅助医学教育的潜力  Medrxiv  该研究表明,ChatGPT 能够以不断提高的准确性执行复杂的医疗任务,并有可能产生新颖的见解,帮助人类学习者进行医学教育。

医学中ChatGPT的三个关注领域

ChatGPT的三个主要关注领域即临床应用、回答医学问题和辅助教育,以及科学写作和研究。

ChatGPT在临床中的应用

研究人员提出并测试了ChatGPT在临床领域中的潜在临床应用,包括临床数据管理、临床试验招募以及临床决策辅助。

研究已经评估了其中一些潜在用途。例如,哈佛医学院的研究人员在放射学决策方面试用了ChatGPT的实用性。他们发现AI工具能够以中等准确性确定需要乳腺癌筛查的患者的适当步骤。在另一项研究中,研究人员发现该生成型AI模型在确定虚构患者病例的临床工作流程方面显示出高准确性。

然而,研究人员也提出了在临床应用中考虑ChatGPT时的问题。这些模型容易受到训练数据集中的偏见影响,通常来自在线来源。此外,它们可以生成“幻觉”或与提供的提示无关的输出。

ChatGPT在医学教育中的能力

考虑到ChatGPT的问答式互动,将其应用于培训医学生和为患者提供信息似乎是一个合乎逻辑的步骤。研究人员测试了该软件在这些情况下的能力。

通过评估其在美国医师执照考试中的表现,一项研究发现ChatGPT的分数与三年级医学生相当。研究人员建议它可以用作学生和小组讨论的即时互动学习工具。其他人发现它可以帮助医学教育者起草课程内容和评估。

在另一个案例中,研究人员评估了ChatGPT在有关肝硬化和肝细胞癌患者管理和护理的常见问题方面的回答。他们发现大多数回答是准确但不足够的,这表明该工具可以作为患者教育的补充,除了标准护理之外。

然而,研究人员也建议进行专家监督和谨慎使用,因为会出现错误信息,可能会被错误解释。

ChatGPT在科学研究中的应用

鉴于其文本生成能力,学者们思考了ChatGPT对科学写作的贡献。他们发现,它的辅助可以从总结数据到撰写完整论文的范围内。

另一组研究人员直接比较了人类作者和ChatGPT编写的短科学期刊文章。他们的测试结果显示,尽管ChatGPT在时间效率上更胜一筹,但人类作者在完整性、科学内容和可信度方面表现更好。

针对该软件在学术写作中的用途,学术期刊已更新了有关科学写作中使用AI辅助工具的政策,指出应该声明此类用途,并对AI生成的输出进行手动检查。

鉴于其缺乏批判性思维、内容不准确和责任问题,科学家建议将ChatGPT作为审查和重新表述文本的附加组件引入。

值得记住,这些研究考虑的是基于GPT-3.5大型语言模型的当前版本ChatGPT。OpenAI已经推出了下一代模型GPT-4,虽然使用受限,但据报道其在产生事实性回答方面的表现要比GPT-3.5提高了40%,我们可以预期未来的迭代会带来进一步的改进。因此,这里列出的一些局限性可能会随着技术的进步而得以克服,同时可能会出现其他谨慎使用的方式。

医疗机器人 可以更好比经验丰富的医生诊断患者