论文通过细致的措辞剖析提出了一个惊人的结论:ChatGPT 等大措辞模型赞助写为难刁难科学文献产生了的影响,乃至超过了 COVID-19 疫情对学术写作的影响。

论文“AI味”有点浓:2024至少10%的论文利用了LLM

自OpenAI在2022年11月发布ChatGPT以来,学术文献的写作风格“AI味”变得有点浓,尤其是2024年。

“我们仅剖析了出版年份从2010年到2024年的论文,得到了14182520篇择要供剖析。
”该论文将剖析了 PubMed 图书馆中超过 1400 万篇2010至2024年生物医学择要的语料库,跟踪了过去十年科学写作的变革。

研究者惊异地创造,至少10%的2024年发布的研究论文在撰写过程中利用了大型措辞模型(如ChatGPT)进行赞助。
在某些特定领域和国家,这一比例更是高得惊人。

分析 1400 万篇论文创造AI 味异常浓中国运用 LLM 比例高达 35

研究职员首先确定了2024年比较以往年份显著更频繁涌现的词汇。
这些词汇包括 ChatGPT 写作风格中范例的许多动词和形容词,比如 “深入挖掘”、“繁芜”、“展示” 和 “突出” 等。

上图包含某些单词的 PubMed 择要的频率。
黑线显示从 2021-22 年到 2023-24 年的反事实推断。
前六个单词受到 ChatGPT 的影响;后三个单词与影响科学写作的重大事宜有关,并显示出来以供比较。
(图片摘自原论文)

通过剖析词汇利用频率的变革,研究职员把稳到,自ChatGPT发布以来,许多特定的风格词汇,如“delves(研讨)”“showcasing(展示)”“underscores(强调)”等词汇的利用频率显著增加,这反响出科学家们在撰写论文时,越来越多地借助ChatGPT来润色和修正文本。

论文采集了3个真实的 2023 年择要的示例,来解释了这种 ChatGPT 风格的择要措辞表达办法:

根据这些具备AI天生色彩的标志词,研究职员估计在2024年,AI 文本天生器影响了至少10% 的所有 PubMed 择要。

有趣的是,论文中研究者以新冠病毒等词汇对学术论文的影响对AI天生的影响做了比拟。

创造在某些情形下,ChatGPT等AI天生工具给学术文献写作带来的影响,乃至超过了 “Covid”、“盛行病” 或 “埃博拉” 等词汇在其所处期间的影响。

研究者对2013 年至 2023 年的所熟年份进行了相同的剖析,创造诸如“冠状病毒”、“封锁”和“大盛行”等词汇的利用量非常大,这与新冠疫情对生物医学出版产生前所未有的影响的不雅观察结果同等。

研究者将2013至2024年的所有774个独特多余词注释为内容词(如mask或convolutional)和风格词(如intricate或notably)。
新冠疫情期间的多余词汇险些完备由内容词组成(例如breathing、remdesivir等),而 2024 年的多余词汇险些完备由风格词组成。
在 2024 年的所有 280 个多余风格词中,66% 是动词,18% 是形容词。
比较之下,前几年的大多数多余词都是名词。
如下图所示,ChatGPT的多余词利用量,远高于新冠等盛行病毒的数量。

新冠疫情期间的多余词汇险些完备由内容词组成(例如breathing、remdesivir等),而 2024 年的多余词汇险些完备由风格词组成。
在 2024 年的所有 280 个多余风格词中,66% 是动词,18% 是形容词。
比较之下,前几年的大多数多余词都是名词。
(图片摘自原论文)

IT 期刊里中国作者对LLM的利用比例高达35%

“我们估计,不同学术领域、所属国家和期刊的 LLM 利用率下限从 5% 以下到 30% 以上不等。
这种差异可能与 LLM 采取率的实际差异相对应。
例如,打算领域的 LLM 利用率下限较高(20%)可能是由于打算机科学研究职员更熟习并乐意采取 LLM 技能。
在非英语国家,LLM 可能确实可以帮助非母语人士编辑英语文本,这可以证明其广泛利用是合理的。
末了,在审查流程加快和/或简化的期刊上揭橥文章的作者可能会争取 LLM 来撰写省力文章。
”研究者在论文中写道。

在打算机科学和生物信息学等领域,大措辞模型的利用率最高,其次为环境、医学、生物信息学、材料学。

(图片摘自原论文)

在非英语母语国家如中国、韩国等,大措辞模型在学术论文写作中的利用率相对较高。
研究职员创造,在中国和韩国等国家的 PubMed 子组中,大约有15% 的摘假如利用 ChatGPT 天生的。

而在英语母语国家如英国和新西兰的利用率则较低,在英国仅为3%。
然而,这并不一定意味着英国作者利用 ChatGPT 较少。

事实上,根据研究职员的说法,实际上利用 AI 文本天生器的可能要高得多。

研究者认为:许多研究职员会编辑 AI 天生的文本,以删除范例的标志词。
母语利用者在这方面可能具有上风,由于他们更有可能把稳到这类短语。
这使得确定受 AI 影响的择要的真实比例变得困难。

在可丈量的范围内,AI 的利用在期刊中特殊高,比如在 Frontiers 和 MDPI 期刊中约为17%,在 IT 期刊中更是达到了20%。
在 IT 期刊中,中国作者的比例最高,达到了35%。

在学术界年夜声望期刊如《自然》《科学》《细胞》等,LLMs利用率较低,而一些开放获取期刊如 SensorsCureus 的利用率则较高。

(图片摘自原论文)

LLM 真的可靠吗?研究者:需重估AI赞助论文写作的规则

科学家利用LLM赞助写作,是由于LLM可以提高文本的语法、修辞和整体可读性,帮助翻译成英文,并快速天生择要。

然而,LLM 可能会捏造事实、强化偏见,乃至进行抄袭。

论文指出:“LLM因编造参考文献而臭名昭著, 供应不准确的总结,并做出看似威信、令人信服的虚假陈述。
虽然研究职员可能会把稳到并纠正LLM赞助的自己事情择要中的事实缺点,但创造LLM天生的文献综述或谈论部分中的缺点可能更难。

此外,LLM 还可以模拟演习数据中的偏差和其他毛病,乃至是彻里彻外的抄袭,这种同质化会降落科学写作的质量。
该研究表明,只管LLM存在以上各类限定,但 LLM 在学术写作中的利用率仍在上升。

学术界该当如何应对这一发展?一些人建议利用检索增强型 LLM,从可信来源供应可验证的事实或让用户向 LLM 供应所有干系事实,以保护科学文献免于积累细微的不准确性。
其他人认为,对付某些任务,犹如业评审,LLM并不适宜,根本不应该利用。
因此,出版商和帮助机构出台了各种政策,禁止LLM参加同行评审, 作为合著者,或任何类型的未公开资源。

该论文注明:“我们没有利用 ChatGPT 或任何其他 LLM 来撰写手稿或进行数据剖析。

借助这一研究,研究者在论文中呼吁重新评估当前有关 LLM 用于学术的政策和法规:“LLM 的利用对科学写作的影响确实是前所未有的,乃至超过了新冠疫情引起的词汇量的剧烈变革。
LLM 的利用可能伪装得很好,难以察觉,因此其采取的真实程度可能已经高于我们丈量的范围。
这一趋势哀求重新评估当前有关 LLM 用于学术的政策和法规。

研究者在论文结尾处写道:“我们希望未来的事情能够更细致地深入追踪 LLM 的利用情形,并评估哪些政策变革对付应对 LLM 在科学出版领域兴起所带来的繁芜寻衅至关主要。

由 CSDN 和 Boolan 联合主理的「2024 环球软件研发技能大会(SDCon)」将于 7 月 4 -5 日在北京威斯汀酒店举行。

由天下著名软件架构大师、云原生和微做事领域技能先驱 Chris Richardson 和 MIT 打算机与 AI 实验室(CSAIL)副主任,ACM Fellow Daniel Jackson 领衔,BAT、微软、字节跳动、小米等技能专家将齐聚一堂,共同磋商软件开拓的最前沿趋势与技能实践。