阿姆斯特丹大学开发多语言AI图像生成器
面向非英语国家的包容性人工智能图像生成器尽管图像生成技术飞速发展,但当前主流AI模型主要基于英语语料进行训练,这在全...
面向非英语国家的包容性人工智能图像生成器
尽管图像生成技术飞速发展,但当前主流AI模型主要基于英语语料进行训练,这在全球范围内加剧了数字不平等现象。阿姆斯特丹大学理学院(UvA FNWI)的研究人员近日开发出名为NeoBabel的创新AI图像生成系统,能够直接理解并处理六种不同语言的文本输入。团队将全部研究成果开源发布,鼓励各界基于该模型开展进一步研究,共同推动包容性人工智能的发展。
语言壁垒:当前AI图像生成的局限
在使用AI生成图像时,用户若以英文输入描述,通常能获得更准确的结果。这是因为大多数AI模型在底层依赖英语处理机制:当用户使用其他语言时,系统会先将提示文本翻译成英文,再执行图像生成。然而,全球多数人口并非以英语为母语,这种设计使得他们在利用AI技术时处于不利地位。
与此同时,AI文本生成模型已能流畅处理超过200种语言。基于这一洞察,阿姆斯特丹大学信息学研究所的研究团队与专注AI文本生成技术的Cohere Labs公司展开合作。他们将图像生成系统与多语言文本生成模型相结合,开发出这款先进的多语言AI图像生成器。目前,NeoBabel支持英语、法语、荷兰语、中文、印地语和波斯语六种语言。
坚持开源:推动透明与协作的研究理念
当前多数图像生成模型由少数美国科技公司主导,这些企业很少公开其模型的技术细节。作为NeoBabel研究团队成员的计算机科学教授塞斯·斯诺克指出:“通常这些工作都属于‘闭源’范畴,我们无法确切了解模型的实际运作机制。我们不清楚数据中是否存在偏见,也不明白系统如何构建以及如何改进。这与学术研究的开放原则相悖。”
为此,研究团队在发布NeoBabel的同时,公开了所有相关代码和训练数据。论文第一作者、博士生穆罕默德·德拉赫沙尼表示:“我个人希望为科学界提供一个真正可用的研究工具,而这需要公开完整的研究过程。我们已将全部流程开放,确保对该领域感兴趣的研究者能够获取所有必要信息。”
技术突破:超越翻译的多语言直接生成
NeoBabel在英语图像生成任务上表现与其他先进模型相当,而在其他五种语言上则显著优于现有方案。竞争模型通常先将提示翻译为英文,而NeoBabel能够直接从多语言文本生成图像。斯诺克教授解释:“翻译过程会损失语言与文化的微妙差异,因为许多词汇在英语中没有完全对应的表达。”例如,当用户用荷兰语输入“请生成一张餐桌和一头熊的图片”时,多数系统会将荷兰语中的“熊”(beer)误译为英语中的“啤酒”,从而导致图像生成错误。
研究团队还改进了训练数据的标注方法。他们利用多语言模型将图像标签翻译成多种语言,并增强了标签的描述性。斯诺克表示:“通过这种方法,我们能够用所有支持的语言同步训练模型。对于每种语言,系统都能学习词汇与视觉像素之间的对应关系。”
得益于数据质量的提升,NeoBabel的模型规模反而小于许多竞争模型——即其参数数量更少。此外,团队将公开的图像标签数据集从4000万条大幅扩展至1.24亿条。德拉赫沙尼补充道:“如此规模的数据集通常难以公开获取。尽管我们的计算资源有限,但仍成功扩展了这一关键数据集。”
创新应用:多语言协同创作平台
NeoBabel为实现多语言协同创作开辟了新可能。在一个数字画布上,多名用户可以使用各自的语言共同创作同一幅图像。德拉赫沙尼举例说明:“如果我只会说波斯语,而你只会说荷兰语,我们无需借助英语就能合作创作。你可以先用荷兰语生成初版图像,然后我可以标注特定区域,并用波斯语描述修改意见。模型会根据这些多语言指令实时调整图像。”
斯诺克教授透露,NeoBabel的下一步目标是生成具有特定文化内涵的图像。但这需要收集更多文化特异性数据以及更强大的计算支持。他表示:“拥有更先进的计算基础设施,我们将能实现更多目标。优秀的AI模型不一定只能出自大型工业实验室。学术界充满创造力,我们缺少的是展示这些成果所需的资源。”
目前,研究团队正在积极寻求合作伙伴。长远来看,他们希望将NeoBabel扩展到视频创作领域。斯诺克教授展望道:“我的梦想是让系统也能生成视频。荷兰希尔弗瑟姆保存着庞大的广播电视档案(‘影像与声音’档案馆),未来若能与他们合作创作反映荷兰文化的视频内容,将会极具意义。”
尽管图像生成技术飞速发展,但当前主流AI模型主要基于英语语料进行训练,这在全球范围内加剧了数字不平等现象。阿姆斯特丹大学理学院(UvA FNWI)的研究人员近日开发出名为NeoBabel的创新AI图像生成系统,能够直接理解并处理六种不同语言的文本输入。团队将全部研究成果开源发布,鼓励各界基于该模型开展进一步研究,共同推动包容性人工智能的发展。
语言壁垒:当前AI图像生成的局限
在使用AI生成图像时,用户若以英文输入描述,通常能获得更准确的结果。这是因为大多数AI模型在底层依赖英语处理机制:当用户使用其他语言时,系统会先将提示文本翻译成英文,再执行图像生成。然而,全球多数人口并非以英语为母语,这种设计使得他们在利用AI技术时处于不利地位。
与此同时,AI文本生成模型已能流畅处理超过200种语言。基于这一洞察,阿姆斯特丹大学信息学研究所的研究团队与专注AI文本生成技术的Cohere Labs公司展开合作。他们将图像生成系统与多语言文本生成模型相结合,开发出这款先进的多语言AI图像生成器。目前,NeoBabel支持英语、法语、荷兰语、中文、印地语和波斯语六种语言。
坚持开源:推动透明与协作的研究理念
当前多数图像生成模型由少数美国科技公司主导,这些企业很少公开其模型的技术细节。作为NeoBabel研究团队成员的计算机科学教授塞斯·斯诺克指出:“通常这些工作都属于‘闭源’范畴,我们无法确切了解模型的实际运作机制。我们不清楚数据中是否存在偏见,也不明白系统如何构建以及如何改进。这与学术研究的开放原则相悖。”
为此,研究团队在发布NeoBabel的同时,公开了所有相关代码和训练数据。论文第一作者、博士生穆罕默德·德拉赫沙尼表示:“我个人希望为科学界提供一个真正可用的研究工具,而这需要公开完整的研究过程。我们已将全部流程开放,确保对该领域感兴趣的研究者能够获取所有必要信息。”
技术突破:超越翻译的多语言直接生成
NeoBabel在英语图像生成任务上表现与其他先进模型相当,而在其他五种语言上则显著优于现有方案。竞争模型通常先将提示翻译为英文,而NeoBabel能够直接从多语言文本生成图像。斯诺克教授解释:“翻译过程会损失语言与文化的微妙差异,因为许多词汇在英语中没有完全对应的表达。”例如,当用户用荷兰语输入“请生成一张餐桌和一头熊的图片”时,多数系统会将荷兰语中的“熊”(beer)误译为英语中的“啤酒”,从而导致图像生成错误。
研究团队还改进了训练数据的标注方法。他们利用多语言模型将图像标签翻译成多种语言,并增强了标签的描述性。斯诺克表示:“通过这种方法,我们能够用所有支持的语言同步训练模型。对于每种语言,系统都能学习词汇与视觉像素之间的对应关系。”
得益于数据质量的提升,NeoBabel的模型规模反而小于许多竞争模型——即其参数数量更少。此外,团队将公开的图像标签数据集从4000万条大幅扩展至1.24亿条。德拉赫沙尼补充道:“如此规模的数据集通常难以公开获取。尽管我们的计算资源有限,但仍成功扩展了这一关键数据集。”
创新应用:多语言协同创作平台
NeoBabel为实现多语言协同创作开辟了新可能。在一个数字画布上,多名用户可以使用各自的语言共同创作同一幅图像。德拉赫沙尼举例说明:“如果我只会说波斯语,而你只会说荷兰语,我们无需借助英语就能合作创作。你可以先用荷兰语生成初版图像,然后我可以标注特定区域,并用波斯语描述修改意见。模型会根据这些多语言指令实时调整图像。”
斯诺克教授透露,NeoBabel的下一步目标是生成具有特定文化内涵的图像。但这需要收集更多文化特异性数据以及更强大的计算支持。他表示:“拥有更先进的计算基础设施,我们将能实现更多目标。优秀的AI模型不一定只能出自大型工业实验室。学术界充满创造力,我们缺少的是展示这些成果所需的资源。”
目前,研究团队正在积极寻求合作伙伴。长远来看,他们希望将NeoBabel扩展到视频创作领域。斯诺克教授展望道:“我的梦想是让系统也能生成视频。荷兰希尔弗瑟姆保存着庞大的广播电视档案(‘影像与声音’档案馆),未来若能与他们合作创作反映荷兰文化的视频内容,将会极具意义。”