谷歌和波士顿大学的研究人员开发了一种基于人工智能 (AI) 的方法,用视觉摘要来说明文章。

生成建模的最新进展为许多以前只能想象的任务打开了大门。 可以训练通用模型来学习用于文本到图像或图像到文本翻译等领域的强大表示。

最近发布的 Stable Diffusion API 和 DALL-E 引起了人们对文本到图像生成模型的极大兴趣,这些模型可以使用描述性文本输入生成复杂而令人惊叹的图像,类似于进行网络搜索。

为了响应对反向翻译(即图像到文本)日益增长的兴趣,一些研究尝试使用输入图像创建字幕。 其中许多方法都假设图像和说明之间存在 1:1 的对应关系。 多张图片可以配对并与冗长的文字叙述联系起来,例如新闻报道中的照片。 有必要使用说明性的标题,例如“旅行”或假期,而不是文字标题,例如“飞机飞行”。

来源和详细信息:
https://www.marktechpost.com/2022/11/11/boston-university-and-google-researchers-introduce-an-artificial-intelligence-ai-based-method-to-illustrate-articles-with-visual-summarizes/

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注