京东开源JoyAI-VL-Interaction：全球首个全栈开源实时视频交互模型，vLLM-Omni原生支持

京东推出开源实时视频交互模型，开启多模态AI新篇章

近日，京东正式向全球开发者社区开源了其最新的研究成果——JoyAI-VL-Interaction模型。这一模型的发布，标志着在实时视频与自然语言交互领域，出现了一个可供全行业深度参与和构建的开源解决方案。

JoyAI-VL-Interaction是一个视觉语言交互模型，其核心能力在于能够实时理解视频内容，并与用户进行流畅的语言对话。与以往需要复杂工程集成的方案不同，它带来了几项关键特性：

这一开源举动为AI社区，特别是专注于多模态应用的开发者，提供了重要的基础设施。开发者可以直接基于此模型，构建视频内容分析、智能客服、交互式教育、辅助驾驶等各类创新应用，无需从零开始攻克视频与语言融合的技术难题。

京东此举也预示着，大模型的开源竞赛正从单一的文本或图像领域，向更复杂、更贴近真实世界的视频交互场景扩展。开放的模型与系统，将加速整个行业在视频理解与对话应用上的创新步伐。