ScreenAgent

一个先进的计算机控制智能体，它通过观察屏幕截图和执行鼠标键盘动作来完成复杂的任务。它利用VLM和强化学习环境，可以在真实计算机屏幕上执行多步骤任务。

ZIXUNHUB.CN

简介

ScreenAgent 智能桌面助手

ScreenAgent 是吉林大学人工智能学院与知识驱动人工智能教育部工程研究中心联合研发的智能操作系统交互平台。这款创新性工具融合了前沿的视觉语言理解技术与强化学习算法，能够像人类一样操作计算机完成各类数字化任务。

核心技术优势

多模态智能解析：整合视觉识别与自然语言处理能力，精准理解屏幕内容与用户指令
智能决策系统：采用计划-执行-评估的闭环流程，确保任务执行的准确性和连续性
真实交互环境：基于VNC协议构建的仿真训练平台，让AI在真实计算机环境中学习操作
量化评估体系：独创的CC-Score评估指标，科学衡量智能体任务完成质量

核心功能模块

视觉认知引擎 实时捕捉屏幕图像，智能识别界面元素和操作对象
动作指令生成 自动产出包含鼠标移动、点击、键盘输入等操作的JSON指令序列
任务分解系统 将复杂任务智能拆解为可执行的操作步骤，实现多级任务规划
智能执行反馈 在执行过程中动态评估操作效果，支持自动调整和优化

典型应用场景

办公自动化：自动完成文档处理、邮件收发等重复性工作
系统运维：执行软件安装、系统设置等管理任务
信息检索：自动完成网页浏览、数据查询等操作
流程测试：模拟用户操作进行软件功能验证

产品价值

ScreenAgent代表了新一代人机交互技术的发展方向，通过将先进的AI技术与实际应用场景深度融合，为用户提供智能化的数字助手服务。其创新的技术架构和严谨的评估体系，使其在任务完成率、执行效率和适应性方面都展现出卓越性能，为企业和个人用户提升工作效率提供了全新解决方案。

详情

官网

https://github.com/niuzaisheng/ScreenAgent