Midscene是一款以视觉模型为核心、支持全平台的UI自动化SDK。ByteDanceWebInfra团队正式推出Midscenev1.0,全面拥抱视觉理解技术路线,为UI自动化带来更高稳定性与更强适应性。视觉模型具备如下核心优势:效果稳健:当前主流视觉模型(如DoubaoSeed1.6、Qwen3-VL等)已展现出高度一致性,在多数实际业务场景中可稳定交付结果任务规划能力强:模型天然具备对UI流程的理解与拆解能力,能自主完成多步骤、跨界面的复杂操作序列跨平...
Midscene 是一款以视觉模型为核心、支持全平台的 UI 自动化 SDK。ByteDance Web Infra 团队正式推出 Midscene v1.0,全面拥抱视觉理解技术路线,为 UI 自动化带来更高稳定性与更强适应性。
视觉模型具备如下核心优势:
-
效果稳健 :当前主流视觉模型(如 Doubao Seed 1.6、Qwen3-VL 等)已展现出高度一致性,在多数实际业务场景中可稳定交付结果
-
任务规划能力强 :模型天然具备对 UI 流程的理解与拆解能力,能自主完成多步骤、跨界面的复杂操作序列
-
跨平台无依赖 :不再受限于底层渲染框架。无论是 Android、iOS、桌面客户端,还是浏览器内
<canvas></canvas> 渲染内容,只要能获取屏幕图像,Midscene 即可实现精准交互
-
上手门槛低 :无需编写各类 selector 或解析 DOM 结构,开发者与模型之间的协作更直观,即使缺乏前端或原生开发经验的新手也能快速入门
-
Token 成本大幅降低 :在舍弃 DOM 提取环节后,整体 token 消耗减少约 80%,不仅显著节省调用成本,也提升了本地推理响应速度
-
开源模型支持成熟 :随着 Qwen3-VL 等高质量开源视觉模型持续演进(提供 8B、30B 等多种规格),私有化部署与定制化训练已成为现实选择
除基础交互外,Midscene 还引入 Planning(任务规划)与 Ins

ight(界面洞察)两类高级意图,并支持为不同意图配置专属模型。例如:使用 GPT 系列模型负责高层动作编排,而由 Doubao 模型专注执行元素识别与定位。
多模型协同机制,让开发者可根据任务复杂度灵活调配算力资源,兼顾效率与精度。
针对运行时性能,v1.0 做出多项关键优化:
- 减少对设备系统接口的频繁访问,在保障安全前提下复用上下文缓存,使性能瓶颈更集中于模型推理侧
- 重构 Web 与移动端的 Action Space 设计,向模型提供语义更清晰、组合更合理的工具集合
回放报告作为开发者高频使用的调试利器,本次也迎来全面升级:
- 参数高亮视图:自动标注交互参数在截图中的具体位置,融合上下文图像,便于快速验证模型决策逻辑
- 主题美化:新增深色模式支持,提升夜间阅读体验与视觉舒适度
- Token 使用统计:按所用模型维度汇总 token 消耗,辅助评估各场景下的资源开销与成本分布
Midscene MCP 服务的定位同步更新:其核心使命聚焦于“视觉驱动的 UI 操作抽象”。通过将 iOS / Android / Web 各端设备的 Action Space 中每一个原子操作封装为标准 MCP 工具,MCP 层向上统一暴露能力接口。
这一设计使开发者得以专注于构建具备业务语义的高阶 Agent,彻底摆脱底层 UI 控制细节的束缚,同时持续获得高成功率保障。
移动端能力全面升级
iOS 方面优化
- 全面兼容 WebDriverAgent 5.x 至 7.x 各版本
- 新增 WebDriver Clear API 支持,有效应对动态输入框清空失败问题
- 显著增强对新旧机型及系统版本的适配能力
Android 方面优化
- 引入截图轮询失败自动降级机制,大幅提升远程真机环境下的鲁棒性
- 新增屏幕方向智能识别与 displayId 截图适配,确保横竖屏切换场景下定位准确
- YAML 脚本中新增
runAdbShell 指令支持,扩展底层调试与控制能力
跨平台增强
- 在 Agent 实例层面开放系统级操作接口,涵盖 Home 键、返回键、最近任务等常用系统行为
API 及环境变量调整(均保持向后兼容)
方法名称变更:
-
aiAction() → aiAct()(旧方法仍可用,但会触发弃用警告)
-
logScreenshot() → recordToReport()(旧方法保留,附带弃用提示)
环境变量名称变更:
-
OPENAI_API_KEY → MODEL_API_KEY(优先读取新变量,旧变量作为兜底选项)
-
OPENAI_BASE_URL → MODEL_BASE_URL(新变量优先生效,旧变量兼容保留)
源码地址:点击下载
相关推荐:
在线翻译转换器:语言障碍轻松突破,跨国沟通更畅通,中秋贺卡ai
怎么用AI生成文章?全新写作方式的揭秘与应用指南
SEO和SEM课程毕业,开启你的数字营销职业新篇章,海马轻帆ai写作小说
SEO建议:如何通过优化提升网站流量,赢得市场竞争,自媒体网站免费推广平台
SEO分类:从基础到进阶,全面解析SEO优化的关键要素,新建设网站排名
ChatGLM-智能对话新时代,开启更智慧的沟通体验
SEO广告:如何借助SEO提升品牌曝光与销售业绩?,网站推广怎么选择
SEO优化程序:提升网站流量与排名的关键利器
SEO有哪些公司?选择合适的SEO服务商,助力企业网站提升流量和排名,ai候鸟
ChatGPT无服务:如何突破限制,未来人工智能的新可能,sf ai
SEO优化王:流量密码,轻松制胜互联网竞争
ChatGPT国内版:为中国用户量身定制的智能助手,开启AI新纪元,不是ai而是ai含义
SEO希望:如何通过SEO优化实现网站突破,迈向成功之路,品牌网站推广软件
SEO怎么做才能提升网站流量与排名?这篇文章给你全攻略,铁岭定制网站推广公司电话
Chatwoot安卓版本下载,让客户支持更高效!
SEO之后:如何借助优化带来业绩的飞跃
AI生成网页模板,轻松打造专业网站,ai准备辩论
SEO建站,开启网站优化的全新篇章!,网络营销推广合作方式
Typecho加载更多插件:让网站更加智能高效,ai写作蔡徐坤
AI自动化:开启智能未来的无限可能,ai怎么给图片做渐变
AI写作会出现同一篇文章吗?AI创作的无限可能
SEO优化需要什么?企业如何提升网站排名
文章创作AI:引领智能写作的新时代
ChatGPT不能用?揭秘你可能忽视的真相和解决方法,ai澎湃
打开新时代的智能大门gpt3.5网页版让你的工作与生活更高效,辽宁ai写作软件下载免费
SEO免费教程:轻松搜索引擎优化技巧,提升网站排名!
2024年最全SEO资源指南:助你轻松提升网站排名
用AI写文章:效率与创意的完美结合
AI写作稿子:如何用人工智能助力创作,提升写作效率与质量
作文生成器免登录,让写作变得轻松简单,列车AI系统