斯坦福大学、华盛顿大学研究：1000 个 AI 智能体预测人类行为，准确率最高可达 85%

IT之家 2024-11-26 08:13:34

A+ A-

11 月 25 日消息，据 The Decoder 今日报道，斯坦福大学、华盛顿大学和 Google DeepMind 的研究人员联合开发了一种 AI 智能体（AI Agent，也称“AI 代理”），能够在社会实验中逼真地模拟人类行为。

研究指出，这类模拟系统可以作为一个虚拟实验室，帮助验证经济学、社会学、组织学和政治科学中的理论。研究团队通过对 1000 多名具有代表性的美国人（覆盖多种年龄、性别、教育背景和政治立场）进行访谈，建立了这些 AI 智能体模型。

系统运行方式是将详细的访谈记录与 GPT-4o 模型结合。当用户向智能体提问时，系统会加载访谈记录并让 AI 模仿受访者的回答。为生成这些记录，研究团队对每位受访者进行了长达两小时的访谈，并通过 OpenAI 的 Whisper 技术将对话转录成文本。

研究团队设计了多个测试，评估 AI 对人类行为的预测能力，涵盖《通用社会调查》、大五人格评估以及若干行为经济学实验。

结果显示，基于访谈数据的 AI 在预测社会调查（GSS）问题时，准确率高达 85%，远超单纯依赖人口统计信息的 AI 智能体。

研究团队在五项社会科学实验中测试了人类与 AI 的表现，其中四项研究显示，AI 的结果与人类高度一致。相关系数高达 0.98，表明 AI 对人类行为有极强的模拟能力。

与传统的人口统计法相比，访谈驱动的 AI 显示出显著的优势，尤其是在处理不同种族群体和政治观点的预测时更加准确，同时也能有效减少人口统计类别之间的偏差。

研究团队已将包含 1000 个 AI 模型的数据集开放至 GitHub，并建立了两层访问机制。综合性数据对研究人员完全开放，而个别参与者的详细数据则需经过特殊审批。

附数据集地址：

https://github.com/joonspk-rese ARch/genagents

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，所有文章均包含本声明。

Tags：AI

责任编辑：Diy92

点击查看全文(剩余0%)

斯坦福大学、华盛顿大学研究：1000 个 AI 智能体预测人类行为，准确率最高可达 85%

谷歌澄清安卓版Gemini更新：完成日常任务不必关闭应用活动

AI 模型4o → o3：OpenAI 升级 Operator 智能体，浏览器交互更稳定、更准确

古尔曼：苹果 Apple Watch Ultra 3 将支持通过卫星发送短信

相关推荐

阿里千问对外开放“AI办事”能力首家接入东方航空支持查航班买机票

特斯拉Model S/X产线将为Optimus机器人让路最早7月启动投产

OpenAI发布ChatGPT团队工作流AI智能体 7*24小时自动化处理长周期任务

全国首个汕头完成“Token出海”全链路闭环验证打通跨境AI服务链路

OpenAI在美国推出ChatGPT临床医生版完成认证后可免费使用

谷歌宣布内部75%新代码由AI生成大幅提升研发效率与交付速度

小米迄今最强大模型MiMo-V2.5系列开启公测性能实现跨越式提升

Kimi K2.6上线期间功能异常月之暗面宣布全员额度重置作为补偿

谷歌推出TPU 8t/8i AI芯片分别面向训练与智能体推理场景

通义千问Qwen3.6-27B开源 270亿参数稠密模型编程能力超越15倍规模MoE

罕见药不用愁！京东大药房推出“AI全球找药” 依托药智模型极速匹配全球药源

国家医保局规范侵入式脑机接口价格单次置入费集中在6000至6600元

继Anthropic后微软GitHub Copilot被曝将转向按词元计费模式

索尼乒乓球机器人Ace创造历史首次在正式比赛中击败顶尖人类选手

腾讯发布并开源混元Hy3preview 号称迄今最智能的语言模型版本

字节跳动发布3D生成大模型Seed 3D 2.0 几何纹理生成能力达SOTA

SpaceX拟600亿美元收购AI编程工具Cursor 微软曾参与竞购争夺控制权

Anthropic Claude桌面版被指侵权未经授权静默安装Chrome等浏览器插件

OpenAI已锁定8GW算力资源预计2030年总算力规模将大幅提升至30GW

宇树科技展示轮足人形机器人完成滑冰与前空翻等高难度动作演示

斯坦福大学、华盛顿大学研究：1000 个 AI 智能体预测人类行为，准确率最高可达 85%

谷歌澄清安卓版Gemini更新：完成日常任务不必关闭应用活动

AI 模型4o → o3：OpenAI 升级 Operator 智能体，浏览器交互更稳定、更准确

古尔曼：苹果 Apple Watch Ultra 3 将支持通过卫星发送短信

相关推荐

阿里千问对外开放“AI办事”能力 首家接入东方航空支持查航班买机票

特斯拉Model S/X产线将为Optimus机器人让路 最早7月启动投产

OpenAI发布ChatGPT团队工作流AI智能体 7*24小时自动化处理长周期任务

全国首个汕头完成“Token出海”全链路闭环验证 打通跨境AI服务链路

OpenAI在美国推出ChatGPT临床医生版 完成认证后可免费使用

谷歌宣布内部75%新代码由AI生成 大幅提升研发效率与交付速度

小米迄今最强大模型MiMo-V2.5系列开启公测 性能实现跨越式提升

Kimi K2.6上线期间功能异常 月之暗面宣布全员额度重置作为补偿

谷歌推出TPU 8t/8i AI芯片 分别面向训练与智能体推理场景

通义千问Qwen3.6-27B开源 270亿参数稠密模型编程能力超越15倍规模MoE

罕见药不用愁！京东大药房推出“AI全球找药” 依托药智模型极速匹配全球药源

国家医保局规范侵入式脑机接口价格 单次置入费集中在6000至6600元

继Anthropic后 微软GitHub Copilot被曝将转向按词元计费模式

索尼乒乓球机器人Ace创造历史 首次在正式比赛中击败顶尖人类选手

腾讯发布并开源混元Hy3preview 号称迄今最智能的语言模型版本

字节跳动发布3D生成大模型Seed 3D 2.0 几何纹理生成能力达SOTA

SpaceX拟600亿美元收购AI编程工具Cursor 微软曾参与竞购争夺控制权

Anthropic Claude桌面版被指侵权 未经授权静默安装Chrome等浏览器插件

OpenAI已锁定8GW算力资源 预计2030年总算力规模将大幅提升至30GW

宇树科技展示轮足人形机器人 完成滑冰与前空翻等高难度动作演示

阿里千问对外开放“AI办事”能力首家接入东方航空支持查航班买机票

特斯拉Model S/X产线将为Optimus机器人让路最早7月启动投产

全国首个汕头完成“Token出海”全链路闭环验证打通跨境AI服务链路

OpenAI在美国推出ChatGPT临床医生版完成认证后可免费使用

谷歌宣布内部75%新代码由AI生成大幅提升研发效率与交付速度

小米迄今最强大模型MiMo-V2.5系列开启公测性能实现跨越式提升

Kimi K2.6上线期间功能异常月之暗面宣布全员额度重置作为补偿

谷歌推出TPU 8t/8i AI芯片分别面向训练与智能体推理场景

国家医保局规范侵入式脑机接口价格单次置入费集中在6000至6600元

继Anthropic后微软GitHub Copilot被曝将转向按词元计费模式

索尼乒乓球机器人Ace创造历史首次在正式比赛中击败顶尖人类选手

Anthropic Claude桌面版被指侵权未经授权静默安装Chrome等浏览器插件

OpenAI已锁定8GW算力资源预计2030年总算力规模将大幅提升至30GW

宇树科技展示轮足人形机器人完成滑冰与前空翻等高难度动作演示