AI应用

共 30 篇文章

AI应用

Dota 2 自主学习 AI 在一月内从远低于人类跃升至超级human水平

DeepMind开发出能自我提升的新AI系统，通过在Dota 2游戏中自动对弈实现从远低于人类水平到超越顶级选手的跃升。传统AI依赖人工训练数据，而该系统利用自我迭代机制，在可控环境下快速积累经验并优化策略。这一成果标志着自学习方法在复杂任务中的突破性应用，为自动驾驶、医疗诊断等领域提供更高效的AI训练路径。未来，DeepMind正致力于提升该技术的泛化能力与现实环境下的稳定性，以应对更广泛的应用挑战。

OpenAI Blog 2017-08-16

5,422

AI应用

RL-Teacher利用人类反馈开源训练AI系统，提升安全性

随着强化学习快速发展，其核心算法在实际应用中常面临奖励函数定义不清或难以全面覆盖现实问题的挑战，导致AI行为偏离预期。为此，RL-Techer作为一种开源创新技术应运而生，通过偶尔引入人类反馈来训练AI模型。这种方法利用专家输入动态调整目标，在游戏、自动驾驶等领域帮助规避风险，提升泛化能力，并降低对工程师经验的依赖。从行业趋势看，RL-Techer代表了AI训练的新方向，在商业应用如推荐系统和供应链管理中具有潜力。尽管面临依赖人类可能导致主观偏差或成本增加的挑战，且存在计算效率问题，但RL-Techer被视为弥合AI模型与人类意图差距的关键尝试，在医疗诊断等高风险场景及复杂状态空间的RL问题中，有助于降低开发不确定性。

OpenAI Blog 2017-08-03

3,870

AI应用

RL算法引入自适应噪声：提升探索效率，简单易实现

强化学习算法长期对参数变化敏感，限制了实际应用。最新突破性研究通过在核心参数中添加'自适应噪声'来动态调整波动，显著提升算法表现和稳定性。该方法在多个基准测试中有效，尤其展示了在自动驾驶、游戏AI等领域的潜力，并挑战了传统算法设计的认知，为AI优化开辟新思路。

OpenAI Blog 2017-07-27

6,311 精选

AI应用

OpenAI推出简化版强化学习算法PPO，性能媲美最佳方法且易用性强

OpenAI于2023年推出强化学习算法Proximal Policy Optimization（PPO），该方法通过简化策略优化过程，在保持高性能的同时显著降低了开发者实施难度和计算成本。相比传统算法如Actor-Critic，PPO在自动驾驶、游戏AI等场景中表现更优，并提升了算法在噪声环境下的稳定性。这一发布被视为AI领域的转折点，不仅使更多资源有限的团队能够采用强化学习技术，还推动了该领域的实用化进程和开源合作发展。OpenAI选择PPO作为默认算法，体现了其在易用性与稳健性之间的平衡考量，并暗示着强化学习向更广泛应用的转型趋势。

OpenAI Blog 2017-07-20

8,960

AI应用

高性能Python库开源助力机器人模拟研究

在AI技术飞速发展的背景下，一家领先的科技公司近日宣布开源其基于MuJoCo物理引擎的高性能Python库。该库专为机器人模拟设计，显著提升仿真环境中的效率和精确性，并降低硬件开发成本。公司此举体现了其推动开源、促进社区协作的承诺，符合当前AI行业从封闭转向开放的大趋势。作为机器人算法开发的重要工具，该库将被广泛应用于自动驾驶、强化学习等领域，并有望成为AI研究的标杆项目。这不仅加速了技术转化，还为全球创新网络注入活力，降低了开发门槛并提升了效率。公司过去一年的研究成果包括改进MuJoCo引擎以处理更高维度问题，并将其与主流AI框架对齐，进一步推动了机器人模拟软件的开源化进程。

OpenAI Blog 2017-06-28

7,407

AI应用

OpenAI开源强化学习基线框架，今日发布DQN算法及其变体

OpenAI今日正式开源其深度强化学习基准库「Baselines」，该项目包含经过严格验证的DQN及其三种变体算法，并提供可复现代码基准。Baselines旨在解决强化学习领域实验结果难以复现的问题，提高模型性能的一致性。此前DeepMind率先开源DQN引发业界讨论，OpenAI此举是对这一趋势的积极响应，并推动算法透明化。Baselines的独特之处在于其严格的数据追踪机制，确保研究人员准确评估算法性能，并降低调试难度。未来OpenAI计划逐步发布更多经过验证的强化学习算法，提升整个领域的研究效率。

OpenAI Blog 2017-05-24

4,134

AI应用

OpenAI 推出开源机器人模拟软件集成 Gym

DeepMind最近推出了一款名为Roboschool的开源机器人仿真系统，旨在解决强化学习算法在复杂机器人控制中的实验验证难题，并填补OpenAI Gym的空白。Roboschool提供了更广泛和真实的机器人模型，以及模块化设计便于调整参数；DeepMind已开始内部使用该工具测试新一代学习算法。

OpenAI Blog 2017-05-15

8,563

AI应用

进化策略 vs 强化学习：性能相当且更易用

进化策略（ES）这一基于生物进化的古老优化方法，在最近的研究中表现出与强化学习（RL）相当的竞争力，甚至在某些任务上更优。ES通过随机变异和选择机制进行优化，无需依赖光滑函数或复杂梯度估计，在Atari游戏、MuJoCo物理模拟等基准测试上取得类似RL的性能。这一发现挑战了当前AI优化以强化学习为主流的认知，暗示ES可能为复杂任务提供更简单、鲁棒性更强的替代方案。

OpenAI Blog 2017-03-24

6,647

AI应用

奥普泰发布Gym公共测试版：RL算法开发与比较工具全面开放

OpenAI Gym公共测试版近日发布，作为强化学习领域的标准工具包，它为开发者提供了更多机会参与算法开发和改进。新版本增加了20多种环境，包括Atari游戏和机器人模拟，并引入可视化平台来直观评估算法表现。这有助于推动强化学习在游戏、机器人控制等应用中的发展，并促进从理论研究到实际产业的对接，同时关注未来在算法效率、安全性等方面的提升和挑战。

OpenAI Blog 2016-04-27

2,937

AI应用

所有分类