AI安全

共 30 篇文章

AI安全

激活图谱问世：AI神经元交互可视化助力决策透明化

DeepMind与Google合作开发了名为Activation atlases的神经网络可视化工具，通过动态追踪激活模式提升AI系统的可解释性与透明度。该技术在医疗诊断、自动驾驶等高风险场景中能有效识别模型弱点，填补AI可解释性领域的空白。随着监管机构对AI透明度的关注增加，Activation atlases有望推动行业从黑箱转向白箱，并促进安全性与公平性标准提升，助力AI向更注重人类可理解性的方向发展。

OpenAI Blog 2019-03-06

6,232

AI安全

AI发布Neural MMO平台：支持大规模智能体在持久开放环境中提升探索与协作

DeepMind近日推出Neural MMO，一个革命性的强化学习代理训练环境。该项目通过模拟开放、持久世界提升代理的适应性和效率，允许AI系统在互动中持续演化而非依赖预定义规则。Neural MMO克服传统强化学习的静态局限性，促进探索爆发现象，并可能应用于游戏、医疗等领域。尽管存在性能瓶颈和伦理挑战，DeepMind表示这标志着AI训练模式的重构，有望推动行业变革。

OpenAI Blog 2019-03-04

3,555

AI安全

AI安全研究亟需社会科学家合作解决人类理性与情感不确定性

近日，OpenAI 发表论文倡议在长期的人工智能安全研究中融入社会学专业知识。该机构认为，仅靠计算机科学难以解决 AI 系统与人类价值观对齐的核心挑战，特别是涉及复杂人类互动时。论文指出，人类在决策、情感表达及存在偏见等方面的行为模式是关键因素，而当前 AI 训练数据往往反映社会不公和偏见。OpenAI 建议通过分析真实案例中人类的歧视性思维等认知过程来减少算法风险，并计划正式雇佣社会学家加入团队。尽管存在技术独立性的争议，这一举措被视为 AI 领域日益重视人类因素和跨学科合作的趋势。未来，此类合作有望提升 AI 的可靠性、公平性和可持续发展路径，在自动驾驶和医疗诊断等关键领域尤为重要。

OpenAI Blog 2019-02-19

2,227

AI安全

OpenAI2018学者计划启动：经验丰富的软件开发者学习机器学习

OpenAI于近期启动其首个学者培训项目——'OpenAI Scholars'[开放人工智能学者]课程。该项目面向资深软件开发者，旨在通过在线模块化学习单元帮助他们掌握机器学习实践技能，并弥合AI人才缺口。OpenAI一直致力于推动安全、公平的AI技术发展，此项目被视为其使命延伸及战略升级的一部分，从过去侧重研究转向人才培养。它反映了当前AI行业中对具备开发经验的机器学习从业者的迫切需求，以及技术巨头普遍采取的人才培养策略。

OpenAI Blog 2018-07-25

1,787

AI安全

AI 安全新方法：通过代理辩论与人类评判提升技术

DeepMind研发团队提出了一种创新的AI安全性测试方法，通过构建由两种参数不同的AI模型组成的虚拟辩论环境，并引入人类评估者进行监督。该方法旨在解决当前AI安全技术在复杂伦理困境中的局限性，通过让模型就医疗建议边界、隐私数据处理等争议性议题展开辩论，并观察其立场演变和判断冲突。这种方法设计了一个三层验证框架，既保证规模化测试，又能防止过度依赖机器判断。实验发现表明，在涉及人类价值观灰色地带的问题上，模型表现出了参数依赖性差异。尽管该技术在算法公平性测试、高级指令遵循验证等方面具有优势，但也面临评判主观性和模型理解能力等局限。DeepMind正计划扩展测试范围，并与行业伙伴探讨建立通用AI安全测试平台的可能性，推动AI安全性研究从简单拒绝机制向更复杂的认知交互框架发展。

OpenAI Blog 2018-05-03

8,263 精选

AI安全

AI领域启动迁移学习竞赛，测试强化算法泛化性能

DeepMind子公司近日宣布举办名为Transfer Learning Contest的竞赛，旨在评估和提升强化学习算法在多样化任务中的泛化能力。传统RL算法依赖反复试错优化策略，但面对新情境时表现不佳。该竞赛通过一系列基准任务测试模型的知识迁移能力，并可能邀请全球开发者参与，以推动AI从'任务特定'向'可迁移'发展。此举被视为DeepMind应对RL局限性的战略转折点，不仅有助于减少训练成本、拓展AI应用，还可能引发关于泛化风险（如偏见或错误）的讨论。DeepMind希望通过这一平台，促进学术界与企业共同探索知识迁移的新方法，并分享技术洞见。

OpenAI Blog 2018-04-05

8,411

AI安全

警惕AI暗藏风险，多机构联合发布防范研究新报告

OpenAI近日与多家顶尖研究机构合作完成新论文，旨在预测并缓解恶意行为者利用人工智能技术实施威胁的风险。研究涵盖虚假信息传播、高级网络攻击及生物识别数据滥用等潜在危害，并提出加强AI伦理审查和技术可追溯性等预防措施。此次合作中，Future of Humanity Institute（FHI）和Centre for the Study of Existential Risk（CSER）首次参与，凸显AI安全问题的跨学科性质；Center for a New American Security（CNAS）及Electronic Frontier Foundation（EFF）的加入则强调了国防安全和隐私保护的关注点。论文基于过去一年的经验数据，量化威胁可能每年造成数十亿美元损失，并提出多层次干预策略。在全球AI治理转向跨领域联动的趋势下，该研究填补了理论与实践的空白，推动未来政策制定。

OpenAI Blog 2018-02-20

3,043

AI安全

OpenAI 欢迎新捐赠者：资金注入推动人工智能发展

全球领先的非营利AI机构OpenAI近日吸引多位新捐赠者，标志着其在资金多元化方面取得进展。该组织以推动人类福祉为核心使命，强调开源透明的研究模式，在知名产品ChatGPT发布后影响力显著提升。正值AI行业经历快速发展和竞争加剧之际，OpenAI的新资金将用于扩大GPT模型训练规模、探索AI监管机制，并可能促进跨境合作。这一事件不仅强化了OpenAI的财务基础和全球影响力，也体现了科技行业对伦理责任的关注。随着更多数据点出现，OpenAI的开放策略被视为构建可持续发展环境的重要尝试，在当前强调人类福祉而不仅是商业利益的趋势下，其模式或将成为行业标杆。

OpenAI Blog 2018-02-20

7,671

AI安全

模拟训练机器人成功适应真实环境

一项AI突破通过在虚拟环境中训练机器人控制器，使实体机器人能够主动适应真实环境中的意外变化。该技术采用闭环系统设计，在模拟中学习反馈机制，解决了传统开环系统的局限性。应用实例包括电子制造中的焊接控制和物流仓储避障，显著提升了机器人的灵活性、效率与安全性。尽管仍存在环境细节捕捉不足等挑战，这一进展正推动更多行业采用闭环控制技术。未来随着算法优化和计算能力提升，该方法有望扩展至自动驾驶等领域，并引发对AI自主决策的伦理讨论。

OpenAI Blog 2017-10-19

6,846

AI安全

LOLA算法让AI代理在重复囚徒困境中发现自私合作策略

LOLA是一种新型算法，专注于模拟多代理环境中所有参与者同时学习的情景。这突破了传统AI的静态假设，使代理在重复囚徒困境游戏中自发演化出合作策略如'tit-for-tat'，即基于对手的行动进行互惠响应。算法不仅提升了代理在博弈论中的适应性，还为行业应用（如自动驾驶）和AI伦理提供了新视角，帮助实现可持续合作。然而，LOLA也面临局限性，例如潜在的局部最优问题，并代表multi-agent reinforcement learning的重要里程碑，有望推动AI在更多领域的创新发展。

OpenAI Blog 2017-09-14

3,514

第 24 页，共 25 页

AI安全

所有分类