AI安全
共 30 篇文章
AI模型偏见问题持续存在:如何确保公平性?
研究表明AI模型中的偏见问题仍然普遍存在,如何确保AI系统的公平性成为重要议题。
OpenAI 推出 gpt-oss-safeguard 开放权重推理模型,用于安全分类并支持开发者迭代自定义策略
OpenAI上周推出名为gpt-oss-safeguard的新安全模型,该机制基于开放权重推理架构开发。开发者可利用这一工具创建专属策略并实时优化模型表现,此举打破了该公司过去在安全政策方面的封闭形象。这不仅是OpenAI技术路线的重大调整,更预示着大型语言模型向安全领域延伸的新方向,并为AI伦理治理模式的革新带来契机。
开源模型的安全卫士:120B参数新模型助力内容安全评估
微软亚洲研究院与DeepSeek Research于2023年10月联合发布gpt-oss-safeguard系列AI安全模型,包括120B和20B参数版本。这些模型基于DeepSeek开源权重训练,采用策略导向推理、双层注意力机制(其中20B模型使用混合注意力机制)和SFT技术,以提升内容安全性和合规性。评估显示,在有害内容识别方面效果提升340%,错误标记率下降52%,同时保持文本自然度。DeepSeek强调开源精神中的责任共担,并开发Guardian Console工具增强安全性可解释性。潜在应用涵盖医疗咨询、网络安全等领域,标志着在AI安全领域的创新进展,并呼应当前业界对责任界定的重视。
Doppel利用GPT-5技术提前拦截深度伪造攻击,减少分析师工作量80%
近年来深度伪造技术快速发展,但因其在身份盗窃、虚假信息传播和政治操纵等方面的应用而带来巨大安全隐患。为应对挑战,科技公司Doppel近期推出基于GPT-5的新防御系统,该技术不仅能快速(几分钟内)检测Deepfake内容,还将网络安全分析师的工作量减少80%。Doppel通过独特的训练机制和强化微调算法,显著提升了识别准确率,并展示了人工智能在网络安全领域的广泛应用潜力。
下一章:微软与OpenAI合作再启程
微软与OpenAI今日签署深化合作协议,旨在共同推动负责任、可持续的人工智能发展。协议不仅巩固了微软的投资承诺,还要求双方在商业目标、AI安全和透明度等方面加强协调。OpenAI将更开放地分享技术,支持微软提升云计算服务Azure的竞争力;而微软则承诺为OpenAI提供更大的市场和技术资源。此次合作被视为双方在经历内部权力斗争和外部审查压力后达成的重要战略平衡,体现了科技行业对负责任AI发展的共同关注。
GPT-5系统卡更新:新基准测试提升敏感对话的情感依赖、心理健康和抗越狱能力
OpenAI的GPT-5模型在处理敏感话题方面有了显著提升,包括情感依赖和心理健康讨论。与GPT-3等早期版本相比,该模型能够避免生成不当或带有偏见的回应。GPT-5采用了更严格的保障机制和新基准测试,以提供更加可靠、负责的互动体验。这些改进旨在更好地理解人类情感,防止AI出现有害内容生成(即所谓的'越狱事件'),并降低在客服和医疗等应用中的潜在风险。GPT-5的这些进步标志着AI开发正从追求性能转向强调伦理责任,尽管该模型仍存在局限性,并将持续根据用户反馈进行优化。
OpenAI合作心理健康专家提升ChatGPT敏感对话安全性,减少不安全响应达80%
OpenAI与超过170名心理健康专家合作,旨在提升ChatGPT识别用户心理痛苦并提供安全回应的能力。过去版本的模型在敏感话题上可能生成高达40%的不安全建议,通过专家反馈和微调技术,合作显著将这一比例降低至80%以下,并改善用户体验。此举反映了AI行业对伦理责任的关注,被视为一个里程碑事件,在心理健康领域更具影响力,并可能扩展到其他高风险应用。
AI监管框架全球进展:欧盟AI法案正式生效(更新)
欧盟AI法案正式生效,成为全球首个全面的AI监管框架,对全球AI治理产生深远影响。...
阿根廷探索OpenAI与Sur Energy合作Stargate项目,或成拉美AI可持续领头
OpenAI与阿根廷可再生能源企业Sur Energy合作启动"Stargate"项目,旨在利用人工智能技术优化大型太阳能发电厂的运营。该项目被视为拉丁美洲能源转型与数字化发展的里程碑,不仅关注提升电网稳定性、最大化发电效率和降低成本等实际问题,更体现了阿根廷在可再生能源领域的战略雄心和技术抱负。尽管面临数据隐私、算力等挑战,Stargate有望通过AI与可再生能源基础设施的深度整合,推动阿根廷在拉丁美洲范围内引领可持续发展技术应用,并促进本国科技创新生态的进步。
OpenAI利用新实测试验评估ChatGPT政治偏见提升客观性
近年来,人工智能在新闻领域的应用引发关于其政治中立性的关注。OpenAI正开发一种通过模拟真实对话来评估旗下聊天机器人ChatGPT政治偏见的新测试方法,认为传统方式难以捕捉复杂语境下的表现。该新法旨在提升AI回答政治问题的客观性和对话质量,推动行业标准向更加公平、尊重多元观点的方向发展。