Python Reinforcement Learning

4 小时

刚刚！小米「天才少女」罗福莉发表新论文，直指AI Agent痛点

论文名叫ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning。作者之一，就是罗福莉。要用GPU去做模型推理，要用CPU去执行代码，要用API去处理搜索、数据库，可能还要用浏览器进行网页操作 ...

腾讯网

小米“天才少女”罗福莉发表新论文，直指AI Agent痛点

3月16日消息，小米AI实验室研究员罗福莉，也就是很多人口中的“天才少女”，又发论文了。论文名叫ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement ...

头部财经

大模型解剖图火了，30多个开源模型架构差异一目了然，还可接入AI

Raschka 在图集中把各模型的专家数量、激活比例、专家隐藏层尺寸都标注出来，让稀疏程度一目了然。Hacker News 上有人感慨：“我很惊讶这些模型在结构上有多相似，主要差异就是层的大小。” ...

腾讯网

大模型“解剖图”火了，30多个开源模型架构差异一目了然，还可以 ...

2026 年的前两个月，开源大模型的发布节奏已快至令人应接不暇。Arcee AI 的 Trinity Large、月之暗面的 Kimi K2.5、阿里的 Qwen3.5、智谱 AI 的 GLM-5、Cohere 的 Tiny Aya……它们的名称如流水般接踵而至，参数量从 3B 至 1T ...

GitHub

机器学习算法python实现

K近邻算法,采用测量不同特征值之间的距离进行分类.(本项目以欧氏距离作为距离计算方法) 理论: 存在一个样本数据集合，也称作训练样本集,并且样本集每个数据存在标签.即我们知道样本集每一数据与所属分类的对应关系.输入没有标签的新数据后,将新数据的 ...

11 天

斯坦福和慕尼黑大学发现：AI推理模型"群体迷思"陷阱及破解之道

当我们让一个智能推理模型解决数学题时，通常会让它生成多个答案，然后选择出现次数最多的那个作为最终答案。这种做法看起来很合理，就像多个人投票选择答案一样。但是，来自斯坦福大学和慕尼黑大学路德维希-马克西米利安分校的研究团队最近发现了一个严重问题：当这些模型在错误答案上形成"共识"时，就会陷入越来越深的错误循环。这项名为"Tool Verification for Test-Time Reinfor ...

5 天

Agent风险预警：为什么每个Agent都需要一个安全沙盒？

在Agent席卷产业的浪潮中，越来越多企业开始将AI Agent接入研发、数据分析和自动化运维流程。但是针对Agent的安全研究给出了警示：当Agent可以访问本地接口和系统资源时，一旦权限控制不当，攻击者可能借助AI执行任意代码、窃取数据甚至接管设 ...

GitHub

jindadu00/legged_robot_competition

比赛目标：参赛选手需要设计并训练四足机器人在指定赛道上行走，使其走得越远越好。比赛地图：比赛地图由组织者提供，包括赛道的长度、宽度和障碍物设置等信息。环境要求：参赛选手需要使用legged_gym作为基础环境，所有接口应保持与原有legged_gym一致。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果