在 Princeton 发布 SWE-Bench 之后,用真实世界代码仓库+可执行测试评测大模型软件工程能力,几乎已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展,也催生了一系列 SWE 系列 benchmark,在刻画模型 bug 修复能力方面发挥了重要作用。但真实的软件工程实践并不止于修 bug。大量关键工作发生在 feature ...
导语:CODING Enterprise 可以让程序员远程协作撸代码。接下来的问题就变成:“老板是不是愿意为员工的终身幸福买单”了。 也许是为了避开程序猿的伤心事,CODING 选择了在 1.11 小光棍节的第二天上线新产品。 CODING,这个在去年收购了 GitCafe 的软件开发平台 ...
随着“Vibe Coding”(即通过自然语言指令快速生成大量代码)的兴起,程序员的开发速度虽大幅提升,但也带来了逻辑漏洞和安全隐患。为此,Anthropic 正式推出了一款名为 Code Review 的 AI 代码审计工具,旨在为企业提供自动化的“专家级”反馈。
知乎 on MSN
Vibe coding如果长期使用,会不会有一天出现无法解决的bug?
假设有一台智能设备,它可以一天自动盖一栋三层小楼,那么我们能否认为它可以30多天盖一座100层的摩天楼呢? 现在就是AI vibecoding几个小时就完成了几万行代码的项目,质量还不错,于是我们能否乐观地认为AI几百个小时就可以完成几百万行代码的项目,并且质量也还不错 很多人认为,AI coding产出可以随时间线性增长,多个AI ...
当前正在显示可能无法访问的结果。
隐藏无法访问的结果