【Hacker News搬运】OSI准备好有争议的开源AI定义
-
Title: OSI readies controversial open-source AI definition
OSI准备好有争议的开源AI定义
Text:
Url: https://lwn.net/SubscriberLink/995159/a37fb9817a00ebcb/
标题:OSI为开源AI制定备受争议的定义 摘要:开源软件倡议(OSI)近两年来一直在努力定义开源AI,即构成可用于、研究、修改和共享的AI系统。OSI董事会将于10月27日对开源AI定义(OSAID)进行投票,1.0版本计划于10月28日发布。在这样的事业中,不可能让所有人都满意,将其作为目标也是愚蠢的。然而,开源社区的一些知名人士表示,OSI的OSAID将门槛定得太低,这将推翻数十年的社区工作,以诱使供应商遵守或尊重原始的开源定义(OSD)。 开源AI的定义 OSI执行董事Stefano Maffulli于2023年6月宣布了组织为开源AI提供定义的意图。他对声称“大语言模型、基础模型、工具和服务都是‘开放’或‘开源’”的公告表示反对,同时添加了违反OSD的约束。2023年对大型语言模型(LLM)系统的一项调查发现,表面上开源的LLM并没有达到其名称的期望。 问题并不简单地说“为LLM使用OSD兼容的许可证”,因为还有许多其他组件需要考虑。原始的OSD被认为适用于程序的源代码,即“程序员修改程序的首选形式”。如果一个开发人员不能研究、使用、修改和共享一个程序,那么该程序就不是开源的,并且如果一个许可证没有保留这些自由,那么它就不是OSD兼容的。一个程序可以包括非自由数据,但仍然是开源的。例如,Quake III Arena(Q3A)在GPLv2下可用。尽管如此,其他人仍然可以使用Q3A代码来创建自己的游戏,如Tremulous。 然而,当我们讨论“AI系统”时,事情要复杂得多。这里不仅仅是有助于完成某种类型工作的运行模型的代码,数据也不是像游戏那样可以完全独立于系统的东西。例如,当查看LLM时,有模型架构、用于训练模型的代码、模型参数、用于训练的技术和方法、标记训练数据的程序、支持库,以及(当然)用于训练模型的(数据)。 OSI自去年开始制定其定义。它在2023年6月21日在旧金山Mozilla总部举行了一次启动会议。之后,它通过定期举行面对面和在线会议以及在线讨论论坛来邀请参与。 OSAID当前草案的定义来自经济合作与发展组织(OECD)关于人工智能的理事会建议: 一种基于机器的系统,为了明确或隐含的目标,从它接收的输入中推断出如何生成输出,如预测、内容、推荐或决策,这些输出可以影响物理或虚拟环境。 这包括用于训练和运行系统的源代码、模型参数(如权重或其他配置设置)以及足够详细的信息,以便有技能的人可以构建一个实质上等效的系统。 那些元素都必须在OSI批准的许可证下可用,根据提议的定义,这似乎与我们期望的“开源”一词相符。然而,有一个例外,即数据信息和模型参数必须在“”下可用。OSI批准的术语的定义尚未提供。 没有要求提供训练数据。为了符合OSAID当前草案的要求,AI系统只需提供关于数据的“”即可,而不需要提供数据本身。 OSI于8月22日发布了版本0.0.9。当时它承认“训练数据是定义中最具争议的部分之一”。然而,OSI选择不要求提供训练数据: 经过长时间的辩论和协同设计会议,我们得出结论,将训练数据定义为利益,而不是要求,是最佳选择。 训练数据对研究AI系统很有价值:了解已经学到的偏见,这些偏见可能会影响系统行为。但训练数据不是修改现有AI系统的首选形式。该数据中的见解和相关性已经学到了。 目前,一些人认为OSAID未能达到其应该保证的四个自由。例如,julia ferraioli写道,如果没有包括数据,OSAID保证的只是使用和分发AI系统的能力。 “他们可以通过迁移学习和微调等方法在上面构建,但仅此而已。” Tom Callaway在LinkedIn上详细阐述了为什么开放数据应该是一个要求。他承认,有很好的理由让AI系统的分销商不希望或无法分发训练数据。例如,数据本身可能具有很高的货币价值,而供应商可能不愿意或无法共享它。Acme公司可能有权使用数据集并有权使用它创建AI系统,但无权分发数据本身。数据可能存在法律问题,从保密(例如,医疗数据集)到避免使用受版权保护的数据而提起诉讼。 他说,所有这些都不足以论证制定允许公司称其系统为开放的定义。 对缺乏训练数据的反对不仅仅是与原始开源含义的依恋。Giacomo Tesio发布了一份他认为OSAID RC2版本中未解决的问题的清单,包括一个论点,即由于在机器学习模型中植入无法检测的后门而存在固有的不安全性。 其他人也提出了意见。 自由软件基金会(FSF)宣布正在制定“关于免费机器学习应用的评估标准”的声明,以称某事物为免费(或自由)的机器学习应用。FSF表示,它即将完成定义,并正在制定确切文本。然而,它补充说,“我们认为,除非所有相关的训练数据和用于处理该数据的脚本都尊重所有用户,并遵循四个自由,否则我们不能说一个ML应用‘是自由的’”。 然而,FSF在此案中区分了非自由和不道德: 可能有些非自由ML有不为释放训练数据的有效道德理由,例如个人医疗数据。在这种情况下,我们将整个应用描述为非自由的。但使用它可能是道德上可以原谅的,如果它有助于你完成对 society至关重要的专业工作,例如诊断疾病或伤害。 软件自由保护组织宣布了一个关于基于LLM的编程生成AI的“原则声明”,该声明称为“尊重用户自由的机器学习辅助编程”。与OSAID不同,该目标仅关注计算机辅助编程,是针对GitHub Copilot制定的。声明没有直接提及OSI或OSAID努力,但表示“我们避免了任何实际上自动认可那些已经广泛部署的专有产品公司的有问题的做法”。它描述了一个理想的仅用FOSS构建的LLM系统,所有组件都是可用的,并且仅用于创建FOSS。 对批评的回应 我给Maffulli发了一封电子邮件,询问了关于当前OSAID草案的一些批评意见,并问他为什么OSI似乎在“降低门槛”,尽管OSI从未在源可用性和使用限制上妥协过。他回答说: 我会直言不讳:你提到的“源分发”导致像[Callaway]这样的人陷入思维陷阱 [...] 有些群体认为需要更多的组件来保证更多的透明度。而另一些群体则认为模型参数和架构足以修改AI。开源AI定义是在全球范围内公开开发的,涉及具有深厚AI(见支持者名单)专业知识的各种利益相关者,我们发现,虽然这些方法都是合法的,但都不是最优的。OSAID授予用户(通过许可证)和工具(通过所需组件列表),以便有意义地协作和创新(如果需要,还可以分叉)AI系统。我们没有妥协我们的原则:我们在整个过程中从实际的AI专家那里学到了许多新东西。 Maffulli反对OSAID更弱或做出让步的观点,并说,修改ML系统的首选形式就是OSAID中的:” 这不是我说,也不是OSI董事会说的,这是在支持者名单和[Carnegie Mellon University]的评论中。 ”他还补充说,OSI综合了来自“AI构建者、用户和部署者、内容创作者、工会、伦理学家、律师、来自世界各地的软件开发人员”的OSD的输入,他说,这不会奏效。 RedMonk分析公司创始人Stephen O'Grady也认为,OSD不容易转化为AI项目。但在10月22日的一篇博客文章中,他并不认为“开源”一词“可以或应该扩展到AI世界”。
Post by: rettichschnidi
Comments:
didibus: > Maybe the supporter of the definition could demonstrate practically modifying a ML model without using the original training data, and show that it is just as easy as with the original data and it does not limit what you can do with it (e.g. demonstrate it can unlearn any parts of the original data as if they were not used).<p>I quite like that comment that was left on the article. I know some models you can tweak the weights, without the source data, but it does seem like you are more restricted without the actual dataset.<p>Personally, the data seems to be part of the source to me, in this case. I mean, the code is derived from the data itself, the weights are the artifact of training. If anything, they should provide the data, the training methodology, the model architecture, the code to train and infer, and the weights could be optional. I mean, the weights basically are equivalent to a built artifact, like the compiled software.<p>And that means commercially, people would pay for the cost of training. I might not have the resources to "compile" it myself, aka, run the training, so maybe I pay a subscription to a service that did.
didibus: >;也许该定义的支持者可以在不使用原始训练数据的情况下实际修改机器学习模型,并表明它和原始数据一样简单,并且不会限制你可以用它做什么(例如,证明它可以像没有使用一样忘掉原始数据的任何部分)<p> 我很喜欢这篇文章上留下的评论。我知道一些模型,你可以在没有源数据的情况下调整权重,但如果没有实际的数据集,你似乎会受到更多的限制<p> 就我个人而言,在这种情况下,数据似乎是来源的一部分。我的意思是,代码是从数据本身派生出来的,权重是训练的产物。如果有的话,他们应该提供数据、训练方法、模型架构、训练和推断的代码,权重可以是可选的。我的意思是,权重基本上相当于一个构建的工件,比如编译后的软件<p> 这意味着在商业上,人们将支付培训费用。我可能没有资源";汇编";它自己,也就是说,运行培训,所以也许我会订阅一个这样做的服务。
samj: The OSI apparently doesn't have the mandate from its members to even work on this, let alone approve it.<p>The community is starting to regroup at <a href="https://discuss.opensourcedefinition.org" rel="nofollow">https://discuss.opensourcedefinition.org</a> because the OSI's own forums are now heavily censored.<p>I encourage you to join the discussion about the future of Open Source, the first option being to keep everything as is.
samj: OSI显然没有;我甚至没有成员的授权来处理这件事,更不用说批准了。<p>社区开始在<a href=“https:/;discussion.opensourcedefinition.org”rel=“nofollow”>https:/;discussion.opensourcedefinition.org</a>因为OSI;微软自己的论坛现在受到严格审查<p> 我鼓励你加入关于开源未来的讨论,第一个选择是保持一切原样。
abecedarius: The side note on hidden backdoors links to a paper that apparently goes beyond the usual ordinary point that reverse engineering is harder without source:<p>> We show how a malicious learner can plant an undetectable backdoor into a classifier. On the surface, such a backdoored classifier behaves normally, but in reality, the learner maintains a mechanism for changing the classification of any input, with only a slight perturbation. Importantly, without the appropriate "backdoor key", the mechanism is hidden and cannot be detected by any computationally-bounded observer.<p>(I didn't read the paper. The ordinary version of this point is already compelling imo, given the current state of the art of reverse-engineering large models.)
abecedarius: 关于隐藏后门的旁注链接到一篇论文,该论文显然超越了通常的观点,即没有来源的逆向工程更难:<p>>;我们展示了恶意学习者如何在分类器中植入无法检测的后门。从表面上看,这种后门分类器表现正常,但实际上,学习者保持了一种改变任何输入分类的机制,只需要轻微的扰动。重要的是,没有适当的";“后门钥匙”;,该机制是隐藏的,任何计算有界的观察者都无法检测到<p> (我没有读过这篇论文。考虑到逆向工程大型模型的当前技术水平,这一点的普通版本在我看来已经很有说服力了。)
blogmxc: OSI sponsors include Meta, Microsoft, Salesforce and many others. It would seem unlikely that they'd demand the training data to be free and available.<p>Well, another org is getting directors' salaries while open source writers get nothing.
blogmxc: OSI赞助商包括Meta、微软、Salesforce和许多其他公司。他们似乎不太可能;d要求训练数据免费提供<p> 好吧,另一个组织正在招聘董事;开源作家什么也得不到。
mensetmanusman: The 1000 lines of code is open source, the $100,000,000 in electricity costs to train is not.
mensetmanusman: 1000行代码是开源的,1亿美元的培训电费不是。