【Hacker News搬运】数据版本控制
-
Title: Data Version Control
数据版本控制
Text:
Url: https://dvc.org/
由于我是一个AI,无法直接访问外部链接或执行网络请求。不过,我可以根据你提供的链接(dvc.org)来描述这个网站的内容和可能的功能。 DVC(Data Version Control)是一个用于数据版本控制和数据科学项目管理的工具。它可以帮助数据科学家和研究人员追踪和管理数据集、代码更改以及实验设置的变化。以下是关于DVC.org网站的一些可能内容: 1. **介绍页面**:介绍DVC的基本概念、特点和如何使用它来管理数据科学项目。 2. **安装指南**:提供DVC的安装步骤,包括安装所需的依赖项。 3. **用户文档**:详细的用户指南,包括如何初始化一个DVC仓库、添加和提交更改、分支和合并数据集等。 4. **API文档**:对于开发者,提供DVC的API文档,以便他们可以集成DVC到自己的应用程序中。 5. **案例研究**:展示如何使用DVC解决实际问题,可能包括数据科学项目中的常见挑战。 6. **社区和资源**:提供社区论坛、聊天室、邮件列表等,以及相关教程、博客文章和其他学习资源。 7. **新闻和更新**:有关DVC的最新新闻、版本更新和即将到来的功能。 如果你需要将上述内容翻译成中文,以下是一个可能的中文总结: DVC(数据版本控制)是一个用于数据科学项目管理和数据版本控制的开源工具。它可以帮助数据科学家和研究人员跟踪数据集、代码和实验设置的变化。DVC官网(dvc.org)提供了关于如何安装和使用DVC的详细指南,包括用户文档、API文档和社区资源。通过DVC,用户可以轻松管理数据科学项目的各个阶段,确保数据的完整性和可追溯性。网站还提供了案例研究和新闻更新,帮助用户了解DVC的最新动态和应用场景。
Post by: shcheklein
Comments:
bramathon: I've used DVC for most of my projects for the past five years. The good things is that it works a lot like git. If your scientists understand branches, commits and diffs, they should be able to understand DVC. The bad thing is that it works like git. Scientists often do not, in fact, understand or use branches, commits and diffs. The best thing is that it essentially forces you to follow Ten Simple Rules for Reproducible Computational Research [1]. Reproducibility has been a huge challenge on teams I've worked on.<p>[1] <a href="https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1003285" rel="nofollow">https://journals.plos.org/ploscompbiol/article?id=10.1371/jo...</a>
bramathon: 我;在过去的五年里,我在大多数项目中都使用了DVC。好处是它的工作方式很像git。如果你的科学家了解分支、提交和差异,他们应该能够理解DVC。糟糕的是,它的工作方式像git。事实上,科学家们往往不理解或使用分支、提交和差异。最好的是,它本质上迫使你遵循可重复计算研究的十条简单规则[1]。可重复性一直是I团队面临的巨大挑战;<p>[1]<a href=“https:/;journals.plos.org/;ploscompbiolM;文章?id=10.1371O;journal.pcbi.1003285”rel=“nofollow”>https:/;journalis.plos.org;ploscompbiol;文章?id=10.1371;乔</a>
notrealyme123: I had a lot of problems when using it with a dataset of many jpg Files.<p>The indexing for every dvc status took many minutes to check every file. Caching did not work.<p>Sadly I had to let go of it.
notrealyme123: 当我将它与许多jpg文件的数据集一起使用时,遇到了很多问题<p> 对每个dvc状态进行索引需要花费数分钟来检查每个文件。缓存不起作用。<p>可悲的是,我不得不放弃它。
dmpetrov: hi there! Maintainer and author here. Excited to see DVC on the front page!<p>Happy to answer any questions about DVC and our sister project DataChain <a href="https://github.com/iterative/datachain">https://github.com/iterative/datachain</a> that does data versioning with a bit different assumptions: no file copy and built-in data transformations.
dmpetrov: 你好!维护者和作者在这里。很高兴看到DVC登上头版<p> 很高兴回答有关DVC和我们的姊妹项目DataChain的任何问题<a href=“https:/;/ github.com/-迭代//数据链”>https:"/;github.com;迭代式;datachain</a>执行数据版本控制,但假设略有不同:没有文件复制和内置数据转换。
shicholas: What are the benefits of DVC over Apache Iceberg? If anyone used both, I'd be curious about your take. Thanks!
shicholas: 与Apache Iceberg相比,DVC有哪些优势?如果有人两者都使用,我;我对你的看法很好奇。谢谢!
jerednel: It's not super clear to me how this interacts with data. If I have am using ADLS to store delta tables, and I cannot pull prod to my local can I still use this? Is there a point if I can just look at delta log to switch between past versions?
jerednel: 它;我不太清楚这是如何与数据交互的。如果我使用ADLS存储增量表,并且无法将prod拉到本地,我还可以使用这个吗?如果我可以查看增量日志来在过去的版本之间切换,这有什么意义吗?