【Hacker News搬运】统计学家使用一种利用随机性来处理未知的技术
-
Title: Statisticians use a technique that leverages randomness to deal with the unknown
统计学家使用一种利用随机性来处理未知的技术
Text:
Url: https://www.quantamagazine.org/when-data-is-missing-scientists-guess-then-guess-again-20241002/
由于我是一个AI,我无法直接访问互联网来获取或分析网页内容。但是,我可以根据您提供的链接和描述来推测文章的大致内容和总结。 文章标题:“当数据缺失时,科学家猜测,然后再次猜测(When Data Is Missing: Scientists Guess, Then Guess Again)” 根据标题,这篇文章可能讨论的是在科学研究中遇到数据缺失时的处理方法。以下是对文章内容的可能总结: 科学研究中,数据是理解和解释自然现象的关键。然而,数据缺失是一个常见问题,可能由于多种原因,如实验错误、记录丢失或无法获取的原始数据。面对数据缺失,科学家通常需要采取替代策略来推断缺失的数据。 文章可能会探讨以下几个方面: 1. **数据缺失的原因**:解释为什么数据会缺失,以及这可能对研究结果产生的影响。 2. **填补缺失数据的策略**:介绍科学家们常用的填补缺失数据的方法,例如插补法(imputation)、模型预测或使用类似情况的数据。 3. **猜测的后果**:分析使用猜测来填补数据缺失可能带来的风险和不确定性。 4. **案例研究**:通过具体案例来展示数据缺失是如何影响科学研究的,以及科学家是如何应对这种情况的。 5. **改进的方法**:讨论如何在未来减少数据缺失,以及如何提高填补缺失数据方法的准确性。 请注意,以上总结是基于文章标题的推测,实际内容可能有所不同。如果您需要更准确的信息,建议您直接阅读原文。
Post by: Duximo
Comments:
clircle: Does any living statistician come close to the level of Donald Rubin in terms of research impact? Missing data analysis, causal inference, EM algorithm, any probably more. He just walks around creating new subfields.
clircle: 在研究影响方面,有哪位在世的统计学家接近唐纳德·鲁宾的水平吗?缺失数据分析、因果推理、EM算法,可能更多。他只是四处走动,创造新的子领域。
Jun8: Not one mention of the EM algorithm, which is, as far as I can understand, is being described here (<a href="https://en.m.wikipedia.org/wiki/Expectation–maximization_algorithm" rel="nofollow">https://en.m.wikipedia.org/wiki/Expectation–maximiza...</a>). It has so many applications, among which is estimating number of clusters for a Gaussian mixture model.<p>An ELI5 intro: <a href="https://abidlabs.github.io/EM-Algorithm/" rel="nofollow">https://abidlabs.github.io/EM-Algorithm/</a>
Jun8: 这里没有提到EM算法,据我所知,这里没有描述EM算法(<a href=“https://en.m.wikipedia.org”wiki/;Expectation%E2%80%93maximization_algorithm”rel=“nofollow”>https://en.mwikipedia.org“wiki&#期望%E2%80%93maximiza.</a>)。它有很多应用,其中之一是估计高斯混合模型的簇数<p> ELI5简介:<a href=“https:”abidlabs.github.io.”EM算法“rel=”nofollow“>https:”/;abidlabs.github.io;EM算法</一
xiaodai: I don’t know. I find quanta articles very high noise. It’s always hyping something
xiaodai: 我不知道。我发现量子文章噪音很大。它总是在炒作什么
paulpauper: why not use regression on the existing entries to infer what the missing ones should be?
paulpauper: 为什么不对现有条目使用回归来推断缺失的条目应该是什么?
light_hue_1: I wish they actually engaged with this issue instead of writing a fluff piece. There are plenty of problems with multiple imputation.<p>Not the least of which is that it's far too easy to do the equivalent of p hacking and get your data to be significant by playing games with how you do the imputation. Garbage in, garbage out.<p>I think all of these methods should be abolished from the curriculum entirely. When I review papers in the ML/AI I automatically reject any paper or dataset that uses imputation.<p>This is all a consequence of the terrible statics used in most fields. Bayesian methods don't need to do this.
light_hue_1: 我希望他们能真正参与这个问题,而不是写一篇无聊的文章。多重插补存在很多问题<p> 其中最重要的是;这太容易了,就像p黑客一样,通过玩插补游戏来让你的数据变得有意义。垃圾进,垃圾出<p> 我认为所有这些方法都应该从课程中完全废除。当我在ML中审阅论文时;AI我会自动拒绝任何使用插补的论文或数据集<p> 这都是大多数领域使用的可怕静校正的结果。贝叶斯方法不;没必要这么做。