【Hacker News搬运】Spann:高效的十亿级近似最近邻搜索(2021)
-
Title: Spann: Highly-Efficient Billion-Scale Approximate Nearest Neighbor Search (2021)
Spann:高效的十亿级近似最近邻搜索(2021)
Text:
Url: https://arxiv.org/abs/2111.08566
很抱歉,我无法直接访问或分析外部网站上的内容,包括arXiv.org上的论文。但是,我可以提供一些关于如何使用JinaReader来抓取和总结内容的一般性指导。 JinaReader是一个用于处理和读取文本的Python库。以下是如何使用JinaReader来抓取和总结arXiv.org上论文内容的步骤: 1. **安装JinaReader**: 首先,确保你已经安装了JinaReader。如果没有,可以使用以下命令安装: ```bash pip install jina
-
抓取内容:
为了从arXiv.org抓取论文内容,你需要使用网络请求库如requests
来获取论文的HTML页面。import requests url = "https://arxiv.org/abs/2111.08566" response = requests.get(url) html_content = response.text
-
解析HTML:
使用JinaReader中的解析器来解析HTML内容,提取出论文的文本。from jina import Document # 假设你已经有一个解析器函数,它从HTML中提取文本 def parse_html(html_content): # 这里应该是解析HTML并返回文本的代码 return "extracted text from the HTML content" doc = Document() doc.content = parse_html(html_content)
-
翻译非中文内容:
如果抓取到的内容不是中文,你可以使用翻译API来将其翻译成中文。这里以Google翻译API为例:from googletrans import Translator translator = Translator() translated_content = translator.translate(doc.content, dest='zh-cn').text doc.content = translated_content
-
总结内容:
使用JinaReader中的摘要工具或者自定义一个摘要函数来对内容进行总结。from jina import Summarizer summarizer = Summarizer() summary = summarizer.summarize(doc.content) print(summary)
请注意,上面的代码只是一个示例,实际的解析和摘要过程可能需要更复杂的逻辑来处理HTML结构和文本内容。此外,由于API的使用可能会受到限制或者需要API密钥,实际应用中可能需要相应地调整代码。
## Post by: ksec ### Comments: **rbranson**: One of the only (the only?) commercial grade implementations was launched recently by us at PlanetScale:<p><a href="https://planetscale.com/blog/announcing-planetscale-vectors-public-beta" rel="nofollow">https://planetscale.com/blog/announcing-planetscale-vectors-...</a> > **rbranson**: 我们最近在PlanetScale上推出了仅有的(唯一的?)商业级实现之一:<p><a href=“https:/;PlanetScale.com˻log 宣布PlanetScale vectors公测版”rel=“nofollow”>https:/;planetscale.com;博客/;宣布行星尺度矢量-</一 **aaronblohowiak**: Kinda related, hopefully someone here in comments can help: what’s your favorite precise nn search that works on arm Macs for in memory dataset; 100k times / 300 float32 dims per item ? Ideally supporting cosine similarity<p>Faiss seems big to get going, tried n2 but doesn’t seem to want to install via pip.. if anyone has a go-to I’d be grateful. Thanks. > **aaronblohowiak**: 有点相关,希望评论中有人能提供帮助:你最喜欢的在arm Mac上用于内存数据集的精确神经网络搜索是什么;100k次;每件商品300个浮动32个调光?理想情况下支持余弦相似性<p>Faiss似乎很难开始,尝试了n2,但似乎不想通过pip安装。。如果有人能去,我将不胜感激。谢谢。 **uptownfunk**: Can we build an OS version of this and make it easy for solo dev to self host / roll their own? > **uptownfunk**: 我们能否构建一个操作系统版本,使独立开发人员能够轻松地自行托管;滚自己的? **singhrac**: Maybe worth a (2021) tag. > **singhrac**: 也许值得一个(2021)标签。 ****: > ****:
-