【Hacker News搬运】Octothorpes:开放互联网的标签
-
Title: Octothorpes: Hashtags for the Open Internet
Octothorpes:开放互联网的标签
Text:
Url: https://octothorp.es/docs
很抱歉,作为一个AI,我无法直接访问或分析外部网站内容,包括您提供的链接。但是,我可以帮助您了解如何使用JinaReader这样的工具来抓取和分析网页内容,以及如何处理非中文内容。 以下是一个使用JinaReader进行网页抓取、内容分析和翻译的概述步骤: 1. **安装JinaReader**: 首先,您需要确保已经安装了JinaReader。这通常涉及到使用pip安装JinaReader库,如下所示: ```bash pip install jina
-
设置Jina工作流:
使用Jina,您需要创建一个工作流,该工作流将包括数据源(例如网页抓取器)、处理步骤(例如文本分析和翻译器)以及输出。from jina import Flow flow = Flow.load_config("flow_config.json") flow.add_component( "web_crawler", "WebCrawler", uses="scrapy", ) flow.add_component( "translator", "Translator", uses="googletrans==4.0.0-rc1", ) flow.add_component( "analyzer", "TextAnalyzer", uses="spacy==3.0.0", ) flow.add_component( "summaries", "Summarizer", uses="transformers==4.8.1", ) flow.compile()
请注意,上述代码中的组件名称和使用的库版本可能需要根据您的实际需求和安装情况进行调整。
-
抓取网页内容:
使用web_crawler
组件,您可以指定要抓取的URL。flow.web_crawler.use_urls = ["https://octothorp.es/docs"] flow.run()
-
翻译非中文内容:
如果抓取到的内容不是中文,translator
组件会自动将其翻译成中文。 -
分析内容并生成摘要:
analyzer
组件可以对文本进行分词、词性标注等操作,而summaries
组件则可以生成摘要。 -
获取总结:
最后,您可以从summaries
组件中获取生成的总结。
请注意,上述步骤是一个高层次的概念性描述,实际操作中需要根据具体情况进行调整,包括配置文件、组件参数和数据处理逻辑。
如果您需要将非中文内容翻译成中文,通常需要使用像Google Translate这样的翻译服务。在Jina中,您可以使用
googletrans
库来实现这一点。以下是一个简化的例子:from googletrans import Translator translator = Translator() def translate_to_chinese(text): translation = translator.translate(text, src='auto', dest='zh-cn') return translation.text # 假设text是一个需要翻译的字符串 translated_text = translate_to_chinese(text)
请记住,实际应用中您需要处理网络请求、错误处理以及可能的API限制等问题。
## Post by: todsacerdoti ### Comments: **joshu**: I built this in like 2003. <a href="https://web.archive.org/web/20030212162207/http://reversible.org/" rel="nofollow">https://web.archive.org/web/20030212162207/http://reversible...</a><p>It didn’t work, so I built del.icio.us instead. > **joshu**: 我在2003年建造了这个<a href=“https:/;web.archive.org/,web�/-可逆.org";rel=“nofollow”>https:/;web.archive.org;web;20030212162207;http:/;可逆</a> <p>它不起作用,所以我创建了del.icio.us。 **kaycebasques**: > Backlinks are links that go … back. Pages within a Ring can see which other pages linked to them.<p>I'm reading up on web history. I believe this was one of Ted Nelson's criticisms of the web (and reasons why Xanadu was supposedly better), right? > **kaycebasques**: >;反向链接是返回的链接。Ring中的页面可以看到链接到它们的其他页面<p> 我;我在读网络历史。我相信这是Ted Nelson的作品;他对网络的批评(以及为什么世外桃源被认为更好),对吗? **lifthrasiir**: <p><pre><code> <link rel="octo:octothorpes" href="architecture"> </code></pre> Wait, no. While this wouldn't cause much issue due to the unrecognized link type, `href` should always be a valid URL and can't be a free-form string. This is more obvious when you realize that `rel` accepts multiple link types:<p><pre><code> <link rel="octo:octothorpes help" href="architecture"> </code></pre> A conformant agent will recognize `help` and treat this like `<link rel="help" href="architecture">`. The same goes for `<a rel="octo:octothorpes" ...>`. The correct way would be using standard-recognized elements and attributes instead:<p><pre><code> <meta name="octo:octothorpes" content="architecture"> <a href="/blabla" itemscope> <meta name="octo:octothorpes" content="architecture"> blablablabla </a></code></pre> > **lifthrasiir**: <p><前><代码><;链接rel=“;章鱼:章鱼";href=“;建筑”>;</code></pre>等等,不。虽然这不会;由于无法识别的链接类型,不会造成太大问题,“href”应该始终是一个有效的URL,并且可以;不是自由格式的字符串。当你意识到`rel`接受多种链接类型时,这一点就更明显了:<p><pre><code><;链接rel=“;章鱼:章鱼帮助";href=“;建筑”>;</code></pre>一致性代理将识别“帮助”并将其视为“<;链接rel=“;帮助";href=“;建筑”>;`。`<;a rel=“;章鱼:章鱼>;`。正确的方法是使用标准识别的元素和属性:<p><pre><code><;meta name=“;章鱼:章鱼";内容=“;建筑”>;<;a href=“/;blabla";itemscope>;<;meta name=“;章鱼:章鱼";内容=“;建筑”>;等等等等</;a></代码></pre> **codetrotter**: There’s a link on that page that says you can check out some open source code.<p><a href="https://github.com/stucco-software/octothorp.es">https://github.com/stucco-software/octothorp.es</a><p>But this link gives a 404.<p>Probably the repo is currently private. Maybe they forgot to make it public? > **codetrotter**: 那个页面上有一个链接,说你可以查看一些开源代码<p> <a href=“https:/;/ github.com/-粉刷软件//octothorp.es”>https:"/;github.com;灰泥软件;octothorp.es</a><p>但此链接给出了404。<p>可能该仓库当前是私有的。也许他们忘了公开?
-