【Hacker News搬运】一种令人尴尬的简单方法来恢复法学硕士的未学知识
-
Title: An embarrassingly simple approach to recover unlearned knowledge for LLMs
一种令人尴尬的简单方法来恢复法学硕士的未学知识
Text:
Url: https://arxiv.org/abs/2410.16454
很抱歉,作为一个AI,我无法直接访问外部网站,包括arXiv.org。因此,我无法直接读取或分析您提供的链接中的文档。 不过,我可以提供一个大致的指导,告诉您如何使用JinaReader或其他工具来抓取和分析文档内容,以及如何处理非中文内容。 ### 使用JinaReader抓取和分析文档 1. **安装JinaReader**: 通常,您需要先安装JinaReader库。如果您使用的是Python,可以使用pip进行安装: ```bash pip install jina
-
编写抓取脚本:
使用JinaReader的API或命令行工具来抓取文档。以下是一个简单的示例脚本,演示如何使用JinaReader抓取PDF文件并分析其内容:from jina import Document, Flow # 创建一个Flow flow = Flow.load_config("flow.yaml") # 确保有一个有效的配置文件 # 创建一个Document对象并加载文档 doc = Document.load("path/to/your/document.pdf") # 将Document传递给Flow flow.push(doc) # 等待Flow处理完文档 flow.wait() # 获取分析结果 print(doc_as_str)
-
处理分析结果:
根据JinaReader的配置,您可能会得到摘要、关键词或其他分析结果。您可以根据需要进一步处理这些结果。
翻译非中文内容
如果文档内容不是中文,您可能需要使用翻译服务来将其翻译成中文。以下是一些常见的步骤:
-
使用翻译API:
您可以使用Google翻译API、Microsoft Translator Text API等在线服务。这些服务通常提供RESTful API,允许您发送文本并获取翻译结果。 -
集成翻译服务:
在您的脚本中集成翻译API,将非中文内容发送到翻译服务,并获取翻译后的中文内容。
以下是一个使用Google翻译API的简单示例(请注意,这只是一个示例,实际使用时需要注册Google Cloud Platform并获取API密钥):
import requests def translate_text(text, source_lang='auto', target_lang='zh-CN'): url = 'https://translation.googleapis.com/language/translate/v2' params = { 'q': text, 'source': source_lang, 'target': target_lang, 'format': 'text', 'key': 'YOUR_GOOGLE_CLOUD_API_KEY' } response = requests.get(url, params=params) result = response.json() return result['data']['translations'][0]['translatedText'] # 使用示例 non_chinese_text = "Your non-Chinese text here" chinese_translation = translate_text(non_chinese_text) print(chinese_translation)
请记住,这些步骤需要根据实际文档内容和分析需求进行调整。
## Post by: PaulHoule ### Comments: **constantlm**: I'm not an expert in this field at all, so please excuse the dumb question. Does this mean that if you say, quantise llama3 to 4 bits, you would be able to access "hidden" (albeit degraded) information such as, for example, how to synthesise certain chemical compounds? > **constantlm**: 我;我根本不是这个领域的专家,所以请原谅这个愚蠢的问题。这是否意味着,如果你说将llama3量化为4比特,你就能够访问";隐藏";(尽管已经退化)信息,例如如何合成某些化合物? **vdvsvwvwvwvwv**: Is this like giving the model a magic mushroom. It can access previously repressed memories. The unlearning part being like A Clockwork Orange. > **vdvsvwvwvwvwv**: 这就像给模特一个神奇的蘑菇吗。它可以访问以前被压抑的记忆。忘却部分就像发条橙。
-