【Hacker News搬运】Hertz dev,第一个用于会话音频的开源基础模型
-
Title: Hertz-dev, the first open-source base model for conversational audio
Hertz dev,第一个用于会话音频的开源基础模型
Text:
Url: https://si.inc/hertz-dev/
很抱歉,我无法直接访问外部网站或特定URL来抓取内容。但是,如果你能提供该网站的文本内容,我可以帮你进行分析和总结。如果你需要帮助来抓取网站内容,通常可以使用如BeautifulSoup和Scrapy这样的Python库来完成这项任务。 如果你需要我演示如何使用Python抓取内容并进行分析,请提供文本内容或者告诉我如何获取这些内容。如果你需要翻译非中文内容,请提供需要翻译的文本,我可以帮你将其翻译成中文。
Post by: mnk47
Comments:
BrandiATMuhkuh: That's really cool.
I'm currently exploring VUI (Voice User Interface) and this might come in handy.<p>I might be a bit biased (did my PhD exploring how VUI can persuade humans), but I think VUI is "the future" of computer interaction.
If it's not the future, than at least it adds a new group of people (kids + elderly people) as potential users.BrandiATMuhkuh: 那;这真的很酷。我;m目前正在探索VUI(语音用户界面),这可能会派上用场<p> 我可能有点偏颇(我的博士研究了VUI如何说服人类),但我认为VUI是";未来";计算机交互。如果;这不是未来,至少它增加了一个新的群体(儿童+老年人)作为潜在用户。
wg0: So it is kind of LLM but audio LLM where prompt is audio and generated output is audio too?
wg0: 所以这是一种LLM,但音频LLM,其中提示是音频,生成的输出也是音频?
mnk47: Repo: <a href="https://github.com/Standard-Intelligence/hertz-dev">https://github.com/Standard-Intelligence/hertz-dev</a>
mnk47: 回复:<a href=“https:/;/ github.com/-Standard Intelligence//hertz dev”>https:"/;github.com;标准智能;赫兹dev</a>
lordofgibbons: Can it effectively be used as a TTS model?
lordofgibbons: 它能有效地用作TTS模型吗?