把AI大模型装进U盘里,完全离线、零痕迹、不限次数(附详细安装教程)

你有没有想过:把多个完整的AI大模型装进U盘里,插到任何电脑上都跑,不联网也行,所有数据留在U盘里不留下任何痕迹?

今天介绍的这个,已经把这个想法实现了。我已配置好模型和依赖,点开直接用

一、Portable AI USB是什么?

Portable AI USB是一个完全开源的便携式AI大模型方案,基于Ollama + AnythingLLM实现。装进U盘后,可以在任何Windows、Mac、Linux电脑上运行。

核心特点:

  • ✅ 完全离线运行——首次安装后无需网络
  • ✅ 零痕迹——不在电脑留下任何数据
  • ✅ 不限次数——无需订阅,无需付费
  • ✅ 支持6种模型——包括无审查版模型
  • ✅ 支持自定义模型——可加载任意GGUF格式模型
  • ✅ 多平台——Windows/Mac/Linux通用

二、支持的AI模型

安装时可选择下载以下模型,也可以自行上传GGUF格式模型:

模型大小类型推荐场景
NemoMix Unleashed 12B7.0 GB⭐标准最佳质量,推荐首选
Dolphin 2.9 Llama 3 8B4.9 GB标准经典通用型
Mistral 7B Instruct4.1 GB标准推理、编程能力强
Qwen 2.5 7B4.7 GB标准中文能力出色
Llama 3.2 3B2.0 GB轻量老电脑首选,速度快
Phi-3.5 Mini2.2 GB轻量内存占用低
自定义GGUF模型自定义自定义上传任意HuggingFace模型

三、完整安装教程(图文版)

准备工作

  • U盘一个,容量至少16GB(推荐64GB,多模型需更大空间)
  • 格式化U盘为exFAT格式(Windows/Mac/Linux通用)
  • 首次安装需要联网(下载模型用)
  • Windows/Mac/Linux各版本安装步骤略有不同,见下方详细说明

第一步:下载全部文件(文末链接下载)

全部文件,复制到U盘根目录。

第二步:运行安装脚本

进入U盘目录,双击运行:

install.bat

会弹出PowerShell窗口,按提示操作。

第三步:选择AI模型

安装过程中会显示模型列表,选择你想下载的模型编号:

1. NemoMix Unleashed 12B(推荐)
2. Dolphin 2.9 Llama 3 8B
3. Mistral 7B Instruct
4. Qwen 2.5 7B
5. Llama 3.2 3B(轻量)
6. Phi-3.5 Mini(轻量)
C. 自定义模型
请输入编号:

建议首次安装选择1号NemoMix4号Qwen(中文能力最强)。

第四步:配置AnythingLLM安装路径

AnythingLLM安装程序会弹出,关键一步

  1. 点击“Browse”(浏览)
  2. 定位到U盘根目录下的anythingllm文件夹
  3. 确认路径在U盘上,不是电脑本地硬盘
  4. 点击安装,等待完成
  5. 关闭安装程序

第五步:启动使用

安装完成后,每次使用只需双击:start-windows.bat        :: Windows启动(推荐)start-mac.command     :: Mac启动
start-linux.sh     :: Linux启动

会自动打开AnythingLLM聊天界面,直接开始对话。

第六步:切换模型

在AnythingLLM界面:Settings → LLM → 选择模型即可切换。

图片

四、Mac / Linux 安装步骤

Mac系统

1. 下载文件到U盘
2. 双击 start-mac.command
3. 首次运行会自动下载Mac版引擎(约2分钟)
4. AnythingLLM界面会自动打开
5. 开始使用!

Linux系统

1. 下载文件到U盘
2. 打开终端,进入U盘目录
3. 赋予执行权限:
   
chmod +x start-linux.sh preflight-check.sh install.sh install-core.sh
4. 运行:
   
bash preflight-check.sh
5. 安装完成后,进入ANYTHINGLLM文件夹,打开AppImage文件
6. 开始使用

五、进阶配置:自定义模型

加载自定义模型

如果列表里没有你想要的模型,可以上传任意GGUF格式模型:

  1. 从HuggingFace(国内可从hf-mirror.com)下载想要的GGUF模型文件
  2. 把.gguf文件放入U盘models/文件夹
  3. 重新运行install.bat,选择选项C
  4. 粘贴HuggingFace的直接下载链接
  5. 安装脚本自动处理剩余步骤

调整Token上下文窗口

默认配置4K tokens,想调整:

  1. 打开U盘目录:anythingllm_data/storage/
  2. 编辑.env文件
  3. 找到OLLAMA_MODEL_TOKEN_LIMIT=4096
  4. 改成想要的数值(如8192)
  5. 保存后重启:双击start-windows.bat

六、如果模型下载失败怎么办

网络问题导致下载中断时:

  1. 安装窗口会显示HuggingFace(我已改成国内镜像地址)的下载链接
  2. 复制链接,用其他工具下载.gguf文件
  3. 将文件放入U盘models/文件夹
  4. 重新运行install.bat,会自动跳过已存在的文件

七、隐私安全说明

  • ✅ 所有聊天记录存在U盘,不会上传到任何服务器
  • ✅ 不在电脑留下任何注册表项或本地文件
  • ✅ 完全离线运行,无网络请求
  • ✅ 无遥测、无追踪、无日志上传

八、与普通AI工具对比

对比项普通AI工具Portable AI USB
网络要求必须联网首次安装后完全离线
数据隐私数据在云端数据在U盘,完全私有
使用次数有限制或需付费无限次使用
便携性需登录账号U盘即插即用
网络痕迹留有使用记录零痕迹,拔U盘就消失
适用场景日常对话离线/隐私/出差/特殊环境

九、系统要求

  • U盘容量:至少16GB(单模型),推荐32GB以上
  • U盘格式:exFAT(支持跨平台)
  • 内存要求:建议16GB以上(运行大模型)
  • Windows版本:Windows 10/11
  • 首次安装:需要联网下载模型(约4-7GB)

十、总结

Portable AI USB解决了一个很实际的问题:AI工具的便携性、隐私性、无限使用

特别适合:

  • 经常出差、需要在不同电脑上工作的人
  • 对数据隐私敏感、不想让AI记录对话的人
  • 网络不稳定或无法联网的环境
  • 不想付费、想无限使用AI的人

只需要一个U盘,下载安装,第一次联网下载模型,之后走到哪用到哪。

工具就在那里,重要的是用起来。

开源API网关new-api

New API是什么

New API 是新一代 AI 网关与资产管理系统,作为 AI 基座平台,提供统一基础设施接入全球 30+ 主流 AI 服务(OpenAI、Claude、Gemini、DeepSeek 等)。平台核心特性包括统一 OpenAI 兼容接口、智能路由负载均衡、精细计费与权限管控、实时数据看板。平台支持多格式转换、推理力度控制、缓存计费等高级功能。采用 AGPLv3 开源协议,支持 Docker 一键部署,适配个人开发者到企业级多租户场景。

New API

New API的主要功能

  • 统一接口管理:提供兼容 OpenAI 格式的单一 API 端点,无缝接入全球 30+ 主流 AI 服务提供商。
  • 智能路由调度:支持多渠道负载均衡、故障自动切换和加权随机分发,确保服务高可用性。
  • 精细计费系统:支持实现按次数或按量计费、预付费充值、多倍率配置及缓存计费支持。
  • 安全权限管控:提供令牌分组管理、模型访问限制、API 调用审计及多平台授权登录。
  • 格式转换能力:支持 OpenAI、Claude Messages、Google Gemini 等多种 API 格式之间的相互转换。
  • 推理力度控制:支持通过模型名称后缀灵活设置高、中、低不同级别的推理思考强度。
  • 实时数据看板:提供可视化控制台、用量统计分析和成本监控的数据洞察功能。

New API的关键信息和使用要求

  • 项目定位:新一代 AI 网关与资产管理系统,AI 基座平台
  • 开源协议:GNU AGPLv3(可免费使用,SaaS 部署需开源)
  • 兼容基础:基于 One API 开发,完全兼容原数据库
  • 支持语言:简中、繁中、英文、法文、日文
  • 部署方式:Docker / Docker Compose / 宝塔面板
  • 数据库:SQLite(默认)/ MySQL ≥ 5.7.8 / PostgreSQL ≥ 9.6
  • Docker 镜像:calciumion/new-api:latest

New API的核心优势

  • 统一接入:通过一个兼容 OpenAI 格式的 API 端点,可无缝接入全球 30+ 主流 AI 服务提供商,彻底告别多平台对接的繁琐工作。
  • 智能路由:平台内置多渠道负载均衡、故障自动切换和加权随机分发机制,确保 AI 服务的高可用性和请求稳定性。
  • 成本优化:支持缓存计费、按量或按次计费以及多倍率灵活配置,帮助用户实现精细化的成本控制和费用管理。
  • 格式互通:提供 OpenAI、Claude Messages、Google Gemini 等多种 API 格式之间的自由转换能力,显著降低不同模型的接入门槛。
  • 开箱即用:支持 Docker 一键部署,完全兼容 One API 数据库,提供宝塔面板可视化安装,极大简化部署流程。

如何使用New API

  • 部署安装:克隆项目仓库到本地后编辑配置文件,执行 Docker 命令启动服务,通过浏览器访问默认 3000 端口进入系统。
  • 初始配置:登录管理后台设置管理员账号,在渠道管理中添加各 AI 服务商的 API 密钥并配置权重与故障切换策略。
  • 创建访问凭证:在令牌管理页面创建 API Key,设置额度限制、有效期和可用模型范围,为不同场景分配独立凭证实现权限隔离。
  • 接入使用:将应用 API 基础地址指向 New API 部署地址,使用生成的令牌替换原密钥,保持 OpenAI 标准格式可无缝调用多平台模型。

New API的项目地址

  • 项目官网:https://www.newapi.ai/
  • GitHub仓库:https://github.com/QuantumNous/new-api

New API的同类竞品对比

对比维度New APIOne APILiteLLM
项目定位AI 网关与资产管理系统,AI 基座平台开源 AI 接口聚合与管理平台多 LLM 路由与负载均衡工具
开发团队锟腾科技(QuantumNous)社区开源项目BerriAI 团队
开源协议GNU AGPLv3MITMIT
核心功能统一接口、智能路由、精细计费、格式转换、权限管控渠道管理、令牌分发、额度控制模型路由、故障切换、观测监控
支持模型30+ 主流服务商(OpenAI、Claude、Gemini、DeepSeek、Midjourney、Suno 等)20+ 主流服务商100+ 模型提供商
格式转换OpenAI ↔ Claude、OpenAI → Gemini、Thinking 内容转换主要兼容 OpenAI 格式统一为 OpenAI 格式输出

New API的应用场景

AI 模型对比测试:用户通过统一接口快速切换不同厂商模型,对比 GPT、Claude、Gemini、DeepSeek 等在实际任务中的表现,辅助技术选型决策。

个人开发者建站:快速搭建私人 AI 接口中转站,统一管理多个平台的 API 密钥,通过精细计费控制个人使用成本,避免频繁切换不同服务商的繁琐操作。

创业团队产品开发:为 AI 应用提供稳定的多模型后端支持,确保产品服务高可用,同时通过数据看板监控用量和成本,优化资源配置。

企业内部 AI 中台:平台支持构建企业级 AI 资产管理系统,统一管控模型访问和费用支出,满足合规要求并提升管理效率。

做了一个 API 中转站,我才发现这行水有多深

最近刷短视频和文章,发现 API 中转站(也就是卖 token 的)火了。那么 token 是什么,是 AI 时代的燃料。

随之而来的也是各种”圈内黑话”:有人说中转站全是”水货”,拿着别的模型来滥竽充数;有人说”蒸馏卖数据”,收割一波直接跑路。说实话,这行现在乱得确实有点乱,外行看热闹,内行看门道,中间人看钱包。

其实,这玩意儿真没那么玄乎。花了半天时间,我自己也撸了一个中转平台。

核心就这几步:

  1. 1. 服务器: 选个稍微稳点的海外节点。
  2. 2. 域名: 别搞得太花哨,简单好记就行。
  3. 3. 订阅账号: 这是核心,必须是低价且稳的上游,不然扛不住。
  4. 4. 部署: 按照文档一步步走,也就半天的时间。

作为 AI 重度使用者,我手头那堆 AI 辅助工具,一会儿要 GPT 跑逻辑,一会儿要 Claude Opus 优化架构。来回切账号、挂代理、忍受那该死的 Stripe 支付报错、还得时刻担心账号被封,不挂 ISP 家庭宽带根本不行……确实是让人难受。

最关键的是额度不够用,一个账号额度 5h7d 根本不够用,多个账号还得来回切换。

自己搭个中转,主打就是一个:稳定,省心,不折腾。


01. 原理很简单,但门槛在”水面下”

API 中转站的逻辑说白了,就是”订阅转 API”。

通过购买官方的 Plus 账号或 Pro 账号,利用反代技术把网页端的会话形式(Chat)封装成标准的 API 接口。市面上主流的开源方案像 NewAPI 或者 s2a,源码谁都能用,技术门槛几乎为零。

但为什么不同家的 API 体验天差地别?

真正的门槛其实在”水面下”。首先是优质且稳定的上游号商。如果你直接去官网原价买订阅再拆开卖 token,那纯粹是在做慈善,还得贴上电费。如何在茫茫多的渠道里找到那些低价、且不容易被官方风控”连窝端”的神仙账号,才是最考验人脉和眼光的。

其次,除了正经订阅,圈子里还有很多走 Kiro,cursor,windsurf 等逆向方案过来的。还有黑产或者暴力破解的接口,虽然价格低到离谱,但用起来真的”不太行”。连接不稳定、回复被截断、甚至问着问着就断流,这种接口拿来玩玩可以,真拿来干活,分分钟想砸电脑。


02. 那些让人又爱又恨的模型

各家模型我也都测过:

  • • Claude Code:目前的”天花板”,也是最傲娇的。
    Anthropic 对国内用户的敌意真的是写在脸上的。最近 Claude Code 甚至要搞 KYC 认证,只认护照、驾照原件,复印件和照片统统拒收。圈里有个梗:说是不知道当年百度对 Anthropic 的 CEO 做了什么,让人家记恨至今。
    梗归梗,但它成本高、风控严是事实。即便如此,大家还是趋之若鹜,这真不是崇洋媚外,只有真正干活的人才知道,顶级模型那种”指哪打哪”的逻辑感,国内模型暂时还听不懂这种”人话”。
  • • GLM,qwen:怎么说呢,一言难尽。
    我之前买过它的 Coding Plan,几十块钱,确实便宜。但实际用下来,处理点简单的体力活还可以,稍微牵扯到复杂的业务逻辑,它就开始装傻。作为生产力工具,它还差点火候。
  • • OpenAI Codex:我的心头好,性价比之王。
    这是我测下来性价比最高的模型。之所以说它香,是因为它是真的能干活,不玩虚的,而且量大管饱,给的额度非常足。对于日常写代码来说,它就是那个最听话、最勤快的”赛博打工人”。

03. 聊聊 OpenClaw 和 Hermes

最近 Hermes 作为和 openclaw 经常放在一起对标的 agent,短短时间 github 就斩获了 97.3K 的 star。

说白了,Hermes 这波能火,不是靠营销吹出来的,也不是靠社区一帮人尬捧出来的,它是真把很多人最烦的那层窗户纸给捅破了:大家要的根本不是什么“会聊天”的 AI,而是一个能真正进场干活的 Agent。

为什么大家认 Hermes?核心就几点。

第一,它不是那种只会在对话框里“给建议”的花架子,它是真的能下场执行。
很多 Agent 产品嘴上说自己是智能体,结果本质上还是个高级聊天机器人:你让它改代码,它给你讲思路;你让它排查问题,它给你一堆正确的废话;你让它落地,它开始装死。Hermes 比较讨喜的一点,就是它明显更强调“动手能力”——该查文件查文件,该跑命令跑命令,该调工具调工具,不跟你整那么多虚头巴脑的。

第二,它的工程味很重,不是那种演示视频里看着很牛,真用起来一地鸡毛的东西。
真正长期写代码的人都知道,Agent 这玩意儿最难面不是“回答得像不像”,而是“在真实环境里能不能少犯蠢”。Hermes 被认可,本质上就是因为它在工程工作流里更顺:会调用工具、能拆任务、知道校验结果,出了问题也不是立刻开始一本道胡说八道。这种东西,外行可能感受不到,真正在项目里干活的人,一上手就知道差别在哪。

第三,它的“可控性”比很多同类产品强。
现在不少 Agent 最大的问题,不是不聪明,而是太飘。你一句话扔过去,它给你脑补八百公里,最后交回来一个和需求没啥关系的玩意儿。
有一个梗说的是像雇佣了一帮印度团队,总结汇报天花乱坠,情绪价值拉满,钱花了,事呢,也不能说没做。
Hermes 相对更像个能沟通的执行助手:你让它干什么,它就尽量沿着你的轨道走,而不是擅自加戏。对开发者来说,这点特别重要。因为生产环境里最怕的不是 AI 笨,最怕的是 AI 自作聪明。

至于它和 OpenClaw 的区别,我觉得一句话就能概括:
OpenClaw 更像“能力展示型选手”,Hermes 更像“上手就能干活的工兵型选手”。

OpenClaw 给人的感觉,是那种很容易让人眼前一亮的 Agent:理念新、动作猛、社区热度高,很多场景下也确实能打,属于“你一看就知道这东西有想象力”的路线。它更像是在往“更强的自主性、更完整的 Agent 形态”上冲,适合拿来探索边界,看看 Agent 到底还能卷到什么程度。

而 Hermes 这边,更容易获得一线用户的认可,恰恰不是因为它最会秀肌肉,而是因为它更务实。
它不一定每个 Demo 都最炸裂,但它更像一个你真愿意长期放进工作流里的东西。说难听点,很多产品是“发朋友圈很好看”,Hermes 这种是“你真会天天打开用”。这两者差别很大。前者是看热闹,后者是干生产。

再直白一点:
OpenClaw 更像在证明“Agent 可以有多强”,
Hermes 更像在回答“Agent 到底怎么才算好用”。

这也是为什么它能在这么短时间内积累这么高的关注度。不是因为大家突然集体情怀上头了,而是因为越来越多的人开始从“玩模型”切换到“用模型干活”。一旦进入这个阶段,评价标准就完全变了。谁更会说,不重要;谁更能稳稳把活干完,才重要。

所以 Hermes 火,不是偶然。
它踩中的其实是当下 Agent 圈最真实的痛点:少一点表演,多一点执行;少一点玄学,多一点落地;少一点“我觉得我能”,多一点“我已经帮你做了”。


04. 结语

折腾下来,API 中转站给我最大的感受是:这行的信息差实在太大了。
收了钱就跑路的、用盗刷卡账号来薅羊毛最后连累用户被封的,一抓一大把。新手进来,十个有八个要交学费。

核心逻辑就两条:

  1. 1. 别贪便宜,擦亮眼睛。 天上不会掉馅饼,掉下来的多半是陷阱。
  2. 2. 别怕折腾。 AI 这波浪潮里,工具链是核心生产力。花半天时间把自己的 API 流水线理顺,比你每天花两小时切账号、挂代理、对着报错发呆要划算得多。

普通人不会写文章?用AI+朱雀AI,10分钟出一篇安全公众号

 最近好多朋友跟我说:也想做个公众号,记录点东西、分享点干货,可就是不会写,坐在电脑前半天憋不出一句话。


    好不容易用AI生成一篇,又怕被检测出来,限流、不推荐,白忙活一场。

     其实真没那么复杂。今天就把我一直在用的完整流程分享给你,不用文笔好,不用懂排版,AI+朱雀AI,10分钟就能出一篇安全、能正常发的公众号文章。
1️⃣让AI搭框架,不写正文

     打开你常用的AI工具,直接输入指令:
    帮我写一个公众号文章大纲,主题是______,不用写完整内容,只要分小标题,每段提示大概写什么。
     AI只会给你结构:标题、开头、分点、结尾。
这一步绝对安全,因为我们只让它搭架子,不生成完整段落。

2️⃣自己填“人话”,1分钟搞定

     对着大纲,用你平时说话的语气往里填内容。
     不用华丽辞藻,不用对仗工整,怎么聊天就怎么写:
• 我自己试过
• 给大家提个醒
• 说实话我一开始也不会
• 分享一下我的心得
    哪怕每段只有两三句话,都比AI通篇生成更真实、更受欢迎。

3️⃣复制去朱雀AI检测
    把写好的内容,粘贴到朱雀AI检测里测一遍。
大部分情况,因为是你自己组织的语言,AI概率都会很低。
    就算有一两句标红,也只需要稍微换个说法,完全不用大改。

4️⃣复制到公众号,直接发布

    检测通过后,直接粘贴到公众号后台,简单分个段,加个小标题,一篇文章就完成了。

    整个流程下来,熟练之后真的10分钟足够。
    不用怕不会写,不用怕被检测,普通人也能轻松坚持更新。

     做公众号,从来不是比谁文笔更好,而是比谁更愿意坚持、更愿意真诚分享。
     如果你也想开始,今天就可以试着动手写一篇啦。

一个开源、功能强大的 AI 短剧工厂,从剧本到成片一条线搞定!

Jellyfish 是一个一站式 AI 生成短剧(竖屏短剧 / 微短剧)的生产工具,覆盖从剧本输入到智能分镜、角色/场景/道具一致性管理、AI 视频生成、后期剪辑,直至一键导出成片的完整流程。

应用场景

  • 短剧/微短剧内容创作者:快速将创意转化为高质量短剧作品。
  • AI 影视工作室批量生产:高效批量生成短剧内容,满足市场需求。
  • 个人创作者低成本试水:以较低成本尝试竖屏短剧创作。
  • 教育/培训机构:制作教学短视频,丰富教学内容和形式。
  • 品牌/电商:制作带剧情的产品宣传短片,提升产品吸引力。

功能模块

  • 剧本输入:支持多种格式的剧本输入,为后续处理提供基础。
  • 智能分镜:自动将剧本转化为可拍摄的分镜脚本。
  • 角色/场景/道具一致性管理:确保在不同镜头中角色、场景、道具的一致性。
  • AI 视频生成:对接多种大模型 API,生成高质量视频片段。
  • 后期剪辑:提供视频剪辑功能,对生成的视频进行后期处理。
  • 一键导出成片:将剪辑好的视频一键导出为成品短剧。

功能特点

  • 极致一致性:通过全局种子、统一风格、资产复用,解决 AI 生成中的人物/场景漂移问题。
  • 工业化生产流程:从文学剧本到可拍摄分镜,再到视频片段,实现一条龙闭环生产。
  • 可视化 & 可控:提供所见即所得的分镜编辑器、精细的镜头语言控制、实时预览功能。
  • 资产复用体系:全生命周期管理角色/场景/道具/服装/提示词模板,提高生产效率。

项目技术栈

前端

  • 框架:React 18 + TypeScript + Vite
  • UI 组件库:Ant Design / Tailwind CSS
  • 状态管理:Redux Toolkit / Zustand
  • 工作流编辑:React Flow
  • 视频播放器:Video.js / Plyr
  • 富文本/代码编辑:Monaco Editor / React Quill

后端(可选开源部分)

  • 框架:Node.js / NestJS / FastAPI / Spring Boot
  • 数据库:MySQL(通过 Docker Compose 启动)
  • 文件存储:RustFS(提供 S3 API 接口)

AI 生成层

  • 对接多种大模型 API,包括但不限于 OpenAI、Anthropic、Midjourney、Runway、Kling、Luma 等。