对普通人来说AI的应用范围汇总
本文最后更新于 2025-05-11,墨迹未干时,知识正鲜活。随着时间推移,文章部分内容可能需要重新着墨,请您谅解。Contact
前言
AI发展至今,收获了过多的赞美,也承担了过多的指责。年轻人们喜欢事事问AI,自诩为长辈的守旧派则是对AI持一面倒的鄙视。但我想,在AI这个变数颇多的辩题上,还是做个理性温和且实干的中立派吧,毕竟现在AI的发展日新月异,比当年Linux迭代的还要频繁,每隔一段时间总会出现颠覆前一代的特性,但每隔一段时间也总是出现依托于PPT的“超级AI”,再加上由于部分人在AI议题上过度宏大叙事而引发的种种闹剧,使得目前人类群体对于LLM的看法比较极化。此外,面对AI潮,除了温和中立,个人更应当适度远离宏大叙事,聚焦自身,探索如何才能最大限度地利用好AI。就个体而言,真正想要研究透AI难度不小,至少目前为止,我为了更深入地使用AI、理解AI,以及部署AI相关开源项目,已经开始接触并学习服务器、Python、工作流、GPU训练等等内容,并且目前我依旧看不到AI的上限,前辈们每隔一段时间总是能发布一些神奇的工具,包括composer, mcp,ai ide等等。本文将汇总一些我在技术论坛冲浪学习到的AI实用之技,并会保持一定频率的更新,每次更新会放在前面,以便读者可以快速获取最新的AI信息。
编写脚本
最近AI IDE挺火热的,我试过Cursor, Augment, Roo Code, Cline, 发现这类IDE集成了编程相关的预设后编写脚本相当好用,正则匹配、dat脚本、python脚本、油猴脚本等等,而且Agent模式下开放权限后它会自动调试错误的部分,最终返还给你一个非常好用的版本。我甚至觉得它可以帮你在Windows上从零配置Python, Nodejs, Git等多种环境,当然环境变量应该还是需要自己去配置,不过也不复杂,配置环境变量的意义就在于告诉你的电脑某一个环境或部件的具体位置,到哪里去调用。
AI MindMap
项目地址:https://github.com/liujuntao123/smart-markmap
原理其实说到底还是预设,规范好输出后把输出按照预先设置好的结构处理就行。
沉浸式翻译
项目地址:https://github.com/immersive-translate/immersive-translate/
具备翻译网页、视频、电子书、PDF等内容形式的能力,而且排版做的不错,属于是在外网冲浪时必不可少的利器。沉浸式翻译模型最好选择Deepl, Gemini 1114, 4o mini等模型,性价比很高,当然如果你翻译的量少的话用Claude、O1或Gemini 2.5 Pro也行,效果好但稍贵,而且并发太高了容易封号或服务降级。
AI搜索(慎用)
目前做的比较好的就是Perplexity, Kimi, SearchGPT和秘塔猫, 但是我强烈不推荐过于依赖AI搜索。在没有AI搜索的时代,互联网的痕迹都可以被随意抹除篡改,科技巨头们随意操纵搜索引擎的结果,为此它们甚至把百度快照、谷歌Cache都下架了,现在互联网硕果仅存的岁月史书就只有互联网档案馆了。巨头们能篡改传统搜索引擎的检索结果,他们篡改起AI搜索的结果只会更加容易。AI搜索本质上依旧是一个巨大的公共的信息茧房,想象一下,假如五十个人都需要写同一个题目的作文,用AI搜索的材料写完后查重率会高到离谱。所以,任何时候都不要放弃传统搜索,哪怕你根本不会用搜索语法和其他高阶操作,你也可以通过不停往下滑到达那些人迹罕至的互联网荒原。
日常学习
文科方面主要是讲解题目、练习口语(Realtime),技术方面就主要是讲解各种开源项目如何部署、各种技术实操过程中遇到共性问题如何解决。
理论上来说无论是文科还是理科,抽点时间学一学提示词优化、各种AI模型的参数调节以及RAG知识库,还有各种前沿的AI工具,MCP,cursor, cline, dify, fastgpt等等,对学习是真的有很大帮助,可惜很多人都被自己困在舒适圈里,主动搜索的能力基本等于没有,典型的习得性无助,从小到大很可能从未靠自己解决过实际问题,每次遇到团队作业,说是负责搜索资料,其实也就是随便百度完一坨答辩就算完成任务。
高精度OCR
主要是利用集成了视觉功能的大语言模型的API来进行文字的识别,比如QWen OCR, Gemini OCR.
QWen OCR:
演示站:https://apicheck-qwenocr.hf.space/
Docker部署:docker run --restart=always -it -d --name qwenocr -p 8000:8000 fossandroid/qwenocr:latest
huggingface部署: https://huggingface.co/spaces/ApiCheck/QwenOCR?duplicate=true
Gemini OCR:
演示站:https://geminiocr-six.vercel.app/
项目地址:https://github.com/CiZaii/geminiocr
Vercel部署:点击此处
润色勘误
这个没什么好说的,主要是写公众号和短视频脚本的人用,就是检查一下语法、句法和论证力度等,偶尔让它给改一改。
酒馆
尽管酒馆本意是破除Claude内置的种种道德审查,但大部分AI生产的情色、暴力血腥文章都出自酒馆,且因为没有道德审查,部分情色、赌博网站似乎也在使用酒馆为他们创作宣传标语和翻译成其他各国语言。
声音克隆
主要是SOVITS项目,也有ChatTTS, Fish-audio等
TTS
很好理解,语音合成,目前主要是OpenAI TTS, Azure, fishaudio,Elevenlabs等
日志分析
各种各样的日志都可以分析,比如服务器日志、项目部署的时候的报错日志、安全日志等,至少比人看得快,而且因为AI的知识储量相当大,无论报错多么邪乎它都能给你扯两句。
病毒分析
拆完Mod后可以仍给AI分析一下,似乎魔盾这些安全平台也逐渐集成了AI。
前端开发
V0写nextjs,vuejs等前端还算好用。
编程
自从AI编程被开发后,论坛内大佬们最喜欢挂在嘴边的一句话:面向AI编程,含人量为零。目前比较知名且好用的AI IDE有Cursor、Augment、Roo Code、Windsurf、Cline等,模型则主要是 Gemini 2.0 thinking pro, Claude 3.5s, Deepseek r1这三个模型,o1编程还差点火候;工具方面主要是cursor, cline和copilot.
识别字幕与自动打轴
上限与下限都很高,往下了说CPU可以部署运行,往上了说GPU,CUDA能做的很好,加快视频制作速度,当然也方便了垃圾营销号产出垃圾。另外随着GPU算力平台大量兴起,4090、A100都能很容易租到,用来部署本地模型,然后用到视频的翻译里能显著降低成本,毕竟全部用GPT系列的API不便宜。
模拟终端
让AI模拟linux终端或win终端,随时随地学习CLI,当然你也可以选择Termux或MT管理器等其他真实终端。
工作流
把一个比较复杂的任务拆分为多个环节,以提高每个环节的平均算力,使得模型性能不是那么顶尖的模型也可以通过增加工作环节和时间来产出不错的效果。另外工作流还可以接入知识库、规范工作流程等,主要工具是Dify和FastGPT,前者专注于”工作流“,后者比较专注”知识库“。
TG、微信QQ机器人
对个人来说没什么用的机器人,唯一的作用就是在没见过世面的人面前卖弄,操作不当还会封号。对企业来说或许可以做智能客服系统,接入知识库,当然是不是降本增"笑"就难说了。
数据分析
比如你数据跟着结论变的实验数据。
文档总结
主要是总结论文、行政材料等不说人话的材料。
AI数字人
以前主要是Heygen和D-ID,现在这俩都被薅秃了,也没有好用的数字人项目了。
文生视频
闭源项目:pika, viggle, runway, sora
开源项目:https://github.com/harry0703/MoneyPrinterTurbo 等
辅助文本编辑
使用AI写一些批量处理文字的脚本,或者让AI为你的富文本用markdown突出一下重点。
换脸
涉及到法律和道德,不做过多评价。
音乐
自动扒谱、suno生产音乐