做devops或者FinOps的朋友应该深有体会,线上系统一出故障,排查根因、分析日志、处理告警...
每个环节都费时费力,想用 AI 来提效却不知道从哪开始毫无头绪。
GitHub 上 awesome-LLM-AIOps 这个项目,把大模型在运维领域的研究和实践做了系统整理,已收录超 78 篇论文。
并按照运维场景分成了三大板块:故障管理、日志分析和基础设施管理,每个板块下还细分了具体任务方向。
GitHub:-jie-Huang/awesome-LLM-AIOps
故障管理部分最为详尽,从告警聚合、根因定位到故障修复、事后复盘,覆盖了事件处理的完整生命周期。
日志分析则涵盖了日志解析、异常检测等方向。每篇论文都标注了使用的技术手段和研究任务,方便快速筛选。
适合正在探索用大模型提升运维效率,或者在做相关方向研究的开发者。
