Label Studio 是一个开源的数据标注平台,主要用于微调大语言模型、准备训练数据或评估 AI 模型。以下是其核心功能与特色的详细介绍:
1. 支持多类型数据标注
平台覆盖多种数据类型,满足不同场景需求:
GenAI:用于大语言模型的监督微调、响应 moderation、分级、sidebyside 比较,以及 RAG 评估(结合 Ragas 分数与人工反馈)。
图像:支持图像分类、目标检测(框选、多边形、圆形、关键点)、语义分割(用 ML 模型预标注优化流程)。
音频与语音:涵盖音频分类、说话人分离(按说话人分割音频流)、情感识别、音频转录。
文本与文档:包括文本分类(支持万级分类体系)、命名实体提取(抽取预定义类别信息)、问答、情感分析(判断正负中性)。
时间序列(机器人/传感器/IoT):支持时间序列分类、分割(识别与活动类型相关的区域)、事件识别(标注时间序列中的单事件)。
多领域:如对话处理(同时转录并处理呼叫中心录音文本)、OCR(图像与文本联动)、带参考的时间序列(用视频/音频辅助分割时间序列)。
视频:支持视频分类、目标跟踪(逐帧标注多目标)、辅助标注(添加关键帧后自动插值边界框)。
2. 核心功能亮点
灵活配置:可自定义布局与模板,适配不同数据集与工作流。
pipeline 集成:通过 Webhooks、Python SDK 和 API 实现认证、项目创建、任务导入、模型预测管理等操作,无缝对接现有 ML/AI 流程。
ML 辅助标注:结合模型预测结果加速标注,减少人工工作量。
云存储连接:直接对接 S3、GCP 等云对象存储,无需迁移数据即可标注。
数据管理:通过数据管理器的高级滤镜,快速筛选、整理数据集。
多项目与用户支持:同一平台可处理多个项目、多类用例与数据类型。
3. 安装与启动方式
提供四种便捷安装途径:
PIP:在 Python 虚拟环境中执行 `pip install U labelstudio`,然后运行 `labelstudio` 启动。
Brew:通过 `brew install humansignal/tap/labelstudio` 安装,再用 `labelstudio` 启动。
Git:克隆仓库 `git clone https://github.com/HumanSignal/labelstudio.git`,进入目录后用 Poetry 安装依赖并启动。
Docker:运行 `docker run it p 8080:8080 v `pwd`/mydata:/labelstudio/data heartexlabs/labelstudio:latest`,访问 `http://localhost:8080/` 使用。
4. 社区与企业支持
社区版:开源免费,适合个人与小团队使用。
企业版:提供更进阶的平台功能与服务(如专属支持、高级集成),可通过官网比较版本差异。
社区生态:拥有 17000+ Slack 成员,GitHub 上有大量贡献者;博客板块定期发布版本更新(如 1.21.0 版本新增像素级标注、自定义热键)、行业洞察(如对抗训练的重要性)、用户案例(如 Legalbenchmarks.ai 用其构建法律 AI 基准)。
5. 信任与客户
平台被 Cloudflare、SPI Global、SRI、NVIDIA、Meta、IBM、Intel 等企业信任,广泛应用于数据标注与模型优化场景。
