Open Source Data Labeling | Label Studio

3个月前发布 77 00

A flexible data labeling tool for all data types. Prepare training data for computer vision, natural language processing, speech, voice, and video models.

所在地:
中国
语言:
zh
收录时间:
2025-10-06
其他站点:
Open Source Data Labeling | Label StudioOpen Source Data Labeling | Label Studio

Label Studio 是一个开源的数据标注平台,主要用于微调大语言模型、准备训练数据或评估 AI 模型。以下是其核心功能与特色的详细介绍:

1. 支持多类型数据标注
平台覆盖多种数据类型,满足不同场景需求:
GenAI:用于大语言模型的监督微调、响应 moderation、分级、sidebyside 比较,以及 RAG 评估(结合 Ragas 分数与人工反馈)。
图像:支持图像分类、目标检测(框选、多边形、圆形、关键点)、语义分割(用 ML 模型预标注优化流程)。
音频与语音:涵盖音频分类、说话人分离(按说话人分割音频流)、情感识别、音频转录。
文本与文档:包括文本分类(支持万级分类体系)、命名实体提取(抽取预定义类别信息)、问答、情感分析(判断正负中性)。
时间序列(机器人/传感器/IoT):支持时间序列分类、分割(识别与活动类型相关的区域)、事件识别(标注时间序列中的单事件)。
多领域:如对话处理(同时转录并处理呼叫中心录音文本)、OCR(图像与文本联动)、带参考的时间序列(用视频/音频辅助分割时间序列)。
视频:支持视频分类、目标跟踪(逐帧标注多目标)、辅助标注(添加关键帧后自动插值边界框)。

2. 核心功能亮点
灵活配置:可自定义布局与模板,适配不同数据集与工作流。
pipeline 集成:通过 Webhooks、Python SDK 和 API 实现认证、项目创建、任务导入、模型预测管理等操作,无缝对接现有 ML/AI 流程。
ML 辅助标注:结合模型预测结果加速标注,减少人工工作量。
云存储连接:直接对接 S3、GCP 等云对象存储,无需迁移数据即可标注。
数据管理:通过数据管理器的高级滤镜,快速筛选、整理数据集。
多项目与用户支持:同一平台可处理多个项目、多类用例与数据类型。

3. 安装与启动方式
提供四种便捷安装途径:
PIP:在 Python 虚拟环境中执行 `pip install U labelstudio`,然后运行 `labelstudio` 启动。
Brew:通过 `brew install humansignal/tap/labelstudio` 安装,再用 `labelstudio` 启动。
Git:克隆仓库 `git clone https://github.com/HumanSignal/labelstudio.git`,进入目录后用 Poetry 安装依赖并启动。
Docker:运行 `docker run it p 8080:8080 v `pwd`/mydata:/labelstudio/data heartexlabs/labelstudio:latest`,访问 `http://localhost:8080/` 使用。

4. 社区与企业支持
社区版:开源免费,适合个人与小团队使用。
企业版:提供更进阶的平台功能与服务(如专属支持、高级集成),可通过官网比较版本差异。
社区生态:拥有 17000+ Slack 成员,GitHub 上有大量贡献者;博客板块定期发布版本更新(如 1.21.0 版本新增像素级标注、自定义热键)、行业洞察(如对抗训练的重要性)、用户案例(如 Legalbenchmarks.ai 用其构建法律 AI 基准)。

5. 信任与客户
平台被 Cloudflare、SPI Global、SRI、NVIDIA、Meta、IBM、Intel 等企业信任,广泛应用于数据标注与模型优化场景。

相关导航

Software overview | KNIME

Software overview | KNIME

Perform analysis at any level of sophistication, from data prep to leveraging AI/ML including LLMs Generate workflows automatically with a genAI assistant and get guidance when you are stuckEliminate repetitive and manual data manipulation with automated workflowsAccess and blend data from any source, whether from your desktop or from any major database or data warehouseExplore your data with interactive data views, choosing from dozens of charts Collaborate on visual workflows, either privately with colleagues or with
昇思MindSpore | 全场景AI框架 | 昇思MindSpore社区

昇思MindSpore | 全场景AI框架 | 昇思MindSpore社区

华为开源自研AI框架MindSpore。自动微分、并行加持,一次训练,可多场景部署。支持端边云全场景的深度学习训练推理框架,主要应用于计算机视觉、自然语言处理等AI领域,面向数据科学家、算法工程师等人群。主要具备基于源码转换的通用自动微分、自动实现分布式并行训练、数据处理、以及图执行引擎等功能特性。借助自动微分,轻松训练神经网络。框架开源,华为培育AI开发生态。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...