DagsHub

DagsHub(ダグスハブ)は、データ、コード、モデル、実験結果を一つのプラットフォームで管理し、チームと一緒にコラボレーションできるように設計された機械学習コラボレーションツールです。

5.0
Preview Image
リリース日
2020年
月間訪問者数
73.6万
開発国
アメリカ
プラットフォーム
ウェブ
言語
英語

キーワード

  • DagsHub
  • データサイエンスプラットフォーム
  • DVC
  • Git統合
  • 実験追跡
  • MLops
  • データバージョン管理
  • マルチモーダルアノテーション
  • モデルレジストリ
  • Jupyterノートブック比較
  • コラボレーションプラットフォーム
  • オープンソース統合
  • ラベリングの自動化
  • 実験の再現性
  • エンタープライズMLOps

プラットフォームの説明

DagsHub(ダグスハブ)は、AIモデル開発に必要なコード、データ、モデル、実験記録を一箇所で効率的に管理し、コラボレーションできるプラットフォームです。GitとDVC(Data Version Control(DVC)を基盤に作られたため、ソフトウェア開発者が使用する方法でデータサイエンスプロジェクトを体系的にバージョン管理することができます。複雑なデータパイプラインを扱う場合でも、実験結果を一貫して再現することができ、チームメンバー間の変更点やモデルの性能差を透明に比較・共有することができます。 DagsHubは、Jupyterノートブック、実験比較ダッシュボード、マルチモーダルデータアノテーション機能、そしてMLflow、Jenkins、Label Studioなどのオープンソースツールとの統合機能を備えており、MLOps(機械学習運用)ワークフロー全体を自動化するのに適しています。実験結果に注釈を付けたり、共同作業者がデータセットにラベルを付けたり、モデルのパフォーマンスをチームメンバーと視覚的に比較するなど、実際のAI開発過程で必要な機能がWebインターフェースに自然に溶け込んでいます。 何よりも、GitHubのようにオープンソースプロジェクトは誰でも無料で利用でき、個人ユーザーもプライベートリポジトリで最大100個の実験を実行することができます。企業向けプランでは、コラボレーション人数、ストレージ容量、SSOログイン、オンプレミスのインストールなど、実務環境に合わせたセキュリティと拡張性も提供しています。そのため、研究チームからスタートアップ、エンタープライズまで、様々な規模の組織で実際に運用可能なAIコラボレーション環境を構築するのに適したプラットフォームです。

コア機能

  • コード・データ・モデル統合バージョン管理

    Git + DVCにより、ML資産全体の一貫した追跡が可能

  • 実験追跡・比較ダッシュボード

    MLflowベースの実験記録と数値・パラメータの比較

  • ノートパソコンのバージョンと変更点の比較

    Jupyterノートブックdiffと履歴管理をサポート

  • マルチモーダルアノテーションと自動ラベリング

    画像、音声、テキストデータ注釈機能内蔵

  • モデルレジストリ管理

    学習されたモデルの保存と配布履歴の管理

  • CI/CD 統合

    Git/Jenkins/MLflow連動で実験の再実行とパイプラインの自動化

  • 公開/非公開リポジトリ管理

    公開プロジェクトは無制限、非公開実験は100個まで無料サポート

  • 組織用オンプレインストールとSSOをサポート

    大規模企業向けのセキュリティと認証機能を提供

活用事例

  • データバージョン管理
  • コードバージョン管理
  • 実験追跡
  • Jupyterノートパソコンの比較
  • マルチモーダルデータアノテーション
  • モデルレジストリ
  • DVC統合
  • MLflow統合
  • データパイプラインの自動化
  • オンプレミス設置
  • チームコラボレーション
  • 公開プロジェクトホスティング
  • 実験再現性
  • Gitサポート
  • ラベル貼付の自動化
  • ダッシュボード比較

使用方法

1

プロジェクト作成

2

ローカルGit+DVCの初期化

3

実験トラッキングの確認と比較

4

データセットアノテーション-コードレビュー

料金プラン

プラン別月額料金と主な特徴
プラン 価格 主な特徴
Individual $0 • 無制限の公開ストレージ(無制限のコラボレーターが可能)
• 非商用利用に限り、無制限のプライベートリポジトリ
• 公開リポジトリの実験追跡は無制限
• プライベートリポジトリで最大100個の実験を追跡
• プライベートプロジェクトに最大2人の共同作業者
• 20GBのDagsHubリポジトリ
• データのバージョン管理と追跡
• パブリックリポジトリのアノテーションワークスペース
• ノートブックのバージョン管理と比較
• CI/CD/CT統合
• インタラクティブなパイプライン
• コミュニティサポート
Team $119(月) • Individualプランのすべての機能を含む
• 無制限のプライベートストレージ
• マルチモーダルアノテーションと自動ラベリング機能
• ユーザーストレージ接続機能
• Label Studio対応
• チームRBAC(ロールベースアクセスコントロール)
• 優先順位技術サポート
• 最大1TBのデータまたは200万個のファイルを保存可能
Enterprise 問い合わせ • Teamプランの全機能を含む
• ペタバイト級のデータ管理
• クラスタに直接モデルをデプロイ
• VPCまたはAir-gappedオンプレミスのインストール
• SSO/LDAP/OIDCに基づくRBAC
• OpenShift対応
• 組織リソースの制御
• SLAを含むエンタープライズレベルのサポート

よくあるご質問

  • DagsHubは、データサイエンティストと機械学習エンジニアのためのコラボレーション中心のウェブプラットフォームで、コード・データ・モデル・実験結果を統合し、バージョン管理と視覚的なコラボレーションを可能にします。
  • Gitは大容量ファイルのバージョン管理に脆弱で、データパイプラインの変更を追跡することができません。DagsHubはGitとDVCをベースに大規模なデータとモデルも効率的にバージョン管理し、パイプラインの変更を検知して必要な作業だけを自動的に更新します。
  • はい。GitHubと同じようにリポジトリ管理、PR(プルリクエスト)、課題追跡が可能で、GitHubリポジトリと連動して双方向同期もできます。
  • Gitはそのまま使用し、DVCはGitと似たコマンド体系を使用します。既存のGitユーザーなら簡単に適応することができ、DagsHubは視覚化ツールを提供し、CLIに慣れていないユーザーも使用することができます。
  • いいえ、DagsHubは完全に言語やライブラリに依存しません。Python、R、PyTorch、TensorFlow、Kerasなど、どのツールを使っても互換性があります。
  • 可能です。GitHubのリポジトリをDagsHubと接続すると、GitHubのプッシュイベントに応じて自動的に同期され、PRや課題も双方向で確認することができ、二つのプラットフォームを並行して使用することができます。
  • DagsHubのチュートリアルを通じて簡単に始めることができ、GitとDVCをインストールした後、プロジェクトを接続するだけです。
  • オープンソースプロジェクトは完全に無料です。個人リポジトリも2人の協力者を含めて無料で提供され、より多くの機能や人数が必要な場合は有料プランが用意されています。詳しくは料金プランのページをご覧ください。
  • はい、DagsHubは企業向けのセキュリティオプションも提供しています。独自のストレージを利用したり、外部ストレージと連携したり、オンプレミスで完全な社内インフラにインストールすることもできます。
DagsHub のレーティングを選択してください。