ottijp blog

MarkItDownをDockerHubにパブリッシュした

  • 2024-12-25

Microsoftが公開している,様々なドキュメントをMarkdownに変換できるツールMarkItDownについて, Dockerには対応しているのですがDocerHubにはまだ公式リポジトリがないようだったので,自分のリポジトリで公開しました.

使い方

Dockerイメージの指定以外は公式のREADMEと同じですが,次のように使います.

docker run --rm -i ottijp/markitdown:latest < ~/your-file.pdf > output.md

Dockerイメージのビルド用GitHub Actionsワークフローの追加

以前の書いた記事のワークフローファイルを転用し,以下のように作成しました.

cf. GitHub ActionsでマルチプラットフォームのDockerイメージをビルドしてDockerHubにプッシュするワークフロー | ottijp blog

.github/workflows/publish-docker.yml
name: Publish to DockerHub

on:
  push:
    tags:
      - '*'

jobs:
  publish:
    runs-on: ubuntu-latest
    steps:
      - name: Checkout code
        uses: actions/checkout@v4

      - name: Log in to Docker Hub
        uses: docker/login-action@v3
        with:
          username: ${{ vars.DOCKERHUB_USERNAME }}
          password: ${{ secrets.DOCKERHUB_TOKEN }}

      - name: Extract metadata (tags, labels) for Docker
        id: meta
        uses: docker/metadata-action@v5
        with:
          images: ottijp/markitdown

      - name: Set up QEMU
        uses: docker/setup-qemu-action@v3

      - name: Set up Docker Buildx
        uses: docker/setup-buildx-action@v3

      - name: Build and push Docker image
        id: push
        uses: docker/build-push-action@v6
        with:
          push: true
          platforms: linux/amd64,linux/arm64
          tags: ${{ steps.meta.outputs.tags }}
          labels: ${{ steps.meta.outputs.labels }}

パブリッシュされたDockerHubリポジトリ

こちらで参照可能です.

ottijp/markitdown - Docker Image | Docker Hub

MarkItDownの感触

既存のドキュメントのMarkdown化に使えるかなーと思って,いくつかのファイルで試してみました.テキスト抽出にはよいのですが,Markdown化されたかというとちょっと微妙な感じでした. ただ,まだ出たばかり(v0.0.1a3 プレリリース)なので,これからに期待してます!


ottijp
都内でアプリケーションエンジニアをしています
© 2024, ottijp