MarkItDownをDockerHubにパブリッシュした
Microsoftが公開している,様々なドキュメントをMarkdownに変換できるツールMarkItDownについて, Dockerには対応しているのですがDocerHubにはまだ公式リポジトリがないようだったので,自分のリポジトリで公開しました.
使い方
Dockerイメージの指定以外は公式のREADMEと同じですが,次のように使います.
docker run --rm -i ottijp/markitdown:latest < ~/your-file.pdf > output.md
Dockerイメージのビルド用GitHub Actionsワークフローの追加
以前の書いた記事のワークフローファイルを転用し,以下のように作成しました.
cf. GitHub ActionsでマルチプラットフォームのDockerイメージをビルドしてDockerHubにプッシュするワークフロー | ottijp blog
.github/workflows/publish-docker.yml
name: Publish to DockerHub
on:
push:
tags:
- '*'
jobs:
publish:
runs-on: ubuntu-latest
steps:
- name: Checkout code
uses: actions/checkout@v4
- name: Log in to Docker Hub
uses: docker/login-action@v3
with:
username: ${{ vars.DOCKERHUB_USERNAME }}
password: ${{ secrets.DOCKERHUB_TOKEN }}
- name: Extract metadata (tags, labels) for Docker
id: meta
uses: docker/metadata-action@v5
with:
images: ottijp/markitdown
- name: Set up QEMU
uses: docker/setup-qemu-action@v3
- name: Set up Docker Buildx
uses: docker/setup-buildx-action@v3
- name: Build and push Docker image
id: push
uses: docker/build-push-action@v6
with:
push: true
platforms: linux/amd64,linux/arm64
tags: ${{ steps.meta.outputs.tags }}
labels: ${{ steps.meta.outputs.labels }}
パブリッシュされたDockerHubリポジトリ
こちらで参照可能です.
ottijp/markitdown - Docker Image | Docker Hub
MarkItDownの感触
既存のドキュメントのMarkdown化に使えるかなーと思って,いくつかのファイルで試してみました.テキスト抽出にはよいのですが,Markdown化されたかというとちょっと微妙な感じでした. ただ,まだ出たばかり(v0.0.1a3 プレリリース)なので,これからに期待してます!