If so you can download any of the below versions for testing. The product will function as normal except for an evaluation limitation. At the time of purchase we provide a license file via email that will allow the product to work in its full capacity. If you would also like an evaluation license to test without any restrictions for 30 days, please follow the directions provided here.
If you experience errors, when you try to download a file, make sure your network policies (enforced by your company or ISP) allow downloading ZIP and/or MSI files.

インストール
パッケージは、availablePyPI にあり、経由でインストールできますpip次のコマンドを実行します。
pip install groupdocs-parser-cloud

要件
依存関係
SDK は次のパッケージを自動的にインストールします。
| パッケージ | 制約 |
|---|
| urllib3 | >= 1.15 |
| six | >= 1.10 |
| certifi | — |
| python-dateutil | — |
ドキュメントの解析とデータ抽出 Python クラウド REST API
GroupDocs.Parser Cloud SDK for Python開発者は、高度なドキュメント解析とデータ抽出を Python Web アプリ、スクリプト、自動化ワークフローに統合できます。 Word、Excel、PDF、プレゼンテーション、電子メール、アーカイブ、電子書籍など、70 を超えるファイル形式からテキスト、画像、メタデータ、構造化データを抽出します。カスタム抽出テンプレートを定義して、請求書、フォーム、ビジネス文書からテキストフィールド、数値、表を抽出します。単一ファイルを解析する場合でも、ZIP アーカイブ、PST/OST メール ストア、PDF ポートフォリオからのコンテナ アイテムを処理する場合でも、GroupDocs.Parser は、クラウドベースのドキュメント インテリジェンスのための正確でスケーラブルなツールを提供します。
テキストの抽出
プレーン テキストの抽出 - ドキュメントから単純な形式でテキスト コンテンツを抽出します。
書式設定されたテキストを抽出 - 元の書式を維持しながらテキストを抽出します。
ページ範囲ごとにテキストを抽出 - 特定のページのみからテキストを抽出します。
コンテナからテキストを抽出 - ZIP アーカイブ、PST/OST ファイル、PDF ポートフォリオ内のドキュメントからテキストを抽出します。
画像の抽出
すべての画像を抽出 - ドキュメント全体からすべての埋め込み画像を抽出します。
ページ範囲に基づいて画像を抽出 - ページ範囲に基づいて特定のページから画像を抽出します。
コンテナから画像を抽出 - コンテナ ファイル内のドキュメントから画像を抽出します。
テンプレートベースの解析
テンプレートによる解析 - 構造化データ抽出のためのユーザー定義のテンプレートを使用してドキュメントを解析します。
テンプレートの作成または更新 - 抽出テンプレートを定義し、クラウド ストレージに保存します。
テンプレートの取得と削除 - ユーザー ストレージに保存されているテンプレートを取得または削除します。
テンプレート オブジェクトによる解析 - API リクエストでテンプレート定義を直接渡します。
ドキュメント情報
ドキュメント情報の取得 - ファイル拡張子、バイト単位のサイズ、およびページ数を取得します。
コンテナ アイテム情報の取得 - ZIP アーカイブ、PDF ポートフォリオ、およびメール ストア内のアイテムを一覧表示します。
サポートされているファイル形式の取得 - サポートされている解析形式の完全なリストを取得します。
ファイル操作
ファイルをクラウドにアップロード - API 経由でファイルをクラウド ストレージにアップロードします。
クラウドからファイルをダウンロード - クラウド ストレージからローカル システムにファイルをダウンロードします。
ファイルのコピー - クラウド ストレージ内のファイルを別の場所にコピーします。
ファイルの移動 - クラウド ストレージ内のフォルダー間でファイルを移動します。
ファイルの削除 - クラウド ストレージから特定のファイルを削除します。
フォルダーの操作
フォルダーの作成 - クラウド ストレージに新しいフォルダーを作成します。
フォルダーのコピー - クラウド ストレージ内でフォルダーを複製します。
フォルダーの移動 - クラウド ストレージ内のディレクトリ間でフォルダーを移動します。
フォルダーの削除 - フォルダー全体をクラウド ストレージから削除します。
ライセンスと認証
評価モード - 無料試用アカウントで API を試してください。
安全な認証 - 安全な API アクセスにはクライアント ID とクライアント シークレットを使用します。
MIT ライセンス - Python SDK は、以下に基づいてライセンスされています。MIT License.
サポートされているドキュメント形式
GroupDocs.Parser Cloud は、テキスト抽出、画像抽出、テンプレートベースの解析機能を備えた 70 以上のファイル形式をサポートしています。
- ワードプロセッサ: DOC、DOCX、DOCM、DOT、DOTX、DOTM、TXT、RTF、ODT、OTT
- PDF: PDF
- マークアップ: HTML、XHTML、MHTML、MD、XML
- 電子書籍: CHM、EPUB、FB2
- スプレッドシート: XLS、XLT、XLSX、XLSM、XLSB、XLTX、XLTM、ODS、OTS、CSV、XLA、XLAM、数値
- プレゼンテーション: PPT、PPS、POT、PPTX、PPTM、POTX、POTM、PPSX、PPSM、ODP、OTP
- 電子メール: PST、OST、EML、EMLX、MSG
- メモ: ONE (Microsoft OneNote)
- アーカイブ: ZIP
サポートされる操作は形式によって異なります。完全な形式マトリックスについては、documentation.
クイックスタート
API 認証情報を取得する
GroupDocs.Parser Cloud を使用するには、次の URL でサインアップしてください。GroupDocs.Cloud Dashboardクライアント ID と クライアント シークレット を取得します。
API を初期化する
GroupDocs.Parser Cloud SDK for Python の使用を開始するには、次のコードを使用します。
import groupdocs_parser_cloud
# Get your ClientId and ClientSecret at https://dashboard.groupdocs.cloud
client_id = "YourClientId"
client_secret = "YourClientSecret"
# Create API configuration
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
# Create instance of the Parse API
parse_api = groupdocs_parser_cloud.ParseApi.from_config(configuration)
ドキュメントからテキストを抽出する
初期化したら、次の基本的な例を使用して、クラウド ストレージ内のドキュメントからテキストを抽出します。
import groupdocs_parser_cloud
client_id = "YourClientId"
client_secret = "YourClientSecret"
parse_api = groupdocs_parser_cloud.ParseApi.from_keys(client_id, client_secret)
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "email/eml/embedded-image-and-attachment.eml"
request = groupdocs_parser_cloud.TextRequest(options)
result = parse_api.text(request)
print("Text: " + result.text)
このクイック スタート ガイドを使用すると、Python アプリケーションで GroupDocs.Parser Cloud を使用してドキュメントの解析を開始する準備が整います。詳細については、次のサイトを参照してください。documentation.
サポートされているファイル形式を取得する
パーサー API を通じて利用できる、サポートされているファイル形式の完全なリストを取得します。
import groupdocs_parser_cloud
info_api = groupdocs_parser_cloud.InfoApi.from_keys("YourClientId", "YourClientSecret")
result = info_api.get_supported_file_formats()
for fmt in result.formats:
print(fmt.file_format)
テンプレートによるドキュメントの解析
クラウド ストレージに保存されているユーザー定義のテンプレートを使用してドキュメントを解析し、構造化フィールドとテーブルを抽出します。
import groupdocs_parser_cloud
parse_api = groupdocs_parser_cloud.ParseApi.from_keys("YourClientId", "YourClientSecret")
options = groupdocs_parser_cloud.ParseOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "words-processing/docx/companies.docx"
options.template_path = "templates/companies.json"
request = groupdocs_parser_cloud.ParseRequest(options)
result = parse_api.parse(request)
for data in result.fields_data:
if data.page_area.page_text_area is not None:
print("Field name: " + data.name + ". Text: " + data.page_area.page_text_area.text)
if data.page_area.page_table_area is not None:
print("Table name: " + data.name)
for cell in data.page_area.page_table_area.page_table_area_cells:
print("Row " + str(cell.row_index) + " column " + str(cell.column_index) + ": " + cell.page_area.page_text_area.text)
ドキュメントから画像を抽出する
ドキュメントからすべての埋め込み画像を抽出し、そのクラウド ストレージ パスとダウンロード URL を取得します。
import groupdocs_parser_cloud
parse_api = groupdocs_parser_cloud.ParseApi.from_keys("YourClientId", "YourClientSecret")
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "slides/three-slides.pptx"
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parse_api.images(request)
for image in result.images:
print("Image path: " + image.path + ". Download url: " + image.download_url)
print("Format: " + image.file_format + ". Page index: " + str(image.page_index))
ドキュメント情報の取得
ページ数やファイルのプロパティなどのドキュメントに関するメタデータを取得します。
import groupdocs_parser_cloud
info_api = groupdocs_parser_cloud.InfoApi.from_keys("YourClientId", "YourClientSecret")
options = groupdocs_parser_cloud.InfoOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "words-processing/docx/password-protected.docx"
options.file_info.password = "password"
request = groupdocs_parser_cloud.GetInfoRequest(options)
result = info_api.get_info(request)
print("Page count: " + str(result.page_count))
コンテナアイテム情報の取得
ZIP アーカイブやメール ストアなどのコンテナ ファイル内のアイテムを一覧表示します。
import groupdocs_parser_cloud
info_api = groupdocs_parser_cloud.InfoApi.from_keys("YourClientId", "YourClientSecret")
options = groupdocs_parser_cloud.ContainerOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "containers/archive/zip.zip"
request = groupdocs_parser_cloud.ContainerRequest(options)
result = info_api.container(request)
for item in result.container_items:
print("Name: " + item.name + ". FilePath: " + item.file_path)
GitHub のサンプル プロジェクト
のGroupDocs.Parser Cloud Python Samplesリポジトリには、以下をカバーするすぐに実行できるサンプルが含まれています。
| カテゴリー | 例 |
|---|
| 情報操作 | サポートされているファイル形式、ドキュメント情報、コンテナアイテム情報 |
| 解析操作 — テキストの抽出 | 文書全体からテキストを抽出、書式設定されたテキスト、ページ範囲ごとのテキスト、コンテナーからテキストを抽出 |
| 解析操作 — 画像の抽出 | ドキュメント全体から画像、ページ範囲ごとに画像、コンテナから画像を抽出 |
| 解析操作 — テンプレートによる解析 | ユーザーストレージ内のテンプレートによる解析、オブジェクトとして定義されたテンプレート、コンテナ内のドキュメントの解析 |
| テンプレートの操作 | テンプレートの作成または更新、テンプレートの取得、テンプレートの削除 |
サンプルの実行方法
- クローンを作成するか、ダウンロードします。samples repository2.編集
RunExamples.pyそしてあなたの設定をapp_sidそしてapp_key3. に移動します。Examplesディレクトリ - 走る
pip install groupdocs-parser-cloud -U5. 実行python RunExamples.py
詳細については、次のサイトをご覧ください。Getting Started.

タグ
Document Data Extraction | Python Cloud API | GroupDocs.Parser Cloud | REST API | Text Extraction | Image Extraction | Template Parsing | Data Parsing | Document Information | Container Files | Cloud Storage Integration | File Operations | Folder Operations | Secure API Access | Document Parsing | Metadata Extraction | PDF Parsing | ZIP Files | PST/OST Files | Cross-platform API | Document Processing | Data Extraction API