OpenDataLoader PDF

안전하고, 오픈되어 있으며, 고성능 — AI를 위한 PDF OpenDataLoader PDF는 PDF를 JSON, Markdown 또는 Html로 변환하여 현대 AI 스택(LLM, 벡터 검색 및 RAG)에 바로 사용할 수 있도록 준비합니다. 문서 레이아웃(제목, 목록, 표, 읽기 순서)을 재구성하여 콘텐츠를 청크하고, 인덱싱하고, 쿼리하기 더 쉽게 만듭니다. 빠르고 휴리스틱한 규칙 기반 추론을 기반으로 하며, 로컬 머신에서 완전히 실행되어 대규모 문서 세트에 대한 높은 처리량 처리를 제공합니다. AI 안전성이 기본적으로 활성화되어 있으며 PDF에 임베디드된 프롬프트 인젝션 콘텐츠 가능성을 자동으로 필터링하여 다운스트림 위험을 줄입니다.

개요

통합 세부 정보

Class	Package	Local	Serializable	JS support
OpenDataLoader PDF	langchain-opendataloader-pdf	✅	❌	❌

로더 기능

Source	Document Lazy Loading	Native Async Support
OpenDataLoaderPDFLoader	✅	❌

OpenDataLoaderPDFLoader 컴포넌트는 PDF를 구조화된 Document 객체로 파싱할 수 있게 해줍니다.

요구 사항

Python >= 3.9
시스템 PATH에서 사용 가능한 Java 11 이상
opendataloader-pdf >= 1.1.1

설치

pip install -U langchain-opendataloader-pdf

빠른 시작

from langchain_opendataloader_pdf import OpenDataLoaderPDFLoader

loader = OpenDataLoaderPDFLoader(
    file_path=["path/to/document.pdf", "path/to/folder"], 
    format="text"
)
documents = loader.load()

for doc in documents:
    print(doc.metadata, doc.page_content[:80])

매개변수

Parameter	Type	Required	Default	Description
`file_path`	`List[str]`	✅ Yes	—	처리할 하나 이상의 PDF 파일 경로 또는 디렉토리입니다.
`format`	`str`	No	`None`	출력 형식(예: `"json"`, `"html"`, `"markdown"`, `"text"`).
`quiet`	`bool`	No	`False`	`True`일 때 CLI 로깅 출력을 억제합니다.
`content_safety_off`	`Optional[List[str]]`	No	`None`	비활성화할 콘텐츠 안전 필터 목록(예: `"all"`, `"hidden-text"`, `"off-page"`, `"tiny"`, `"hidden-ocg"`).

추가 리소스

Edit the source of this page on GitHub.

Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.

Popular Providers

Integrations by component

개요

통합 세부 정보

로더 기능

요구 사항

설치

빠른 시작

매개변수

추가 리소스

Popular Providers

Integrations by component

​개요

​통합 세부 정보

​로더 기능

​요구 사항

​설치

​빠른 시작

​매개변수

​추가 리소스

개요

통합 세부 정보

로더 기능

요구 사항

설치

빠른 시작

매개변수

추가 리소스