인터페이스
각 문서 로더는 고유한 매개변수를 정의할 수 있지만, 공통 API를 공유합니다:.load()– 모든 문서를 한 번에 로드합니다..lazy_load()– 문서를 지연 방식으로 스트리밍하며, 대용량 데이터셋에 유용합니다.
카테고리별
웹페이지
다음 문서 로더를 사용하면 웹페이지를 로드할 수 있습니다.| 문서 로더 | 설명 | 패키지/API |
|---|---|---|
| Web | urllib과 BeautifulSoup을 사용하여 HTML 웹페이지를 로드하고 파싱합니다 | Package |
| Unstructured | Unstructured를 사용하여 웹페이지를 로드하고 파싱합니다 | Package |
| RecursiveURL | 루트 URL에서 모든 하위 링크를 재귀적으로 스크래핑합니다 | Package |
| Sitemap | 주어진 사이트맵의 모든 페이지를 스크래핑합니다 | Package |
| Spider | LLM 준비 데이터를 반환하는 크롤러 및 스크래퍼입니다 | API |
| Firecrawl | 로컬로 배포할 수 있는 API 서비스입니다 | API |
| Docling | Docling을 사용하여 웹페이지를 로드하고 파싱합니다 | Package |
| Hyperbrowser | 헤드리스 브라우저를 실행하고 확장하기 위한 플랫폼으로, 모든 사이트를 스크래핑/크롤링하는 데 사용할 수 있습니다 | API |
| AgentQL | AgentQL 쿼리 또는 자연어 프롬프트를 사용하여 모든 웹페이지에서 웹 상호 작용 및 구조화된 데이터 추출을 수행합니다 | API |
| 문서 로더 | 설명 | 패키지/API |
|---|---|---|
| PyPDF | pypdf를 사용하여 PDF를 로드하고 파싱합니다 | Package |
| Unstructured | Unstructured의 오픈 소스 라이브러리를 사용하여 PDF를 로드합니다 | Package |
| Amazon Textract | AWS API를 사용하여 PDF를 로드합니다 | API |
| MathPix | MathPix를 사용하여 PDF를 로드합니다 | Package |
| PDFPlumber | PDFPlumber를 사용하여 PDF 파일을 로드합니다 | Package |
| PyPDFDirectry | PDF 파일이 있는 디렉토리를 로드합니다 | Package |
| PyPDFium2 | PyPDFium2를 사용하여 PDF 파일을 로드합니다 | Package |
| PyMuPDF | PyMuPDF를 사용하여 PDF 파일을 로드합니다 | Package |
| PyMuPDF4LLM | PyMuPDF4LLM을 사용하여 PDF 콘텐츠를 Markdown으로 로드합니다 | Package |
| PDFMiner | PDFMiner를 사용하여 PDF 파일을 로드합니다 | Package |
| Upstage Document Parse Loader | UpstageDocumentParseLoader를 사용하여 PDF 파일을 로드합니다 | Package |
| Docling | Docling을 사용하여 PDF 파일을 로드합니다 | Package |
| UnDatasIO | UnDatasIO를 사용하여 PDF 파일을 로드합니다 | Package |
| OpenDataLoader PDF | OpenDataLoader PDF를 사용하여 PDF 파일을 로드합니다 | Package |
클라우드 제공업체
다음 문서 로더를 사용하면 선호하는 클라우드 제공업체에서 문서를 로드할 수 있습니다.| 문서 로더 | 설명 | 파트너 패키지 | API 레퍼런스 |
|---|---|---|---|
| AWS S3 Directory | AWS S3 디렉토리에서 문서를 로드합니다 | ❌ | S3DirectoryLoader |
| AWS S3 File | AWS S3 파일에서 문서를 로드합니다 | ❌ | S3FileLoader |
| Azure AI Data | Azure AI 서비스에서 문서를 로드합니다 | ❌ | AzureAIDataLoader |
| Azure Blob Storage | Azure Blob Storage에서 문서를 로드합니다 | ✅ | AzureBlobStorageLoader |
| Dropbox | Dropbox에서 문서를 로드합니다 | ❌ | DropboxLoader |
| Google Cloud Storage Directory | GCS 버킷에서 문서를 로드합니다 | ✅ | GCSDirectoryLoader |
| Google Cloud Storage File | GCS 파일 객체에서 문서를 로드합니다 | ✅ | GCSFileLoader |
| Google Drive | Google Drive에서 문서를 로드합니다(Google Docs만 해당) | ✅ | GoogleDriveLoader |
| Huawei OBS Directory | Huawei Object Storage Service Directory에서 문서를 로드합니다 | ❌ | OBSDirectoryLoader |
| Huawei OBS File | Huawei Object Storage Service File에서 문서를 로드합니다 | ❌ | OBSFileLoader |
| Microsoft OneDrive | Microsoft OneDrive에서 문서를 로드합니다 | ❌ | OneDriveLoader |
| Microsoft SharePoint | Microsoft SharePoint에서 문서를 로드합니다 | ❌ | SharePointLoader |
| Tencent COS Directory | Tencent Cloud Object Storage Directory에서 문서를 로드합니다 | ❌ | TencentCOSDirectoryLoader |
| Tencent COS File | Tencent Cloud Object Storage File에서 문서를 로드합니다 | ❌ | TencentCOSFileLoader |
소셜 플랫폼
다음 문서 로더를 사용하면 다양한 소셜 미디어 플랫폼에서 문서를 로드할 수 있습니다.| 문서 로더 | API 레퍼런스 |
|---|---|
TwitterTweetLoader | |
RedditPostsLoader |
메시징 서비스
다음 문서 로더를 사용하면 다양한 메시징 플랫폼에서 데이터를 로드할 수 있습니다.생산성 도구
다음 문서 로더를 사용하면 일반적으로 사용되는 생산성 도구에서 데이터를 로드할 수 있습니다.일반 파일 유형
다음 문서 로더를 사용하면 일반적인 데이터 형식에서 데이터를 로드할 수 있습니다.| 문서 로더 | 데이터 유형 |
|---|---|
| CSVLoader | CSV 파일 |
| Unstructured | 다양한 파일 유형(https://docs.unstructured.io/platform/supported-file-types 참조) |
| JSONLoader | JSON 파일 |
| BSHTMLLoader | HTML 파일 |
| DoclingLoader | 다양한 파일 유형(https://ds4sd.github.io/docling/ 참조) |
| PolarisAIDataInsightLoader | 다양한 파일 유형(https://datainsight.polarisoffice.com/documentation?docType=doc_extract 참조) |