[Golang] Read Plain Texts in PDF Files

I read the thread about extracting text from PDF on Reddit. [1] It's interesting and I made some searches [2] and decided to try github.com/ledongthuc/pdf package. The following code comes from modification of sample code of the package.

readpdftext.go | repository | view raw

package readpdftext

import (
	"bytes"

	"github.com/ledongthuc/pdf"
)

func ReadPlainTextFromPDF(pdfpath string) (text string, err error) {
	f, r, err := pdf.Open(pdfpath)
	defer f.Close()
	if err != nil {
		return
	}

	var buf bytes.Buffer
	b, err := r.GetPlainText()
	if err != nil {
		return
	}

	buf.ReadFrom(b)
	text = buf.String()
	return
}

Usage

readpdftext_test.go | repository | view raw

package readpdftext

import (
	"fmt"
)

func ExampleReadPlainTextFromPDF() {
	content, err := ReadPlainTextFromPDF("test.pdf")
	if err != nil {
		panic(err)
	}

	fmt.Println(content)
}

Tested on: Ubuntu Linux 18.04, Go 1.11

References

[1]	Best text extractor from PDFs without OCR : golang

[2]	go - Extract words from PDF with golang? - Stack Overflow go - How to extract plain text from PDF in golang - Stack Overflow

[3]	GitHub - ledongthuc/pdf: PDF reader

[4]	Gotenberg v3: a Docker-powered stateless API written in Go for converting HTML, Markdown and Office documents to PDF : golang