S3文件作为对PDFBox的输入是什么样的
来源:爱站网时间:2021-11-17编辑:网友分享
S3文件作为对PDFBox的输入是什么样的?这个问题,傍晚的时候爱站技术小编的同事才问过,这个嘛....小编还是知道的,现在就发出来给大家参考参考吧。
问题描述
我尝试过Apache PDFBox从PDF文件中提取内容,当我仅提取本地PDF时,效果很好。
但是我要解析的实际输入PDF在S3存储桶中。
我可以使用以下代码读取S3对象,
final AmazonS3 s3 = AmazonS3ClientBuilder.standard().withRegion(Regions.US_WEST_2).withCredentials(awsCredentailsService()).build();
S3Object object = s3.getObject(new GetObjectRequest(bucketName, key));
InputStream ins = object.getObjectContent();
但是我无法弄清楚如何将此文件传递给PDFBox以获取内容。 PDFBox load()方法需要一个File对象。我尝试传递上面从S3Object获得的输入流,但是它不接受-编译错误。
PDDocument doc = PDDocument.load(pdfFile);
请帮助。
思路:
只需将inputStream传递给load方法。它有效!
S3Object object = s3.getObject(new GetObjectRequest(s3BucketName, key));
InputStream ins = object.getObjectContent();
PDDocument doc = PDDocument.load(ins);
以上内容就是爱站技术频道小编为大家分享的S3文件作为对PDFBox的输入是什么样的,看完以上分享之后,大家应该都知道是什么样的了吧。