使用GoogleCloudVision和 - Web开发 - Powered by Discuz!NT Archiver

TUhjnbcbe - 2024/5/13 17:19:00

最近，我已经构建了一个Web应用程序来管理用户的个人开支，其主要功能是扫描购物收据并提取数据以供进一步处理。GoogleVisionAPI是一款从照片中获取文字的绝佳工具，在本文中，我将使用Python指导完成开发过程。

从未听说过GoogleCloudVision？

它是一种API，允许开发人员通过提取的数据分析图像的内容。为此，Google利用在大型图像数据集上训练的机器学习模型，所有这些都可以通过单个API请求获得，API背后的引擎对图像进行分类，检测对象，人脸，并识别图像中的打印文字。

举个例子，让我们来介绍一下国外很受欢迎的Giphy。他们采用了API从GIF中提取字幕数据，从而显着改善了用户体验。

如何开始使用GoogleCloud

首先注册GoogleCloud，目前中国可以使用邮箱注册，然后根据提示获取秘钥。但是如果要更好体验需要代理服务器，之后就可以使用丰富的API功能。

如何将GOOGLECLOUDVISION与PYTHON结合使用

首先，让我们从库中导入类。

fromgoogle.cloudimportvision

fromgoogle.cloud.visionimporttypes

如果需要处理，现在需要一个客户端实例，将使用文本识别功能。

client=vision.ImageAnnotatorClient()

如果不将凭据存储在环境变量中，则可以在此阶段将其直接添加到客户端。

client=vision.ImageAnnotatorClient.from_service_account_file(/path/to/apikey.json)

假设将要处理的图像存储在项目目录中的文件夹“images”中，让我们打开其中一个。

image_to_open=images/receipt.jpgwithopen(image_to_open,rb)asimage_file:content=image_file.read()

下一步是创建一个Vision对象，它允许您发送请求以继续进行文本识别。

image=vision.types.Image(content=content)text_response=client.text_detection(image=image)

基本步骤就差不多，看起来很复杂，但是真正上手之后就会发现功能强大且使用简单。

可以从GoogleCloudVision获得什么？

正如上面提到的，GoogleCloudVision不仅可以识别文本，还可以让发现人脸，地标，图像属性和网络连接。其实GoogleCloudVision还可以让我们找出关于图像的Web关联的内容。

应用GoogleCloudVision服务是无穷无尽。使用Python库，可以在任何基于语言的项目中使用它，无论是Web应用程序还是科学项目，它当然可以帮助我们对机器学习技术产生更深的兴趣。

Google文档提供了一些有关如何在实践中应用VisionAPI功能的好主意，并让我们可以了解有关机器学习的更多信息。特别建议查看有关如何构建高级图像搜索应用程序的指南。