最近,我已经构建了一个Web应用程序来管理用户的个人开支,其主要功能是扫描购物收据并提取数据以供进一步处理。GoogleVisionAPI是一款从照片中获取文字的绝佳工具,在本文中,我将使用Python指导完成开发过程。
从未听说过GoogleCloudVision?
它是一种API,允许开发人员通过提取的数据分析图像的内容。为此,Google利用在大型图像数据集上训练的机器学习模型,所有这些都可以通过单个API请求获得,API背后的引擎对图像进行分类,检测对象,人脸,并识别图像中的打印文字。
举个例子,让我们来介绍一下国外很受欢迎的Giphy。他们采用了API从GIF中提取字幕数据,从而显着改善了用户体验。
如何开始使用GoogleCloud
首先注册GoogleCloud,目前中国可以使用邮箱注册,然后根据提示获取秘钥。但是如果要更好体验需要代理服务器,之后就可以使用丰富的API功能。
如何将GOOGLECLOUDVISION与PYTHON结合使用
首先,让我们从库中导入类。
fromgoogle.cloudimportvision
fromgoogle.cloud.visionimporttypes
如果需要处理,现在需要一个客户端实例,将使用文本识别功能。
client=vision.ImageAnnotatorClient()
如果不将凭据存储在环境变量中,则可以在此阶段将其直接添加到客户端。
client=vision.ImageAnnotatorClient.from_service_account_file(/path/to/apikey.json)
假设将要处理的图像存储在项目目录中的文件夹“images”中,让我们打开其中一个。
image_to_open=images/receipt.jpgwithopen(image_to_open,rb)asimage_file:content=image_file.read()
下一步是创建一个Vision对象,它允许您发送请求以继续进行文本识别。
image=vision.types.Image(content=content)text_response=client.text_detection(image=image)
基本步骤就差不多,看起来很复杂,但是真正上手之后就会发现功能强大且使用简单。
可以从GoogleCloudVision获得什么?
正如上面提到的,GoogleCloudVision不仅可以识别文本,还可以让发现人脸,地标,图像属性和网络连接。其实GoogleCloudVision还可以让我们找出关于图像的Web关联的内容。
应用GoogleCloudVision服务是无穷无尽。使用Python库,可以在任何基于语言的项目中使用它,无论是Web应用程序还是科学项目,它当然可以帮助我们对机器学习技术产生更深的兴趣。
Google文档提供了一些有关如何在实践中应用VisionAPI功能的好主意,并让我们可以了解有关机器学习的更多信息。特别建议查看有关如何构建高级图像搜索应用程序的指南。