人工智能如何识别复杂的图片或者文字？

永辉机电 · 发表于 2023-8-14 09:12:02

本人ai小白，方才入坑，做过一些简单数字识别，有个问题一直猜疑着我，人工智能是如安在一个复杂图片中识别一个文字或者图片的，比如我的模型颠末对一堆28✖️28的数字进行cnn训练可以识别简单的数字，如果我的测试输入图片中仅仅在一个角落里包含某个数字，这时我的模型的准确率就非常低了，这个问题出在哪里？是我的模型太过单一还是在输入之前要对图片做措置？我相信答案不是后者，到前者貌似也不合理，会发生过拟合吧。
网上并没有找到答案，哪位大神可以帮我解答一下，不胜感激！

蔡海中 · 发表于 2023-8-14 09:12:28

视频介绍了如何通过岭纬科技云端将图像进行标注与识别，以及展示标注和识别的实时效果。
1. 上传图片
2. 开始标注
3. 标注结果（类别、数量）
4. 保存/分享（图片、Json文件）
看看对你是否有帮助？

isyi.com · 发表于 2023-8-14 09:12:38

该软件利用人工智能帮助大屠杀后代发现他们亲人的图像

图片来源:Owen Franken Via Getty Images

在《以色列时报》(The Times of Israel)最初报道的一篇报道中，纽约的一名软件工程师创建并开发了一种人工智能，可以扫描数十万张照片，帮助识别大屠杀的受害者和幸存者。
“从数字到名字”(N2N)是一个人工智能面部识别平台，可以扫描战前欧洲和大屠杀(如1914-1945年)的照片，将它们与今天生活的人联系起来。Daniel Patt是一名40岁的软件工程师，现在为谷歌工作。根据这篇文章，他利用自己的空闲时间开发这个项目，但越来越多的工程师、研究人员和数据科学家也加入了他的团队。
据美国大屠杀纪念博物馆(USHMM)网站介绍，没有确定大屠杀受害者和幸存者的单一名单，寻找个人故事的研究是一个漫长的过程，需要遵循极少信息的线索。然而，博物馆为幸存者和受害者的家属提供了现场寻求信息和文件的各种方式。
据《以色列时报》报道，帕特创造人工智能的灵感来自于2016年参观华沙的波兰犹太人历史博物馆。帕特一直担心自己可能会在不知情的情况下走过亲人的脸，于是他发明了N2N，这样他就可以帮助家人和其他人找到被谋杀的亲人的照片。
据《以色列时报》报道，N2N的工作原理是通过扫描USHMM提供的数十万张照片，以及幸存者及其后代的照片。然而，该软件并不完美，它只返回在可用数据库中找到的10个最佳潜在匹配。
对于想要使用该网站的人来说，他们所要做的就是上传一张大约在同一时期的照片。帕特说，他的团队没有对识别的准确性做出基于软件的断言，把判断留给使用网站的人。帕特在接受《以色列时报》采访时说:“我们只是展示结果，用相似度评分，然后让个人决定结果是否包含积极的认同。”
除了网站上现有的照片和视频，帕特告诉《以色列时报》，他正在努力获得另外70万张大屠杀前和大屠杀时代的照片。
帕特在采访中说:“展望未来，我们希望N2N成为大屠杀教育的载体，让学生有机会直接为历史记录做出贡献。”“学生们可以使用该软件来帮助识别照片和视频档案中的面孔和文物，并可能发现活着的大屠杀后代和他们的祖先之间的新联系。”
帕特说，该非营利组织一直与美国大屠杀纪念馆保持非正式联系，但他希望在未来与“博物馆、学校、研究机构和其他在大屠杀教育、意识等方面有共同目标的组织”合作。
帕特在接受《以色列时报》采访时表示:“几个月来，我们一直在利用晚上和周末的时间开发这个项目。”“随着最后一名幸存者的离去，这一努力迫在眉睫，还有许多联系可以建立。我们希望N2N能在幸存者还和我们在一起的时候帮助建立这些联系。”

jtaken · 发表于 2023-8-14 09:13:00

图片来源于中国图像图形学学会CSIG公众号

去年12月，中国图象图形学学会（CSIG）公布了2021年度自然科学奖、技术发明奖、科技进步奖评选结果。其中，合合信息牵头与华南理工大学共同完成的“复杂场景文档图像识别与理解关键技术及应用”荣获2021年度中国图象图形学学会科技进步奖二等奖。据悉，此次成果奖项评选需满足三方面条件，包括技术创新性突出，经济效益或者社会效益显著和推动行业科技进步作用明显。基于这个情况我们了解一下奖项背后的团队与技术研发情况。
1、获奖团队介绍：

本项目由上海合合信息科技股份有限公司牵头，依托于上海市领军人才培养计划和合合信息-华南理工大学文档图像分析识别与理解联合式实验室，共同开展面向复杂多场景文字识别理解及应用的研究工作，多维度来研究解决文档图像的文字识别智能感知与结构化认知理解问题。
项目第一完成人是上海市领军人才，合合信息董事长镇立新博士。镇立新博士主要负责整体策划了项目的研究总体框架、产品技术方案及技术路线，确立了整个项目的研发和应用方向，主持了整个项目的研发和市场应用拓展。第二完成人是华南理工大学金连文教授，金连文教授主要负责参与了项目总体技术创新路线的整体方案规划及学术理论研究，提出了深度学习场景文字检测与识别、无约束手写体文字识别等新方法。
项目其他完成人均为合合信息的核心研发人员和华南理工大学教授，他们在文档图像识别与理解、计算机视觉、人工智能领域均有着十多年的研发经验,，有较为专业的行业理解与技术成果，全部完成人简介如下：

姓名	文化程度	所学专业	工作单位	对成果的创造性贡献
镇立新	博士	模式识别	上海合合信息科技股份有限公司	整体策划了项目的研究总体框架、产品技术方案及技术路线，参与研究了多场景手写及文字识别新方法、文本图像去噪增强方法，参与设计及研发了名片全能王、扫描全能王等产品。
金连文	博士	计算机视觉	华南理工大学	参与了项目总体技术创新路线的整体方案规划及学术理论研究，提出了深度学习场景文字检测与识别、无约束手写体文字识别等新方法。
罗希平	博士	计算机科学	上海合合信息科技股份有限公司	从0到1的实现了整套名片识别和OCR识别算法，该算法实现了一种速度快，内存需求小，准确率高的多语种OCR算法。该算法在项目中作为底层核心识别技术之一得到了广泛应用。
龙腾	博士	模式识别	上海合合信息科技股份有限公司	研发了基于手机移动端摄像头的扫描图像色彩还原与增强技术、基于手机移动端摄像头的文档检测定位与三维空间矫正技术、新一代基于深度学习场景文字识别的先进文字识别技术。
陈青山	硕士	计算机科学	上海合合信息科技股份有限公司	1、OCR移动端算法及工程化 2、移动App（名片全能王，扫描全能王）多平台开发及产品化、运营推广工作 3、手机厂商OCR技术授权及集成化工作对“名片全能王，扫描全能王、证照票据OCR 引擎”等产品的设计、实现及运营推广做出了重大贡献。
丁凯	博士	人工智能	上海合合信息科技股份有限公司	独立并带领团队研发核心底层OCR算法技术。作为核心研发人员研发了手写识别、名片识别，证照识别和通用文本识别等核心算法，并作为核心技术应用到多项产品和业务中。
郭丰俊	博士	计算机视觉	上海合合信息科技股份有限公司	1、实现第一代高精度手机版银行卡识别，被三星电子应用于其支付系统，并被其他厂商广泛使用； 2、结合深度学习与经典图像处理／模式识别算法，实现了业界领先水平的表格检测与识别系统。
高学	博士	模式识别	华南理工大学	提出了多项OCR识别理论新方法，包括基于卷积神经网络的相似手写汉字识别方法、基于局部线性分析的手写汉字特征降维与优化方法、基于OCR的票据自动识别与处理方法。
薛洋	博士	信号与信息处理	华南理工大学	参与了基于深度学习的场景文字检测与识别、无约束手写体文字识别等学术理论的研究及算法研究。
张彬	硕士	计算机视觉	上海合合信息科技股份有限公司	开发名片全能王 iOS版；参与扫描全能王开发；OCR深度学习私有化训练平台；负责公司主要产品票据机器人和证件机器人研发，大幅提升了复杂票据和证件的识别率。

2、项目介绍：

复杂多场景文档图像识别与理解关键技术及应用是基于新一代人工智能基础理论及核心技术，开展面向复杂多场景文字识别及理解的研究工作，多维度来研究解决文档图像的文字识别智能感知与结构化认知理解问题。针对OCR关键共性技术问题，从复杂场景文档图像智能处理、复杂场景文字检测、文复杂场景字识别理论与技术、文档结构化理解等方面开展OCR关键共性核心技术研究，来解决复杂场景下新一代文字识别中得到“看不清、看不准、认不全、难理解”等四个方面的关键技术问题。项目组提出了多项文档识别与理解新方法，构建了面向复杂多场景文档图像OCR的技术方法体系，取得了具有自主知识产权的创造性科技成果，为智慧金融、智慧办公、智慧城市、智能制造、电子商务等多应用场景的数字化转型升级提供关键核心技术支撑及产品解决方案。
项目研发过程中产生了相关核心技术累计获得发明专利授权82项（其中国际专利授权26项），获得计算机软件著作权30项，发表代表性学术论文20余篇。近三年获得国际权威学术竞赛冠军12次。相关核心技术应用在合合信息旗下产品扫描全能王、名片全能王产品，产品覆盖了全球百余个国家和地区的亿级用户，全球用户累计首次下载量合计超过6亿。
3、在科研过程中，有没有什么好的方法可以推荐给大家？

本项目的一个显著特点就是既需要基础理论的创新和突破，也需要与实际用户需求和业务场景相契合的技术突破，最终形成自主知识产权的核心技术和规模化的产业应用。
在基础理论创新方面，一方面合合信息自身拥有一个由上海市领军人才镇立新博士领衔底层技术研发团队，专注于底层理论技术的创新和突破，同时为了进一步提升基础理论水平，合合信息与华南理工大学金连文教授合作，共同成立了合合信息-华南理工大学文档图像分析识别与理解联合实验室，充分利用顶尖高效的科研力量，提升基础理论水平，为后续的技术创新和突破提供理论基础。
在技术创新和落地方面，注重对用户需求和业务场景的理解，思考如何通过技术突破来解决实际用户和业务场景下的问题。例如我们的扫描全能王，名片全能王，“票据机器人”、“证照机器人”、“财报机器人”等多个产品都是基于用户面临的拍照环境多样导致文档图像形变、背景干扰、书写风格多样、文字方向多样等实际的问题，通过技术创新，提出了多项文档识别与理解新技术，解决了用户的痛点和问题，从而产生了多项科技应用成果。相关核心技术累计获得发明专利授权82项（其中国际专利授权26项），获得计算机软件著作权30项，发表代表性学术论文20余篇。近三年获得国际权威学术竞赛冠军12次。同时该技术创新也获得了各行各业的认可，银行、证券、保险、政府、物流、制造、地产、零售等近30个行业的众多头部客户与合合信息开展合作，采购相关技术应用，帮助企业实现数字化与智能化的转型升级。
4、在项目的研究过程中有遇到什么困难吗？是如何解决的？

项目研究中的主要困难在于两个方面，一个是如何在基础理论创新上取得突破，一个是实际用户需求和业务场景的及其复杂多样，如何通过技术突破满足甚至超越用户预期。
我们知道，基础理论创新是一件非常困难的事情，可能面临长时间无法取得成果和突破。针对这个难题，我们一方面基于公司对文档图像识别与理解领域内的深刻理解以及对该领域前沿技术的持续跟进，同时通过联合实验室和这个领域内顶尖的高校教授一起研究探索，把握好基础理论创新的大方向，确保理论创新始终在正确的方向上。其次就是坚持长期主义，合合信息从创立开始就一直保留着一个底层理论技术研发团队，同时2010年就和华南理工大学签署战略合作协议，再理论创新领域持续长期投入，最终形成了20多篇高水平论文和超过80项的核心技术专利。
第二个困难就是用户需求和业务场景的极度复杂，在核心技术研发上，需要面对文档图像背景干扰，图像形变，字体风格多样，文字重叠，书写潦草，类型和版式多样等各种难题；再数据上，我们需要支持50多种语言，却缺乏相关语言的各种类型的文档图像数据进行训练；在应用上，会面临不同终端硬件环境，操作系统平台，型号差异造成的影响。针对这样的问题，我们首先是深刻的理解用户需求和场景，找到背后的核心问题，然后针对核心问题进行技术攻关，通过长期持续的技术创新解决一个个用户需求和实际场景中的关键问题，最终形成了像“扫描全能王”，“名片全能王”这一类深受用户欢迎的产品和服务。

目前合合信息的技术服务已经覆盖了银行、证券、保险、物流、制造等行业的众多客户，欢迎大家登录到TextIn - MobileSDK 进行申请使用。

753a · 发表于 2023-8-14 09:13:19

一款好用的OCR识别软件从图片中批量识别文字从视频中批量提取字幕支持十几种语言，准确率几乎为100%

李小姐李 · 发表于 2023-8-14 09:13:35

我认为：在输入前对图片处理是必须的。即便是人眼也会对进入大脑的图像进行前期处理的。

		自动登录	找回密码
密码			立即注册

人工智能如何识别复杂的图片或者文字？

本帖子中包含更多资源

本帖子中包含更多资源