步入AIGC时代，展望人工智能发展

0. 前言

3 月 18 日，由中国图象图形学学会 (

CSIG

) 主办，合合信息、

CSIG

文档图像分析与识别专业委员会联合承办的 “

CSIG 企业行

” 系列活动取得了圆满成功。活动主题为“图文智能处理与多场景应用技术展望”，活动中重点分享了图像文档处理中的结构建模、底层视觉技术、跨媒体数据协同应用、生成式人工智能及对话式大型语言模型等理论研究及实践成果，并就生成式人工智能的发展前景进行了深入探讨。

1. 步入 AIGC 时代

随着

Open AI

发布新一代

AI

聊天机器人

ChatGPT

火遍科技圈，

ChatGPT

成为史上用户增长最快的消费应用，人工智能生成内容(

Artificial Intelligence Generated Content

AIGC

)这一领域开始受到学术界、工业界甚至普通用户的更广泛关注。

AIGC

凭借其独特的“创造力”与人类无法企及的创作生成速度掀起了一股人工智能狂潮，甚至在新闻报道中已经出现了

AI

作品参赛获奖、

AI

画作被拍出上百万的高价。在本节中，我们首先介绍人工智能、

AIGC

及其最新研究进展。

1.1 人工智能简介

人工智能 (

Artificial Intelligence

AI

) 是研究用于模拟和扩展人类智能的理论、方法及应用的一门系统性科学技术，其令计算机根据可用数据执行相应策略而无需以明确的编程方式执行策略，

AI

通过使用计算机程序模拟人类行为从而使机器实现智能。
传统应用程序中，系统是通过使用程序员编写的复杂算法来实现智能化的。在传统的机器学习 (

Machine Learning

ML

) 中，需要机器学习研究人员首先确定需要从图像中提取的特征，然后提取这些特征并将它们作为输入传递给复杂算法，算法解析给定特征以判断图像类别。我们可以将相同的思想扩展到其他领域，例如文本或结构化数据。过去，如果希望通过编程来解决现实世界的任务，就必须了解有关输入数据的所有内容并编写尽可能多的规则来涵盖所有场景。这一过程非常乏味，并且不能保证所有新场景都会遵循已有规则。
而神经网络内含了特征提取的过程，并将这些特征用于分类/回归，几乎不需要手动特征工程，只需要带有标签的数据集和神经网络架构，不需要手动提出规则来对图像进行分类，这减轻了传统机器学习技术强加给程序员的大部分负担。神经网络用于分类任务的流程如下，其训练与测试是端到端的：

人工智能的目标是创造能与人类思维相似的智能机器，或者通过人工智能技术来扩展人类智能从而解决实际问题。在过去几年里，许多人工智能系统取得了突破性进展，已经可以应用于解决各种复杂问题。

1.2 AIGC 简介

目前人工智能模型可以分为两大类别，包括判别模型 (

Discriminative Model

) 与生成模型 (

Generative Model

)。判别模型根据一组输入数据，例如文本、X 射线图像或者游戏画面，经过一系列计算得到相应目标输出结果，例如单词翻译结果、X 光图像的诊断结果或游戏中下一时刻要执行的动作。判别模型可能是我们最熟悉的一类

AI

模型，其目的是在一组输入变量和目标输出之间创建映射。
而生成模型，并不会不会对输入变量计算分数或标签，而是通过学习输入和输出之间的关系生成新的数据样本，这类模型可以接受与实际值无关的向量(甚至是随机向量)，生成复杂输出，例如文本、音乐或图像。人工智能生成内容(

Artificial Intelligence Generated Content

AIGC

) 泛指指利用机器学习和自然语言处理技术，让计算机生成人类可理解的文本、音频、图像等内容。
AIGC 总的来说，判别模型关注的是输入和输出之间的关系，直接预测输出结果，而生成模型则关注数据的分布，通过学习数据的统计特征来生成新的样本数据。判别模型推动了人工智能前数十年的发展，而生成模型将成为人工智能未来十年的重点发展方向。

1.3 AIGC 发展与应用

AIGC

通过机器学习方法从原始数据中学习数据特征，进而生成全新的、原创的数据，这些数据与训练数据保持相似，而非简单复制原始数据。

AIGC

已经取得了重大进展，并在各个领域得到广泛应用：

内容创作：可以辅助创作者完成图画、文章、小说、音乐等内容的创作
设计：可以帮助设计师生成平面设计、UI设计等
游戏：可以生成游戏中的角色、道具等元素
视频制作：可以生成特效、动画等内容
智能客服：可以生成自然语言对话，实现智能客服等应用

AIGC

可以视为未来的战略技术，

ChatGPT

是其中的典型代表，其将极大加速人工智能生成数据的速度，其正在深刻改变人类社会，推动人类创作活动，包括写作、绘画、编程等，甚至也将推动科学研究，例如生成科学假设和科学现象等。

2. CSIG 企业行——走进合合信息

2.1 活动介绍

“

CSIG 企业行

”是一项促进学术界与企业合作与交流的活动，旨在推动图形图像领域的技术创新和产业发展，促进学术界和产业界的互动和合作，为企业和学术界搭建沟通交流的平台，资助优秀的产学研合作项目，支持学术界和企业开展创新性研究和技术转化。“

CSIG 企业行

”得到了学术界和产业界的广泛支持和赞誉，已经成为图形图像领域内具有较高影响力和知名度的活动之一。
由中国图像图形学学会主办，合合信息、

CSIG

文档图像分析与识别专业委员会联合承办的“

CSIG 企业行——走进合合信息

”活动成功举办，来自上海交大、厦门大学、复旦大学、中科大的学者与合合信息技术团队一道，面向行内研究者分享了图像文档处理中的结构建模、底层视觉技术、跨媒体数据协同应用、生成式人工智能及对话式大型语言模型等研究及实践成果，探讨图文智能信息技术领域的最新发展动态和未来趋势。会上，合合信息科技股份有限公司董事长、总经理镇立新提到，希望通过这次活动创造产学研合作机会，为推动图像图形及人工智能行业的发展和进步贡献智慧和力量。

2.2 走进合合信息

合合信息是行业领先的人工智能及大数据科技企业，深耕智能文字识别、图像处理、自然语言处理和大数据挖掘等领域，其研发的智能图像处理引擎提供多种图像智能处理黑科技，例如图像切边增强、PS 检测、图像水印去除以及图像矫正等，相关黑科技的体验可以登录合合信息官网。

合合信息技术栈

3. 文档图像处理中的底层视觉技术

底层视觉技术是计算机视觉领域中最基础、最关键的技术，解决了影像采集不规范问题，能够极大的优化影像质量，可以为计算机视觉模型后续的处理奠定坚实基础。随着

AIGC

的快速发展，底层视觉技术也在发挥愈加重要的作用，利用底层视觉技术可以为生成模型提供质量良好的输入。合合信息图像算法研发总监郭丰俊在“

CSIG 企业行

”活动中分享《文档图像处理中的底层视觉技术》。

3.1 什么是底层视觉

底层视觉技术是指在图像处理和计算机视觉领域中，用于处理和分析图像的最基本、最底层的算法和技术，其输入和输出均为图像，主要包括图像处理、图像滤波、图像重建、图像增强等。利用底层视觉技术可以对图像进行预处理、优化和分割，为后续高级视觉算法提供更好的输入。依托在底层视觉技术上的优势，合合信息智能图像处理技术行业领先。

3.2 智能图像处理技术

图像智能处理是指利用计算机对各种复杂应用场景的图像进行自动化处理和分析，是计算机视觉领域中重要的技术领域。通过为机器视觉系统添加图像智能处理功能，等于为机器安装上了智能的“眼睛”，令机器看得清、看得懂，以接近甚至超越人眼的能力执行分析与处理任务。文档图像质量的增强是智能图像处理重要的研究方向，需克服页面弯曲、阴影遮挡、摩尔纹、图片模糊等现代文本图像处理中常见的干扰状况。

文档图像处理
智能图像处理技术主要包括感兴趣区域提取(单区域提取、多区域提取)、形变矫正(倾斜透视矫正、弯曲矫正)、图像恢复(阴影去除、摩尔纹去除、反光去除)和质量增强(清晰度提升、增强锐化)等。利用智能图像处理技术可以提高文档智能扫描质量、便于文档图像下游处理。接下来，将介绍合合信息在图像智能处理领域的主要黑科技技术。

3.2.1 感兴趣区域提取

在图像处理领域，感兴趣区域 (

region of interest

ROI

) 可以简单理解为从图像中选择的一个图像区域，这个区域是图像分析算法所关注的重点，减少图像无关噪声。使用

ROI

限定需要进行进一步处理的目标区域，可以减少图像处理时间，并增加处理精度。

ROI

提取的一个典型应用场景是票据提取，下图展示了合合信息旗下的“名片全能王”应用在多名片场景中的提取效果，可以看出能够准确的提取出图片中所包含的名片。
ROI提取

3.2.2 形变矫正

随着移动智能手机、便携相机等设备的逐渐普及，我们通常通过拍照实现纸质文档的数字化，以便进行纸质文档的存档、检索、共享、识别与分析等处理，文档数字化为我们日常的工作与生活带来了极大的便利。但由于相机的姿态、文档放置状态、文档自身变形等不确定因素，在使用移动设备采集文档照片时会出现角度和弯曲变形，这些原始的照片对于文档图像内容的自动提取与分析造成了不利影响，因此需要进行一定的形变矫正处理。对文档图片进行形变矫正还原，对于文档内容的还原有着极大地帮助。

形变矫正

现有基于深度学习的矫正方法主要关注于紧密裁剪的文档图像，而忽视存在大环境边界的文档图像和没有环境边界的文档图像。为了解决这一问题，合合信息提出了新的矫正方法

Marrior

，

Marrior

采用渐进式的矫正方式来逐步提高矫正性能。具体而言：先利用分割结果进行环境边缘去除获得初步矫正结果，再通过预测偏移场迭代式地优化该初步结果。模型包含两个子模块：边界去除模块和迭代式内容矫正模块，架构如下所示：

Marrior架构

合合信息图像矫正可以智能定位图像中文档主体的边缘，并进行背景切除 (文档提取)，对形变文档进行矫正，主要包括角度矫正和弯曲矫正两种复杂的矫正，体验地址：合合信息图像矫正。在下图中，可以看到利用合合信息图像矫正功能能够将图像恢复至正面垂直拍摄的效果，解决了文档图像变形矫正算法抗干扰性差、矫正效果不佳等问题。

图像矫正

3.2.3 图像恢复

智能手机、数码相机等设备为我们提供了快速记录信息的机会，已经逐渐成为人们日常生活中必不可少的工具。但是，使用数码相机拍摄文档时容易出现阴影，而在拍摄电子屏幕时会照片中出现令人反感的屏幕纹。这些问题不仅严重降低了图像的质量，并且也会影响到我们后续的分析和处理，因此我们需要利用图像恢复技术恢复图像质量。接下来，以摩尔纹去除为例讲解合合信息在图像恢复领域的技术。

摩尔纹

由于屏幕纹对重复结构的轻微变换具有极度敏感性，因此图像结构的多样性导致屏幕纹也具有复杂性和不规则性，屏幕纹的消除一直以来都是具有极具挑战性的任务。传统高斯、双边等滤波方式对屏幕纹的抑制效果不佳，而专门针对屏幕纹消除的工作目前仍然较少。不同于取噪点或去马赛克等图像修复问题，由于摩尔纹在频率、形状、颜色等方面的巨大变化，从被摩尔纹扰动的图像中恢复出原始干净图像仍然是一个未解决的问题。去除摩尔纹是文档图像处理中颇具挑战性的任务，也是合合信息在智能文字识别领域里创新技术应用之一，其模型架构如下所示：

摩尔纹去除架构
合合信息图像去屏幕纹可以有效去除拍摄屏幕的图像中的摩尔纹，在保留图像原始颜色、纹理、字迹细节的同时，得到更高清的图像，体验地址：合合信息图像去屏幕纹。

可以看到合合信息图像去屏幕纹功能能够高效的完成图像恢复任务，最大程度的恢复被屏幕纹污染的屏摄照片，能够去除所有样式的屏幕纹，并且能够保证图片细节信息完整，便于我们后续对图像进行进一步的分析。

3.3 智能图像处理技术综合应用

3.3.1 手写擦除

有时，在期末进行复习时，我们常常想要擦除掉之前在试卷中自己做过的痕迹，不受自己之前做题时的干扰，从而恢复出原始的干净试卷，方便我们从头开始完成试卷，检测自己的复习成效。

这一应用综合了上述文档图像智能图像的许多技术，手写擦除要求应用能够恢复原始没有手写时的原始文档，并且需要得到质量较高的图像，合合信息的“字迹擦除”技术融合了内容切分、手写字迹分离网络、文档质量增强技术，对复杂场景进行准确处理，实现了作业及试卷笔记“一键擦除”，能够一键还原试卷拍摄试卷一键清除手写字迹，获得干净的原始试卷，同时还以快速整理错题(识别错题区域，清除作答痕迹，分门别类整理错题)。

手写擦除

3.3.2 PS 痕迹检测

PS 作为一款图像处理软件，图像处理效果十分精确，其这一特点不仅为我们的生活提供了极大的便利，也会被“有心之人”利用，例如伪造发票、请假条等。因此，篡改图像需要引起人们的关注，其为文本图像安全带来严重威胁。然而，相应的检测方法却未得到充分的探索。PS 痕迹检测旨在定位图像中所有区域，根据纹理的真实性判断图像是否被篡改。PS 痕迹检测任务有两个主要挑战：一方面，由于真实图像和篡改图像的纹理具有较高的相似性；另一方面，由于检测真实图像和篡改图像的难度不同，检测模型无法平衡两类学习过程，从而造成检测精度的不平衡问题。
基于行业领先的自研篡改检测系统，合合信息的 PS 检测系统可判断图片是否被篡改，支持身份证、护照、行驶证、驾驶证、港澳通信证等证照类别，及增值税发票、普通发票、小票、合同等文档类别，让一切伪造凭证无所遁形，其模型架构如下所示：

PS 痕迹检测
在下图中，可以看出即时对于人眼而言无法察觉的微小 PS 修改痕迹，利用合合信息的 PS 检测系统的“火眼金睛”仍然可以准确的让其原形毕露，体验地址：合合信息 PS 检测。

PS 检测

4. 图文智能处理与多场景应用技术进展

4.1 生成式人工智能与元宇宙

元宇宙近来已经逐渐从概念走向应用，元宇宙的关键包括人的虚拟化和物的虚拟化，生成模型可以作为元宇宙的内容生成器、虚实连接器、效率加速器。上海交通大学人工智能研究院常务副院长、长江学者杨小康在“

CSIG 企业行

”活动分享了团队在生成式人工智能领域的工作。

元宇宙与生成式人工智能
为了推动元宇宙的发展，世界模型需要更逼近物理模型，注重表观模拟-物理现象内部机理推断；而数字人需要更逼真、更通用，能够满足立体视觉渲染、多模态驱动、动态模拟；在数字人与世界模型交互方面，需要在世界模型上训练智能体反哺真实世界中的决策过程。
预计到

年，生成式模型产生的数据将占据人类全部数据的

10%

以上，根据

28 原则

，当生成式数据超过

80%

时，人类将有可能全面进入元宇宙，生成式人工智能为构建基于视觉直觉的物理世界模型和虚拟数字人提供了可行的途径。通过数学、物理、信息论、脑认知、计算机等学科交叉，可以进一步夯实生成式人工智能的基础理论。通过物理+数据联合驱动，虚拟+现实深度融合，生成式人工智能将有望加速科学发现、物质合成、元宇宙构建。

4.2 面向图像文档的复杂结构建模研究

近年来，人工智能与光学字符识别 (

Optical Character Recognition

OCR

) 技术的结合愈发紧密，图像文档通常涉及复杂结构，如汉字结构、表格结构、文档总体结构等，因此对图像建模逐渐成为研究热点。在“

CSIG 企业行

”活动中中国科学技术大学语音及语言信息处理国家工程研究中心杜俊副教授就团队在文档结构层次化重建领域的最新进展进行分享。

基于部首建模的汉字识别、生成与评测目前较为先进的汉字识别模型基于部首建模，利用生成模型，文字识别过程可以进行联合优化，优化过程可以类比学生学习汉字过程，在学生学习时通常是识字与书相互强化。该模型可以减少建模类别，与人类学习汉字过程类似，通过对偶学习、对比学习、注意力机制等提高汉字识别准确率，同时该模型可以用于错字检测与错误定位。
而在表格结构方面，

SEM

架构将表格结构识别分为三个步骤：首先是

Split

，将表格拆分成一系列基础网格；然后

Embed

，提取网络级别的多模态表征；最后是

Merge

，完成基础网格归并预测(跨行跨列表格单元)：

SEM

在文档总体结构建模方面，基于文档预训练模型的篇章级文档结构化，实现了文本行级别的树状结构可视化、跨页文档要素分类+跨页文档结构恢复。模型基于

GraphDoc

进行元素块特征提取，将整体文档结构化任务拆解为：元素块分类任务、父节点找回任务、子父节点关系分类任务：

基于文档预训练模型的篇章级文档结构化

4.3 大型语言模型的关键技术

ChatGPT

可以看做是人工智能里程碑式应用，其大幅提升了泛化能力，加速了通用人工智能的实现。复旦大学计算机学院教授、上海市计算机学会自然语言处理专委会主任邱锡鹏在“

CSIG 企业行

”活动上分享了以

ChatGPT

为代表的对话式大型语言模型的主要特点。
在语言模型中，最重要的能力是涌现能力，类似于生物只有大脑足够大才能有高级智能一样，只在模型大到一定程度才会出现的能力，这是大型语言模型的最核心能力，虽然对于涌现能力的原理学术界仍存在不同假设，但涌现能力确实能够令模型性能出现飞跃式提高。

涌现能力

在

ChatGPT

中包含三个关键技术：首先是情境学习，大模型的涌现能力改变传统学习范式；然后是思维链，大模型的涌现能力打破模型参数约束；最后是指令学习，通过人类反馈对齐人类意图。类似

ChatGPT

的对话式大型语言模型通常具有以下特征：自回归语言模型，百亿参数以上；具有思维链、情景学习等涌现能力、能够执行人类指令；可以直接与人类对话；与人类价值观、思维方式对齐。

4.4 复杂跨媒体数据协同分析与应用

鉴于图像、视频以及语言文字，都是我们希望计算机能够理解的对象，因此将图文联合起来进行研究，符合客观的认知规律，同时文本、图像和视频是互联网上存量最大的数据，需要研发相关算法对其进行有效管理，这也是复杂跨媒体数据协同研究出现的背景。视觉-语言跨媒体分析研究具有广泛的应用前景，包括图文匹配、图像描述、视觉问答、听文作图等。在“

CSIG 企业行

”活动中纪荣嵘教授分享了团队在复杂跨媒体数据协同分析与应用方面的最新研究成果。
图像描述是自动生成给定图像内容的自然语言描述，其连接视觉与自然语言、计算机视觉与自然语言处理，是目前最受关注且最具潜力的人工智能研究任务之一。传统的图像描述基于编解码器架构，但其通常具有以下缺陷：丢失视觉特征空间关系信息，视觉特征送入解码器时经过展平处理造成空间信息损失；单词同方式处理，没有区分视觉和非视觉词。目前，性能较好的基于网格增强和自适应注意力的图像描述模型，将网格与网格之间的相对几何关系引入到视觉特征中，其基于

Transformer

解码器输出的隐含状态，动态地度量视觉信息和语言信息为预测每个单词做出的贡献，能够解决视觉特征空间关系信息损失和无法区分不同词性单词的问题。

基于网格增强和自适应注意力的图像描述模型
除了多模态外，跨任务协同也是人工智能的重要研究方向，其主要包括指向性检测与指向性分割，旨在根据自然语言指令来检测、分割其语义指向的物体。现有跨任务协同方法大多基于多阶段的方法，速度慢，检测和分割两个任务间在单阶段网络下无法相互促进，复杂场景下会出现不同任务的预测分歧问题，同时多阶段多任务网络速度非常慢，受限于视觉预训练，而单阶段单任务网络速度快但精度低，无法执行多个任务。多任务协同的指向性目标检测-分割网络能够解决多任务下的预测分歧问题，在双任务上均显著超越传统方法。多任务协同机制包含两个重要技术：协同能量最大化模块(最大化任务间的一致性，跨任务知识蒸馏)和自适应的非极大值抑制(增强任务间的一致性，增强分割的鲁棒性)。多任务协同的指向性目标检测-分割网络超过多阶段模型的精度，同时保持了接近实时的推理速度。

多任务协同的指向性目标检测-分割网络
在跨媒体数据协同研究方向，语言的统计先验具有极高价值，尤其是概念的层次结构、分布特征；细粒度和高判别力特征对跨模态任务至关重要，大规模预训练模型具有突出优势；同时视觉-语言的研究应是双向的，各自的新发现、新方法可以互相迭代促进；并且未来跨空间、跨领域、跨任务知识迁移方面有着较大探索空间，易于发现新的科学问题。

小结

AIGC

是一个快速发展的领域，有着广阔的应用前景，通过不断改进技术和解决相关问题，

AIGC

技术将有望成为许多领域中的重要工具和资源。本文通过总结“

CSIG 企业行

”活动中众多大咖的报告分享，对未来

AIGC

的发展前景进行了展望。总体而言，随着诸如合合信息等公司的

AI

工程师在底层视觉研究中提出更多高性能支撑技术以及学术界和工业界研发更多

AIGC

应用，

AIGC

会不断纠偏完善，不断朝着有利于人类的方向发展，我们有理由相信未来各个行业都会配备高水平的

AIGC

助手提高人类生产力。

步入AIGC时代，展望人工智能发展