当前位置:首页 > 知识库 > 正文

爬虫技术 pdf qq名片赞0.1元十万条件艰苦、环境恶劣

客服   爬虫技术 pdf qq名片赞0.1元十万条件艰苦、环境恶劣  第1张 拼多多砍价dy抖音ks快手 自助商城点击进入

本文刊发于《现代电影技术》2022年第11期

专家点评

数字水印是嵌入到影片载体中、用于判断载体是否被篡改的可鉴别性版权标记信号。随着全社会版权保护意识的大力提升和电影行业打击侵权盗版力度的不断加大,对电影数字水印技术的研发、升级和提质应用成为关注热点,包括版权监测、标记识别、盗版追溯在内的数字水印应用流程研究是其中的重要课题之一。《院线电影盗版溯源全流程方法研究与应用》一文,以院线电影盗版监测和溯源追踪为研究对象,以提升盗版监测溯源效率和水印检测准确度为技术方向,对追踪样本获取、水印数据提取、设备识别、查证定位等流程环节进行了分析和研究,基于人工智能、机器学习、视频处理、CMS内容管理系统等技术提出了盗版样本自动获取、盗版画面增强等系统优化思路,实现了院线电影盗版溯源和水印检出的全流程优化和提质,开展了实际技术检测和分析验证。本文重点突出、数据详实、专业性强,研究结论将为提升盗版监测和水印溯源工作质量提供专业的技术参考,研究成果将为运营管理机构、行业部门和管理部门构建更准确高效的技术支撑平台。

——龚波

正高级工程师

中国电影科学技术研究所(中央宣传部电影技术质量检测所)副所长

摘要

院线电影盗版溯源,是维护院线电影版权安全的最后一道防线,也是震慑盗版盗录行为的利剑,是保障电影市场健康有序发展不可或缺的关键手段。本文首次提出了院线电影盗版溯源全流程方法,依托CMS内容管理系统、视频处理、水印提取、数据分析等技术,研发了盗版样本自动监测系统,提出了盗版样本增强技术措施,构建了“样本自动发现-样本获取-样本增强-水印提取-溯源查证-数据画像分析”的院线电影盗版溯源全流程,为相关管理部门和运营机构提供了可信的技术手段和法证线索,为电影数字版权保护和电影产业持续健康发展提供了有力技术支撑。

院线电影 盗版溯源 全流程 自动监测 样本增强

1引言

随着摄录设备的多样化和互联网技术的迅猛发展,电影盗录及传播变得更加容易,这使得电影的版权保护面临着巨大的挑战。院线电影盗版溯源技术,通过提取隐藏在影片载体中的水印标记信息,追踪定位盗版流出的播放服务器和发生盗版的影厅,为电影数字版权保护提供了有力技术支撑。

为落实国家电影局《“十四五”中国电影发展规划》中关于“严厉打击盗录盗播等违法违规行为”和国家版权局 《版权工作 “十四五”规划》中关于“加强对版权治理热点难点问题的研究与监管, 完善打击网络侵权盗版的快速反应机制”的相关工作要求,规范电影市场秩序、保护电影作品知识产权,本文提出的院线电影盗版溯源技术全流程,在进一步提高院线电影盗版溯源技术的效率和准确率方面进行了有益的探索和分享,旨在推动以数字水印为代表的电影版权保护核心技术的普及和应用。

2院线电影盗版溯源面临的新挑战

近年来,互联网技术和流媒体技术的快速发展,为院线电影盗版溯源带来了盗版样本获取难、盗版样本质量不稳定等新的挑战,具体如下。

2.1 盗版样本获取难

盗版样本传播隐蔽。在国家“剑网行动”的打击下,一些大型平台的版权自律情况得到根本改善。然而,一些中小型网站和个人,以云盘、种子文件、个人站点、在线播放器等形式,对影视作品仍在进行长期的、大量的侵权。

盗版网站反侦查意识增强。随着对盗版影视网站打击力度的不断增大,文件分享类盗版逐渐减少,在线播放类影视盗版网站成为主流,且这类盗版网站为了防止盗链、提高竞争力,现多采用加密或加入伪视频数据等手段防止被现有的视频流下载工具获取,即使被下载下来,得到的也只是无意义的假视频数据,使得盗版样本的采样和执法机关的取证存证困难重重。

2.2 盗版样本质量不稳定

画面质量差。随着智能手机摄像能力的不断提高,现在院线影片盗版者多使用智能手机全程手持盗录影片,很少再铤而走险使用体积相对较大的专业录像设备。这种手持非专业设备拍摄的盗版影片画面曝光极不稳定、忽明忽暗,且全程晃动,影片画面位置也随之不停变化。

编码不规范。由于盗版影视作品会被数次加入广告、重新压缩编码和切片处理,其视音频编码文件会随之变得不规范、甚至有错误产生,导致水印提取工具无法正常工作。盗版影视网站为了节省流量和网络带宽,通常只使用1Mbps/s左右的低码率提供在线播放,对数字水印的准确提取提出了新挑战。

3 院线电影盗版溯源全流程方法

针对以上现状,本文提出了院线电影盗版溯源全流程方法,从发现盗版源入手,通过在内部网站搭建盗版影视网站伪装平台,自动从多个盗版电影资源发布网站采集盗版影片相关信息,变被动等待盗版样本送样到主动监测并获取盗版样本;然后对盗版样本进行筛选获取,并对获取的样本从格式和画面两方面进行复原增强,以提高盗版溯源的检出率;最后利用数字水印提取系统对上述样本进行数字水印信息提取,并将其与放映数据等相结合,进而定位相关影院、影厅和确定盗录时间,以确保溯源结果的准确性。具体如图1所示。该方法实现所需的相关组件构成如图2所示。下面对该方法中的每一部分进行详细介绍。

图1 院线电影盗版溯源全流程图

图2 院线电影盗版溯源全流程组件构成

3.1 院线电影盗版样本发现

本文采用多种途径发现盗版资源,包括接收存储介质送样、接收互联网送样、盗版影片自动监测系统、网络巡查、微信群监听、telegram群监听等,其中网络巡查、微信群监听、telegram群监听等属于手动监测,需要大量人力和时间的投入,目前作为盗版影片自动监测系统的有益补充。

针对盗版样本传播隐蔽的问题,本文提出了盗版样本自动监测系统,通过研究互联网上传播盗版最多的大量无备案信息的非法电影网站的特点及更新机制,利用上线盗版影视资源网站向加盟盗版影视网站自动推送盗版影片的特点,本文在内部网络搭建了一套盗版影视网站伪装平台,可自动从多个盗版电影“资源”网站采集盗版影片相关信息。该平台与真正的盗版影视网站不同,其不面向互联网发布盗版影片,仅进行盗版影片信息的分析和采集。

图3 盗版影视网站伪装平台软件架构

为了加快网站开发速度,本文盗版影视网站伪装平台,基于CMS内容管理系统搭建爬虫技术 pdf,CMS用于管理网站后台及编辑网站前台,具有可视化的网站编辑器,采用模块化的设计,可以减少开发成本。

本文基于CMS的盗版影视网站伪装平台,主要包括采集对象层、采集API接口层、数据清洗层、影片采集层、数据基础层、管理和安全模块等。具体软件架构图如图3所示。该平台首先从不同的盗版资源网站采集盗版资源数据,然后将采集到的非结构化数据转化为易处理的结构化数据,之后对得到的结构化数据进行电影类筛选、去重复等数据清洗操作,最后将得到的盗版电影资源进行展示和播放,以便工作人员快速发现新的院线盗版,大大节省了工作人员找院线盗版资源的时间,进一步提高了工作效率。

基于CMS的盗版影视网站伪装平台,将以往的被动委托检测转变为时效更高、覆盖更广的主动检测,使得工作人员可以第一时间发现院线影片盗版样本,其效率远高于人工搜索盗版影片样本,大大提高了盗版影片的发现和处置速度。

3.2 盗版样本筛选

发现盗版资源后,需要对盗版资源进行筛选,获取筛选后的盗版资源,并将其纳入样本库。本文主要从盗录源头是否相同、盗版是否为院线盗录和是否盗录自国内影院这3个维度对盗版样本进行筛选,并对其中的国内院线盗录版本进行溯源检测。

图4 盗版样本筛选方法

3.2.1 相同来源筛选

由于不同版本的盗版样本可能是对同一个来源的盗版样本进行裁切、剪辑、压缩、旋转等处理后,以不同版本进行发布,对这些相同来源的盗版进行溯源会浪费技术资源,所以本文需对相同来源的盗版样本进行筛选,可结合司法部《音像制品同源性鉴定技术规范——SF/Z JD0300002-2015》进行判断,本文采取的具体方法如下:

盗版样本画面特征筛选包括:相同的画面四角亮度衰减;相同的影厅装置、座椅相对位置;相同特征的观众遮挡画面;画面取景的相同抖动;暗场景中相同的摄录设备传感器高感光度噪点;相同的自动曝光画面失真;相同的过曝光、欠曝失真等。

盗版样本音频特征筛选包括:相同的厅堂混响;相同的压缩音频失真;特定影片内容节点时相同的观众声音等。

3.2.2 院线盗录筛选

因本文只能对院线盗录电影进行准确溯源,对其他渠道发行的影片无法溯源,因此需要进行院线盗录样本的筛选。本文主要从院线盗版电影的声画特征和影片发行上映信息两方面进行筛选。

画面声音特征筛选,由于院线盗录影片只能通过使用摄录设备拍摄屏幕的手段获取,因此画面必然存在摄录设备光学镜头的畸变等特征,声音必然存在影厅造成的厅堂混响。可通过以下方法筛选是否院线盗录影片。画面:存在明显的亮度边缘衰减;画面内存在影厅的安全出口、座椅;画面内有观众遮挡;画面取景存在抖动;画面存在摄录设备传感器的成像噪声;画面存在摄录设备自动曝光引起的忽明忽暗;画面亮部存在因摄录设备动态范围不足引起的过曝或暗部细节失真等。声音:音频中存在明显的厅堂混响;音频中存在观众的声音等。

影片发行上映信息筛选:查询中国电影发行放映协会网站的影片上映信息,确定盗版样本是否为院线发行;与版权方确认影片在上映日期之前是否进行过短期或长期的公开点映或试映,确定影片是否在上映前泄露。流媒体或其他高清版本筛选:因部分影片的上映档期很短暂,院线上映与网络流媒体版上映周期存在重合,故需对流媒体或其他高清版本进行筛除:查询各大视频网站,确认当前流媒体版本的上线时间;咨询国内头部流媒体版权商,获知流媒体版本的上线时间。

3.2.3 影片发行区域筛选

由于我们无法对中国大陆之外的放映服务器进行溯源,因此需对盗版样本进行发行区域筛选。具体方法如下:盗版样本如果为海外发行或进口影片,需向互联网电影数据库(Internet Movie Database,IMDb)或电影官网确认该影片的全球发行时间;判断盗版影片的中文字幕是否为国内放映的字幕类型(简体楷体斜体);从字幕的几何畸变、是否与画面同步移动以及字幕被摄录的损伤程度,判断字幕是后期添加,还是影片原生;观察画面内出现的观众的人种特征(高鼻梁等);监听音频中观众声音的语种;观察样本开头是否包含国内发行放映许可证等。

3.3 盗版样本获取

针对盗版网站反侦查意识增强的特点,以及流媒体播放技术的快速发展,从这些非法网站进行盗版样本的无损采样变得愈发困难。本文利用抓包工具进行抓包发现,这些盗版网站经过技术升级,大量采用 AES 加密技术,更有甚者通过技术手段将标准TS切片媒体流伪装成PNG图片等格式进行传输,并使用私有协议解包。这使得常用下载工具无法识别、无法下载也无法合并切片的在线播放媒体流。

基于以上盗版影视网站的特点,本文通过多种获取方法相结合的方式对盗版样本进行获取,具体如下:

(1) 对于常用下载工具可以下载的,使用常用下载工具进行下载;

(2) 使用M3U8下载工具下载;

爬虫技术 pdf qq名片赞0.1元十万条件艰苦、环境恶劣  第2张

(3) 常用下载工具无法下载的情况下,使用FFmpeg与抓包工具相结合,获取真实的在线播放列表进行截流下载;

(4) 若以上方式均不可行,本文采用录屏的方式对盗版样本进行获取。

3.4 盗版样本复原与增强

针对盗版样本质量不稳定的问题,本文提出了盗版样本增强方案,分别从样本格式修复和样本图像增强两方面提高盗版样本质量,以提高水印检出率。

根据样本格式或编码的不合规程度,对样本格式进行多段样本合并、编码转换、帧速率复原等处理;根据样本的内容受损程度,使用不同的影视制作工具对样本内容进行重新构图、白平衡修复、去挤压恢复画幅比、跟踪去抖动、去闪烁、对比度调整、亮度色度调整、手动关键帧去抖动等图像增强处理。下面对复原增强过程中常用的方法进行介绍。

多段样本合并:对单一影片的多段样本采用二进制直接进行合并;

编码转换:对水印提取软件不兼容的编码格式使用FFmpeg等编解码工具进行二次编码或封装;

帧速率复原:对水印提取软件不兼容的帧速率格式使用FFmpeg等编解码工具进行合规的帧速率转换;

重新构图:对盗版样本中影厅、座椅等无关画面内容进行裁切等处理,对盗版样本进行重新构图;

画面跟踪去抖动:对因手持盗录导致画面晃动严重的盗版样本,使用影视后期制作软件的画面跟踪稳定功能结合手动关键帧实现样本画面的去抖动;

亮度色度调整:对盗版样本中亮度、色度过低或过高等失真,使用影视后期制作软件进行增强,向正常曝光的范围进行还原。

以上样本增强方案均为手动实现,未来将进一步探索利用人工智能、机器学习等方法,优化样本增强方案,提高样本质量。

3.5 盗版样本数字水印提取

数字电影在发展之初就考虑了影片数字版权保护的策略和措施,数字电影倡导组织(DCI)的《数字电影系统规范》[1]规定,用于放映2K/4K数字电影的播放服务器均需具备放映时添加水印信息的功能并须通过认证,该水印信息标记了播放服务器品牌、设备序号、影片放映时间等信息,且必须可靠地、不可察觉地嵌入到影片放映画面和声音中[2]。

目前国内影院使用的放映服务器使用的电影数字水印,均来自于两家国外厂家。为保证溯源准确无遗漏,本项目采用双轨并行的工作模式,分别使用这两种电影水印检测工具对盗版影片样本中的数字水印信息进行提取,以获取院线盗版影片内容中绑定的水印信息,已覆盖国内所有影院的放映设备。

3.6 盗版样本溯源与查证

盗版样本中的水印信息包括水印ID、服务器厂家信息和时间戳信息,本文使用水印ID和服务器厂家信息向相应的放映服务器厂商查证并确认与其对应且唯一的服务器序号,然后使用该服务器序号向放映服务器备案机构查证该服务器的备案院线、影院、影厅和地址信息,最后结合时间戳信息确定发生院线影片盗版的放映场次,为相关执法部门提供可信的技术依据和证据线索。具体如图5所示。

爬虫技术 pdf qq名片赞0.1元十万条件艰苦、环境恶劣  第3张

图5 通过水印信息溯源的流程

在现场放映服务器信息核验中,由于放映服务器违规变更放映场所和存在极少数克隆了数字水印信息的放映服务器,为确定溯源结果准确无误,本文还会对放映日志和售票记录协查结果进行核验,以进一步核验发生盗录的放映场次。

3.7 盗版溯源结果数据分析

本文采用以上数字水印信息建立了院线盗版溯源数据库,该数据库主要记录了每次溯源的检测记录,包括影片名、上映时间、影片来源、画质特点、音频特点、检测结果(水印ID、服务器厂商、服务器序号、所属影院、所属影厅、所属院线)等,通过对影片盗版发生地、画质音频特点、盗拍手法的比对,本文发现了几个主要盗拍团伙的作案特点及活动区域,完成了对盗录嫌疑人的“画像”。同时,本文还将院线盗版溯源数据库与票务、放映机构的放映数据、排片数据、售票数据相结合,引入观影人数与排片场次数据,通过数据筛选和比对,让一些本不起眼的线索逐渐浮出水面爬虫技术 pdf,发现了很多票房瞒报的“幽灵场次”、不知去向的“幽灵放映服务器”,甚至根本不存在的“幽灵影院”,为相关部门排查与定位侵权盗录嫌疑人提供了有力的技术支撑。

通过对盗版溯源数据的多维度分析,筛查多次发生盗录的影院,对院线电影版权方和发行方形成预警,在超前点映等被盗录风险大的情景中尽量选择安全的影院,防患于未然,让不法分子无机可乘。

4 应用成果与分析

为评估本文提出方法的有效性,体现保障电影版权安全对整体票房的促进作用,本文提出了PPB院线电影盗版指数:每10亿元票房的盗版源数量(Piracies per Billion Box office,PPB),见式(1)。

PPB=盗版源数量/每10亿元票房 (1)

根据式(1),得到2016年到2022年的PPB,并计算出同期的溯源成功率,具体如表1所示。

表1 2016-2022年每10亿元票房盗版源数量PPB

及盗版溯源成功率

将表1表示为曲线图,如图6、图7所示。

图6 2016-2022年溯源成功率曲线图

图7 2016-2022年每10亿元票房的盗版源数量(PPB)曲线图

从图6可以看出,2016年到2022年,随着本文盗版溯源全流程方法的不断完善和应用,本文负责的国内盗版溯源成功率稳步上升,从2016年的72%稳步提升至2021年、2022年的100%。

从图7可以看出,从2016年到2022年,随着盗版溯源全流程方法的逐步应用和盗版溯源成功率的提升,全国每10亿元票房的盗版源数量整体呈减少趋势,从2017年的3.47下降到2022年的1.32。盗版溯源全流程方法对电影市场版权治理的效果明显。

5 结束语

本文聚焦院线电影盗版溯源问题,依托CMS内容管理系统、视频处理、水印提取、数据分析等技术,构建了“样本自动发现-样本获取-样本增强-水印提取-溯源查证-数据画像分析”的院线电影盗版溯源全流程。从发现盗版样本入手,变被动等待盗版样本送样到主动监测并获取盗版样本,设计研发了盗版样本自动监测系统,可在开放资源网站自动、快捷发现采集盗版影片相关信息,解决了院线电影盗版样本获取难、溯源效率低、周期长的问题;同时本文提出了盗版样本增强技术措施,分别从样本格式和样本内容两个维度对样本进行复原增强,解决了因盗版样本画面抖动、亮度不均匀等因素导致的数字水印检出率低的问题;为保证溯源准确无遗漏,本文采用双轨并行的工作模式,使用两种水印提取工具对增强后的盗版样本进行数字水印信息提取,得到相关数字水印信息;最后利用数字水印信息定位相关影院、影厅和盗录时间。

本文提出的院线电影盗版溯源全流程,为相关管理部门和相关运营管理机构提供可信的技术依据和证据线索,为电影数字版权保护和电影产业持续健康发展提供有力技术支撑,具有显著社会效益。

未来我们将继续探索人工智能和机器学习等技术在该领域的应用方法,继续完善盗版溯源数据库,进一步优化和改进院线电影盗版溯源全流程方法。

参考文献

(向下滑动阅读)

[1]Digital Cinema Initiatives, LLC (DCI).Digital Cinema System Specification [EB/OL].(2021-10-13)[2021-12-10].

[2]龚波,刘健南,王薇娜,等.以法证数字水印捍卫数字电影版权[J].现代电影技术, 2016(05):4-9.

[3]周令非.从《著作权法》第三次修订看电影版权保护[J].现代电影技术,2021(04):52-55.

[4]王薇娜. 水印技术在数字电影版权检测中的应用[J].现代电影技术,2015(01):28-32.

[5]丁庆立,侯惠芳,邹洋. 基于Web的内容资讯管理系统(CMS)的设计与实现[J].信息通信,2017(10):108-110.

[6]李彦.基于Python的网络爬虫技术的研究[J].电子世界,2021(03):41-42.

主管单位:国家电影局

主办单位:电影技术质量检测所

刊号:CN11-5336/TB

标准国际刊号:ISSN 1673-3215

官方网站:

期刊发行:010-63245082

发表评论

最新文章

推荐文章