加入收藏 | 设为首页 |

雷火电竞app-谷歌AI算法经过OCR与NGrams提取和剖析电视台内容倾向

海外新闻 时间: 浏览:221 次

电视机上肯定不乏文字信息。从翻滚字幕到掩盖全屏的音讯,文本永久存在于电视新闻傍边。事实上,大约90%的播映时段之内,屏幕上都至少包含一部分可辨认的文本;而在这部分时段内,任何特定时刻点中的屏幕上都显现着长度与一条推文类似的文本内容。运用谷歌的云AI对为期一周的电视新闻报导(来自互联网档案馆中的电视新闻档案)进行剖析,咱们即可探究屏幕文字终究叙述了怎样的故事。

为了更好地了解电视上的词汇,即CNN、MSNBC以及福克斯新闻台的文本国际,外加驻旧金山的各大传媒集团的分支机构——KGO(隶归于ABC)、KPIX(隶归于CBS)、KNTV(隶归于NBC)以及KQED(隶归于PBS等迟早播出的内容,咱们采集了从本年4月15日至4月22日总计812小时的电视新闻,并运用谷歌的Vision AI图画了解API进行剖析。随后,咱们启用了该服务的悉数功用,包含OCR文本辨认。

在这七个站点傍边,谷歌的API共辨认出长度超越3.71亿字符的屏幕文本。

这就引出了一个问题,也便是这些文本究竟讲了些什么?

之前说到的“ngrams”是一种现已颇具人气的剖析技secure能,可以快速评价大型文本语料库中的言语方法。在本次剖析傍边,每个1 fps视频帧上的屏幕文本都被转换为小写方法,并将其间的标点符号剥离出去。然后,该技能将文本拆分红存在空间鸿沟的单词,总计得出59万1千个不同的词汇,其间约有23万500个单词至少呈现了两次。

因为翻滚字幕会不断移动,因而许多单词或许是在翻滚傍边被算法捕捉到屡次。因而,单纯看字数的办法在动态视频范畴好像没雷火电竞app-谷歌AI算法经过OCR与NGrams提取和剖析电视台内容倾向有太大的含义。

另一种更风趣的计算方法,便是查看屏幕文本傍边呈现频率最高的单词。

首要来看CNN,其间最常呈现的单词是“live”,在这一周的计算进程中有59%的时刻内霸占着屏幕显现周期。接下来为“CNN”(48%)、“ET”(东部时刻,43%)、“Mueller”与“Report”(各占31%)、“AM”与“PM”(各占27%)、“Trump”(20%)、“Notre”与“Dame”(各占9%)以及“Bernie”与“Buttigieg”(各占9%)。

可以看到,CNN最常运用的屏幕文字果然如此是其长时刻着重的“直播”概念、通用时刻戳与台标。Mueller在屏雷火电竞app-谷歌AI算法经过OCR与NGrams提取和剖析电视台内容倾向幕文字中被提及的份额也占整周播映时长的近三分之一。而Notre Dame仅在本周播出时长中占9%,与Bernie Sanders以及Pete Buttigieg保持共同。

MSNBC最常用的词汇分别是“live”与“MSNBC”台标,各占55%时长;“Mueller”与“Report”各占32%。“Trump”被提及的时长份额为16%;而“Notre”与“Dame”的占比则为5%,与“Barr”共同。

福克斯新闻台的“live”一词只占悉数时长的10%,但“Fox News”则占悉数时长的68%。“Mueller”的时长占比为19%,“Trump”为14%,“Notre”与“Dame”分别为5%。

CNN与MSNBC好像都在着力宣传自己的“live”放送才能,并且悉数三家电视台都会长时刻在屏幕上显现自己的台标。因而,在经过算法剖析电视新闻片段时,没有呈现“live”或许台标的内容有很大或许归于商业广告。

现在悉数614 GB由AI生成的注释数据都已供给揭露下载,其间包雷火电竞app-谷歌AI算法经过OCR与NGrams提取和剖析电视台内容倾向含ngram整理出的肯定计数与帧数计数两种版别。

综上所述,尽管这些成果只能代表在90%的电视新闻播出时段之内关于屏幕文本相对简略的剖析定论,但这也是第一次证明咱们可以运用AI技能探究电视新闻内容倾向性问题。这是一种全新的视角,或许在未来可以提醒出更多风趣的本相。

终究做个总结:在此次剖析傍边,谷歌的AI算法同处理了长达812个小时的电视新闻。该算法辨认出每个1 fps帧中可辨认为文本的各个字符,编译为一套数据集,然后将其转换为ngram直方图,终究显雷火电竞app-谷歌AI算法经过OCR与NGrams提取和剖析电视台内容倾向现出本周在屏幕上呈现频率最高的单词调集。