您正在使用IE低版浏览器,为了您的雷锋网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
业界 正文
发私信给李勤
发送

0

AI翻译的30部女频总裁文长什么样

本文作者:太阳城娱乐登入 2019-12-28 09:10
导语:放眼望去,《豪门谋妻》《豪门千金重生之赚大钱》《乔先生撩妻上瘾》。。。看上去都是18岁少女爱看的“霸总”系列。

万万没想到,雷锋网(公众号:雷锋网)编辑花一块钱试用一个经由xx部批准的合法“国际浏览器”的目的竟然是看海外版霸道总裁文。

说起来真的有点“羞耻”,毕竟我已经不是爱幻想的18岁少女,而是饱经生活折腾的社畜。

事情是这样的,前几天,阅文集团与国内人工智能公司彩云科技合作的 30 部 AI 翻译网文作品上线了阅文旗下海外门户起点国际(Webnovel)。

AI 也来插手网文翻译,看来,继AI PK速记员,AI 换脸“威胁”演员之后,在我们的精神文化生活中,AI 又触达了一个领域。

这 30 部依靠 AI 走向国际化的网文就是我前面提到的霸道总裁文,还是女频向的。

AI翻译的30部女频总裁文长什么样

emmm,放眼望去,《豪门谋妻》《豪门千金重生之赚大钱》《乔先生撩妻上瘾》。。。部部散发着无法抵挡的总裁魅力。

试水

虽然霸总网文看上去不是什么阳春白雪,但它的译文却是“精品”。

如果翻译质量以满分 100 分为计,AI 翻译的这些作品可以达到 80~ 85 分,相当于专业翻译的级别。

彩云科技的运营负责人张可馨称,合作推出的这 30 本AI 翻译的网文属于现代言情品类,是现在比较受欢迎以及好翻译的品种,非常适合拿来作为 AI 翻译网文出海的第一步测试。

在这次合作中,阅文提供语料、修改词表、用户的反馈,彩云进行语料训练,词表提取和模型部署,安排得妥妥当当。

起点国际与“彩云小译”合作的 AI 翻译模型针对普通难度的文本, 翻译速度能够达到人工的千倍,同时,在翻译质量把控上,阅文集团的编辑和智能技术团队联合彩云小译的算法工程师对 AI 模型进行集中性的“专项训练”,既往优秀的译本、经典网文原作、标准核心词库都是 AI 学习的语料。

此外,网传“双方在训练 AI 模型时还加入了‘翻译风格’的选项,方便精准进行男频、女频,甚至不同品类作品风格的呈现。面对不同的风格要求,AI 能够将同一句话用多种不同的译法进行差异化呈现。

这是个让人眼前一亮的功能,雷锋网了解到,目前这个功能尚未正式上线,是一个“正在调教中的模块”。

技术难点

剩下的“分”缺在哪里?

正如人类译者的翻译能力受自身知识面的限制一样,AI 模型能达到的能力范围也受到语料范围的限制。语料中少见但比较浅白的表述,AI 可以根据自己学到的语料“猜”出正确的翻译,但遇到比较迂回的表述,如一个语料中从未出现过的成语,AI 猜错的可能性就会变大。

彩云科技算法工程师毛诗倩提到,例如:“燃灯如豆”,  指的是灯的火焰很小,而不是火焰像豆子。如果语料中没有出现过这个词语,那么AI 就只能翻译出字面意思。

公开资料称,阅文团队基于自然语言理解技术进行网文内容深入挖掘,通过对大量网文内容和优质社区内容的清洗、训练和标注,使得机器更好地理解网文内容,建立阅文自己的内容大脑。

基于阅文内容大脑,阅文智能可以提取网文的一些专有名词,同时可以自动识别角色(人名)、场景(地名)、升级体系等结构化信息,构建整体网文的知识图谱。基于这些信息的补充,目前 AI 翻译能够较好地翻译网文特殊领域中的词、句、段落,包括作品中的人名、地名以及类似“金丹”这种网文作品特色核心元素词等专有名词,并识别出各种代词指代的对象,尽可能避免传统机翻中的“一词多译”、“张冠李戴”等现象。

看来,阅文在试图给合作伙伴的 AI 模型“喂”更足的语料。

在构建这个 AI 模型的过程中,毛诗倩遇到了三个难点:

第一,正确补全句子结构。

文学作品中有些句子结构复杂或缺省成分,AI 需要自己找到正确出主宾的关系。

“还是早点回家吧”

AI 看到这句话,可能会有点懵逼,必须使劲找寻主语是 I 还是 You。

第二,人名指代统一。

一个人物可能会有多种称呼。比如一个角色可能大名叫“七月,同时还有“小七”、“月月”等好几个昵称,AI 需要知道这些称谓都是指向同一个人,否则翻译出三个在英文中看起来没什么关联的名字,AI 没有懵逼,但读者会瞬间懵逼。

(讲真,像我们这种神经大条的读者,可能肉身看文遇到这种情况也会“脸盲”。)

AI 还要知道角色的性别,以便正确使用人称代词。

举个“霸总文”的例子:

冷半夏整个人依靠在顾瑾白的怀里,苍白的脸上带着放大的笑意,看向冷可欣,口型比划:你完了!

Leng Banxia leaned against Gu Jinbai's embrace.   Her pale face carried a magnified smile as she looked at Leng Kexin. She mouthed, "you're done for!“

上面加粗的部分就是在 AI 知道冷半夏是女性的基础上才能正确翻译的结果。

第三,文风统一。

上一句是言情小说文风,下一句变成科幻小说文风,读者就会分分钟出戏。AI 需要保证一部作品翻译风格统一,并且符合这个作品本身的品类。

AI 翻译还有进步的空间。

毛诗倩称,在 transformer 模型的基础上,目前可以引入对抗训练、模型蒸馏等改进技术,以及利用非对齐语料预训练改进翻译质量的工作,如 BERT、MASS 等,但目前的所有翻译模型本质上都是基于大数据的拟合,机器还没办法像人类一样真正理解文本。

AI 的强大助力

尽管 AI 翻译暂时无法像人类一样“机智”,但对于网文出海这个领域而言,已经产生了非常大的推动力。

艾瑞咨询发布的《2019年中国网络文学出海研究报告》称,海外网文读者对网文翻译质量比较满意,但更新速度还需提升。

在这个背景下,能达到 85 分的 AI 翻译不得不说是一个满足需求的好办法。

看到这种需求后,国内内容平台阅文、掌阅都加紧对网文出海的布局。在阅文和彩云科技共同推出 AI 翻译的 30 部试水网文作品之前,成立于 2017 年 11 月的公司推文科技在 9 个月的数据积累后,于 2018 年 7 月推出了网络文学人工智能翻译系统。

推文科技今年 3 月已完成由 Wifi 万能钥匙、连尚文学、联想之星参与的 1000 万Pre-A轮融资,同样依靠具备内容资源的平台朝网文出海进军。

按照推文科技接受小饭桌的采访中所言,1000 字的翻译,人工需要 1 小时,AI 单芯片只需要 1 秒。成本也降低到原来的1%, 100 万字的专业译者翻译需要 20 万元,AI 只需要不到 1000 元。

毛诗倩对雷锋网肯定了这种说法,他称:“只要钱足够多,买更多的显卡部署翻译模型,速度可以无限大,即使是一张显卡,它翻译速度也是人类的千倍。”

雷锋网发现,在 AI 翻译网文出海上,推文科技和彩云科技目前只进行中译英,但这只是语料多少的问题,张可馨说,要做到 85 分的准确率,需要大量语料,很多小语种的语料比较难收集。

在语料充足(几千万句)的情况下,基本上几个月之内就可以训练出一个 AI 翻译的特定语种类型。

不过,有意思的是,这位对 AI 翻译网文模型无比熟练的毛诗倩是一个海归男性算法工程师,他并没有月读 300 本网文。

海外却有无数人在等待他的 AI 小伙伴翻译网文。

雷锋网原创文章,未经授权禁止转载。详情见转载须知

分享:
相关文章

文章点评:

表情

编辑、作者

跟踪互联网安全、黑客、极客。微信:qinqin0511。
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
太阳城娱乐登入
完善账号信息
您的账号已经绑定,现在您可以申博现金充值登入以方便用邮箱登录
立即设置 以后再说
网站地图 申博娱乐注册 太阳城会员登入 申博游戏网址 申博app下载
菲律宾欧博娱乐网站 申博现金网网址 菲律宾太阳城娱乐官网 申博现金网怎么样登入
申博会员登入 申博游戏 申博代理 申博太阳城现金网
申博 澳门博彩公司 盛618官网 咪牌百家乐
菲律宾太城申博 申博百家乐 保险百家乐 真人百家乐