免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2869 | 回复: 6
打印 上一主题 下一主题

[文本处理] file命令 识别字幕文件的编码不准确? [复制链接]

论坛徽章:
3
天蝎座
日期:2013-11-11 10:18:392015年亚洲杯之沙特阿拉伯
日期:2015-04-06 15:51:08CU十四周年纪念徽章
日期:2017-01-07 22:56:29
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-11-15 16:42 |只看该作者 |倒序浏览
本帖最后由 aqbssh 于 2015-11-15 16:52 编辑

我下载了个字幕文件,The.Universe.S01E14.1080p.BluRay.x264-CtrlHD.srt
cp The.Universe.S01E14.1080p.BluRay.x264-CtrlHD.srt a.srt

file a.srt
a.srt: ISO-8859 text, with CRLF line terminators
想转换成UTF8格式的,试过了好多种编码格式,例如: gb18030,GB2312, ISO-8859-{1..16}等等。却都没有成功。
是我没找到正确有方法,还是 file 命令没有正确的识别文件编码?
请问这到底是什么格式的编码?a.srt 已经上传到附件了。
iconv -f gb18030 -t utf8 a.srt
1
00:00:00,900 --> 00:00:03,600
iconv: 未知 34 处的非法输入序列

a.srt.tar.bz2

15.86 KB, 下载次数: 8

论坛徽章:
84
每日论坛发贴之星
日期:2015-12-29 06:20:00每日论坛发贴之星
日期:2016-01-16 06:20:00每周论坛发贴之星
日期:2016-01-17 22:22:00程序设计版块每日发帖之星
日期:2016-01-20 06:20:00每日论坛发贴之星
日期:2016-01-20 06:20:00程序设计版块每日发帖之星
日期:2016-01-21 06:20:00每日论坛发贴之星
日期:2016-01-21 06:20:00程序设计版块每日发帖之星
日期:2016-01-23 06:20:00程序设计版块每日发帖之星
日期:2016-01-31 06:20:00数据库技术版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-14 06:20:00
2 [报告]
发表于 2015-11-16 10:27 |只看该作者
$ file -bi a.srt
text/plain; charset=iso-8859-1
$ iconv -f ISO-8859-1 -t UTF-8  a.srt   > b.srt
$ echo $?
0


没有报错,但是不知道,是否转换正确...

论坛徽章:
84
每日论坛发贴之星
日期:2015-12-29 06:20:00每日论坛发贴之星
日期:2016-01-16 06:20:00每周论坛发贴之星
日期:2016-01-17 22:22:00程序设计版块每日发帖之星
日期:2016-01-20 06:20:00每日论坛发贴之星
日期:2016-01-20 06:20:00程序设计版块每日发帖之星
日期:2016-01-21 06:20:00每日论坛发贴之星
日期:2016-01-21 06:20:00程序设计版块每日发帖之星
日期:2016-01-23 06:20:00程序设计版块每日发帖之星
日期:2016-01-31 06:20:00数据库技术版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-14 06:20:00
3 [报告]
发表于 2015-11-16 10:43 |只看该作者
怎么看有没有转换成功?用编辑器看都是乱码

论坛徽章:
3
天蝎座
日期:2013-11-11 10:18:392015年亚洲杯之沙特阿拉伯
日期:2015-04-06 15:51:08CU十四周年纪念徽章
日期:2017-01-07 22:56:29
4 [报告]
发表于 2015-11-17 11:56 |只看该作者
本帖最后由 aqbssh 于 2015-11-17 12:42 编辑

回复 2# yjh777


    转换成功,但在我的系统上,打开 b.srt 看都是乱码。不知道是不是我没有安装 ISO-8859-1 这个locale ?

a@g ~/tmp $ uname -a
Linux g 4.2.4-gentoo #1 SMP Wed Oct 28 03:09:19 CST 2015 x86_64 Intel(R) Core(TM) i7-6700K CPU @ 4.00GHz GenuineIntel GNU/Linux

a@g ~/tmp $ locale
LANG=zh_CN.utf8
LC_CTYPE="zh_CN.utf8"
LC_NUMERIC="zh_CN.utf8"
LC_TIME="zh_CN.utf8"
LC_COLLATE="zh_CN.utf8"
LC_MONETARY="zh_CN.utf8"
LC_MESSAGES="zh_CN.utf8"
LC_PAPER="zh_CN.utf8"
LC_NAME="zh_CN.utf8"
LC_ADDRESS="zh_CN.utf8"
LC_TELEPHONE="zh_CN.utf8"
LC_MEASUREMENT="zh_CN.utf8"
LC_IDENTIFICATION="zh_CN.utf8"
LC_ALL=

grep  "8859" /boot/config-4.2.4-gentoo
CONFIG_FAT_DEFAULT_IOCHARSET="iso8859-1"
# CONFIG_NLS_ISO8859_8 is not set
CONFIG_NLS_ISO8859_1=m
# CONFIG_NLS_ISO8859_2 is not set
# CONFIG_NLS_ISO8859_3 is not set
# CONFIG_NLS_ISO8859_4 is not set
# CONFIG_NLS_ISO8859_5 is not set
# CONFIG_NLS_ISO8859_6 is not set
# CONFIG_NLS_ISO8859_7 is not set
# CONFIG_NLS_ISO8859_9 is not set
# CONFIG_NLS_ISO8859_13 is not set
# CONFIG_NLS_ISO8859_14 is not set
# CONFIG_NLS_ISO8859_15 is not set


论坛徽章:
3
天蝎座
日期:2013-11-11 10:18:392015年亚洲杯之沙特阿拉伯
日期:2015-04-06 15:51:08CU十四周年纪念徽章
日期:2017-01-07 22:56:29
5 [报告]
发表于 2015-11-18 08:45 |只看该作者
回复 3# yjh777


   是乱码就没达到效果。我们不能一边看美丽的视频,一边看乱码的字幕吧。

论坛徽章:
3
天蝎座
日期:2013-11-11 10:18:392015年亚洲杯之沙特阿拉伯
日期:2015-04-06 15:51:08CU十四周年纪念徽章
日期:2017-01-07 22:56:29
6 [报告]
发表于 2015-12-04 10:16 |只看该作者
本帖最后由 aqbssh 于 2015-12-04 10:19 编辑

回复 2# yjh777


    你的方法是对的,是我没搞清楚,
我下载的本来就不是中文字幕。用WORD打开时说是“西里尔文”
谢谢了。CU上还是有很多大牛的。

论坛徽章:
84
每日论坛发贴之星
日期:2015-12-29 06:20:00每日论坛发贴之星
日期:2016-01-16 06:20:00每周论坛发贴之星
日期:2016-01-17 22:22:00程序设计版块每日发帖之星
日期:2016-01-20 06:20:00每日论坛发贴之星
日期:2016-01-20 06:20:00程序设计版块每日发帖之星
日期:2016-01-21 06:20:00每日论坛发贴之星
日期:2016-01-21 06:20:00程序设计版块每日发帖之星
日期:2016-01-23 06:20:00程序设计版块每日发帖之星
日期:2016-01-31 06:20:00数据库技术版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-16 06:20:00程序设计版块每日发帖之星
日期:2016-01-14 06:20:00
7 [报告]
发表于 2015-12-04 15:06 |只看该作者
谢谢 告知结果,并说明原因

很多人问题解决了,就不再来了,或者只说一句 解决了,也不说具体原因和怎么解决的。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP