今天协助研发去处理一份文件对比的事情,就是对比file1.log和file2.log中相同重复的行。

发现很容易实现,直接:

$ for i in `cat file1.log`; do grep $i ./file2.log; done > sameline.log

结果就发现只有一条,研发的同学说至少有上万条记录,我开始找原因:

先输出测试看看格式什么的对不对:

$ for i in `cat file1.log`; do echo “AAA”$i”BBB”; done
BBBxxxxxxxxxxx05_ok
BBBxxxxxxxxxxx06_ok
BBBxxxxxxxxxxx07_ok
BBBxxxxxxxxxxx08_ok

调试一下,发现输出的两端的字符,会选择长度较大的放在最左侧(可以自己试试哈),我一直觉得和换行符有关系,实际上是文件格式的问题。

我最终file了一下源文件和自己再终端随便写的test.log

$ file file1.log
file1.log: ASCII text, with CRLF line terminators

$ file test.log
test.log: ASCII text

终于发现端倪,原来是之前的研发给的结果是win下处理的,是windows的某种格式,没有细究,有兴趣的同学自己去研究文件的格式吧。

总之解决问题最重要:

$ dos2unix file1.log file2.log
file1.logdos2unix: converting file tile1.log to UNIX format …
file2.logdos2unix: converting file tile2.log to UNIX format …

测试一下:

$ for i in `cat file1.log`; do echo “AAA”$i”BBB”; done
AAAxxxxxxxxxxx05_okBBB
AAAxxxxxxxxxxx06_okBBB
AAAxxxxxxxxxxx07_okBBB
AAAxxxxxxxxxxx08_okBBB

OK,问题解决。