标题:[python] 从ppt中提取照片 出处:Felix021 时间:Fri, 28 Oct 2011 01:10:34 +0000 作者:felix021 地址:https://www.felix021.com/blog/read.php?2043 内容: ppt中保存的默认是原始照片;可以把照片另存,但是保存的图片实际上是压缩过后的图片,而且EXIF信息也丢失了;另存为pptx再改成zip,发现效果相同。为了找回最原始的照片,可以将其另存为xml格式,然后再写程序将其中的图片信息提取出来。 xml格式中图片的信息大致是这样存储的:引用 [[base64 encoded data]] 写了个简单的python脚本来完成:import re import base64 import os x = open("1.xml", "r") str = x.read() r = re.compile(r'\s*((.|\n)*?)<\/pkg:binaryData>', re.S) m = re.findall(r, str) os.system("mkdir files") for i in m: print "write %s" % i[0] f = open("./files/" + i[0], "wb"); f.write(base64.b64decode(i[1])) Generated by Bo-blog 2.1.0