텍스트 파일은 무엇인가?
텍스트 파일은 연속적으로 연결되어 있는 줄글들의 집합이라고 생각할 수 있습니다. 우리는 지금까지 많은 텍스트 파일을 만들어 왔습니다.
그럼 텍스트 파일을 열고 처리하는 것과 관련된 몇 가지 함수들을 살펴보도록 하겠습니다.
open()
파일을 여는 것은 open() 함수를 이용해 달성할 수 있습니다. open() 함수는 handle을 반환하게 되고 handle은 파일에 대한 작업을 수행하기 위해 사용됩니다. handle은 텍스트가 파일 형태, 메모리에 저장된 문자열의 형태, 웹 사이트에서 존재하는 형태와 같이 다른 방식으로 저장되어 있는 텍스트를 처리하는 하나의 표준화된 방식입니다. 또한, 많은 양의 문자 파일을 한꺼번에 읽어 발생할 수 있는 성능의 문제를 handle은 점진적으로 읽어 방지합니다.
fhand = open('hello.txt', 'r')
#open('파일명입력', '모드 선택')
#1. 파일명 입력
#파일명은 문자열 타입으로 입력하며 확장자까지 포함시켜 줍니다.
#2. 모드 선택
#모드에서는 w 또는 r 두가지를 선택할 수 있습니다. 'w'는 파일을 작성할 때 사용하며, 'r'은 파일을 읽을 때 사용합니다.
개행 문자
파이썬에서 행을 바꾸는 문자인 개행 문자는 '₩n'입니다. print() 함수를 사용하게 되면 해당 함수에 의해 '₩n'가 발생하게 됩니다. 여기서 중요한 것은 '₩n'도 하나의 문자라는 점입니다. 아래에 보시는 것처럼 문자열의 길이를 확인하기 위해 len() 함수를 호출해보면 'Hello World!'와 'Hello₩nWorld!' 길이가 동일한 것을 확인할 수 있습니다.
stuff1 = 'Hello World!'
print(stuff1)
print(len(stuff1))
stuff2 = 'Hello₩nWorld!'
print(stuff2)
print(len(stuff2))
#Hello World!
#12
#Hello
#World!
#12
파일 핸들
파일 핸들(File Handle)은 순서가 있고 연속적으로 구성된 텍스트 파일을 한줄한줄 읽어 나가게 됩니다.
fhand = open('Hamlet.txt')
for line in fhand :
print(line)
#다음을 출력하게 되면 한줄씩 띄워져서 출력하게 됩니다.
파일의 라인 수 세기
파일의 문장이 몇 줄이 있는지 확인하는 방법은 매우 간단합니다.
fhand = open('Hamlet.txt')
count = 0
for line in fhand :
count = count + 1
print('Line Count:', count)
#Line Count: 라인 수로 출력됩니다.
파일 전체 읽기
우리는 전체 텍스트 파일을 단일한 하나의 문장으로 읽어올 수도 있습니다. 물론 각 문장에 대한 구분은 개행문자로 구분되어 있습니다.
fhand = open('mbox-short.txt')
inp = fhand.read()
print(len(inp))
#94646 출력
print(inp[:20])
#From stephen.marquar으로 출력됩니다.
파일 내용 검색하기
기존에 배웠던 문자열과 관련된 내장 함수를 활용해서 특정 문자열로 시작하는 문자를 찾을 수 있습니다.
fhand = open('mbox-short.txt')
for line in fhand:
if line.startswith('From:'):
print(line)
#From:으로 시작하는 문자열이 출력됨
하지만 결과값이 한 줄씩 띄워져서 출력됩니다.
print() 함수로 출력하면서 개행문자가 계속해서 추가되기 때문입니다.
새로운 라인은 공백으로 인식되기 때문에 해당 부분을 제거하게 되면 기본적으로 추가된 개행문자를 제거할 수 있습니다.
fhand = open('mbox-short.txt')
for line in fhand :
line = line.rstrip() #오른쪽 공백 제거
if line.startswith('From:'):
print(line)
파일 이름 입력 받기
사용자가 파일의 이름을 직접 입력해야하는 경우에 파일명이 잘못되는 경우를 처리할 수 있어야 합니다.
fname = input('Enter the file name: ')
try :
fhand = open(fname)
except :
print('File cannot be opened: ', fname)
quit()
count = 0
for line in fhand:
if line.startswith('Subject:'):
count = count + 1
print('There were', count, 'subject lines in', fname)
'마케팅 > 데이터분석(파이썬)' 카테고리의 다른 글
(파이썬/python) 모두를 위한 프로그래밍 : 파이썬 챕터 9 / 딕셔너리 (0) | 2021.11.18 |
---|---|
(파이썬/python) 모두를 위한 프로그래밍 : 파이썬 챕터 8 / 리스트 (0) | 2021.11.17 |
(파이썬/python) 모두를 위한 프로그래밍 : 파이썬 챕터 6 / 문자열 (0) | 2021.11.16 |
(파이썬/python) 모두를 위한 프로그래밍 : 파이썬 챕터 5 / 루프 (0) | 2021.10.18 |
(파이썬/python) 모두를 위한 프로그래밍 : 파이썬 챕터 4 / 함수 (0) | 2021.10.18 |