[프로그래머스 LV2] 튜플
re 패키지를 이용해서 정규 표현식을 이용해야 하는 문제였습니다. 텍스트 마이닝 쪽은 아직 많이 부족한데, 조만간에 정규 표현식을 더 공부하고 정리해서 포스트를 올려보겠습니다!
문제
셀수있는 수량의 순서있는 열거 또는 어떤 순서를 따르는 요소들의 모음을 튜플(tuple)이라고 합니다. n개의 요소를 가진 튜플을 n-튜플(n-tuple)이라고 하며, 다음과 같이 표현할 수 있습니다.
- (a1, a2, a3, …, an)
튜플은 다음과 같은 성질을 가지고 있습니다.
- 중복된 원소가 있을 수 있습니다. ex : (2, 3, 1, 2)
- 원소에 정해진 순서가 있으며, 원소의 순서가 다르면 서로 다른 튜플입니다. ex : (1, 2, 3) ≠ (1, 3, 2)
- 튜플의 원소 개수는 유한합니다.
원소의 개수가 n개이고, 중복되는 원소가 없는 튜플 (a1, a2, a3, ..., an)
이 주어질 때(단, a1, a2, …, an은 자연수), 이는 다음과 같이 집합 기호 ‘{‘, ‘}’를 이용해 표현할 수 있습니다.
- {{a1}, {a1, a2}, {a1, a2, a3}, {a1, a2, a3, a4}, … {a1, a2, a3, a4, …, an}}
예를 들어 튜플이 (2, 1, 3, 4)인 경우 이는
- {{2}, {2, 1}, {2, 1, 3}, {2, 1, 3, 4}}
와 같이 표현할 수 있습니다. 이때, 집합은 원소의 순서가 바뀌어도 상관없으므로
- {{2}, {2, 1}, {2, 1, 3}, {2, 1, 3, 4}}
- {{2, 1, 3, 4}, {2}, {2, 1, 3}, {2, 1}}
- {{1, 2, 3}, {2, 1}, {1, 2, 4, 3}, {2}}
는 모두 같은 튜플 (2, 1, 3, 4)를 나타냅니다.
특정 튜플을 표현하는 집합이 담긴 문자열 s가 매개변수로 주어질 때, s가 표현하는 튜플을 배열에 담아 return 하도록 solution 함수를 완성해주세요.
제한사항
- s의 길이는 5 이상 1,000,000 이하입니다.
- s는 숫자와 ‘{‘, ‘}’, ‘,’ 로만 이루어져 있습니다.
- 숫자가 0으로 시작하는 경우는 없습니다.
- s는 항상 중복되는 원소가 없는 튜플을 올바르게 표현하고 있습니다.
- s가 표현하는 튜플의 원소는 1 이상 100,000 이하인 자연수입니다.
- return 하는 배열의 길이가 1 이상 500 이하인 경우만 입력으로 주어집니다.
입출력 예
내 풀이
문자열을 다루는 데에 여러가지 방법이 있지만, 가장 유용하다고 생각하는 re 패키지를 이용했습니다. 바깥쪽에 있는 중괄호를 제거하여 이중 중괄호를 푼 후에 re.findall()을 통해 해당되는 문자열을 찾고 리스트 형태로 저장했습니다. (ex. ['{2}', '{2, 1}', '{2, 1, 3}', '{2, 1, 3, 4}']) 여기서 \{.*?}\ 부분은 줄 바꿈 문자를 제외한 모든 문자를 0개 이상으로 찾는데, 이를 최소 크기로 찾는 것을 의미합니다. 이 부분에 대한 자세한 내용은 추후에 정규 표현식 포스트에서 다루도록 하겠습니다. 다음으로 중괄호로 둘러싸인 부분들을 다시 리스트 형태로 바꿔줍니다. (ex. [[2], [2, 1], [2, 1, 3], [2, 1, 3, 4]]) 리스트 내 원소 개수가 작은 것부터 정렬 시킨 후, 앞의 리스트부터 차례대로 없는 원소들을 answer에 넣어주면서 문제를 풀었습니다.
import re
def solution(s):
s = s[1 : len(s) - 1] # 가장 바깥쪽에 있는 "{"과 "}" 제거
s = re.findall('\{.*?\}', s) # "{숫자들}" 형태를 찾는다.
temp_list = [[] for i in range(len(s))]
for i in range(len(s)) : # [[숫자들], [숫자들], ...] 형태로 만들어준다.
temp = ''
for j in s[i] :
if j.isdigit() :
temp += j
else :
if temp != '' :
temp_list[i].append(int(temp))
temp = ''
num_list = [[] for i in range(len(s))]
for i in temp_list : # 리스트 내 원소 개수가 작은 것부터 정렬시킨다.
num_list[len(i) - 1].extend(i)
answer = [] # 앞의 리스트부터 새로 생겨난 원소를 차례대로 answer에 extend시킨다.
for i in range(len(num_list)) :
j = list(set(num_list[i]) - set(answer))
answer.extend(j)
return answer
다른 사람들의 풀이
좋은 풀이 2개를 가지고 왔습니다. 첫 번째는 단 7줄로 간단하게 문제를 푼 코드입니다. 숫자와 매치됨을 뜻하는 \d와 각 원소의 빈도를 바로 파악할 수 있는 Counter를 이용했고, lambda 함수를 통해 가장 많이 존재하는 원소 순서대로 answer list에 넣어 답안을 만들어 냈습니다. 정규 표현식, map, lambda 등 짧은 코드지만 많은 내용들을 배울 수 있었습니다.
두 번째는 strip과 split을 통해 이중 중괄호 속의 원소들을 손쉽게 끌어내는 코드입니다. 저는 중괄호를 벗겨내는데 다소 긴 코드가 필요했는데, 좋은 예시를 배울 수 있었습니다. 또한, sort()의 key에서, lambda 함수가 아닌 key = len 으로 길이 순 정렬이 될 수 있다는 점을 새롭게 알게 되었습니다!
# 풀이 1
import re
from collections import Counter
def solution(s):
s = Counter(re.findall('\d+', s))
return list(map(int, [k for k, v in sorted(s.items(), key=lambda x: x[1], reverse=True)]))
# 풀이 2
def solution(s):
answer = []
s1 = s.lstrip('{').rstrip('}').split('},{')
new_s = []
for i in s1:
new_s.append(i.split(','))
new_s.sort(key = len)
for i in new_s:
for j in range(len(i)):
if int(i[j]) not in answer:
answer.append(int(i[j]))
return answer
댓글남기기