re 패키지를 이용해서 정규 표현식을 이용해야 하는 문제였습니다. 텍스트 마이닝 쪽은 아직 많이 부족한데, 조만간에 정규 표현식을 더 공부하고 정리해서 포스트를 올려보겠습니다!

문제

튜플 링크

셀수있는 수량의 순서있는 열거 또는 어떤 순서를 따르는 요소들의 모음을 튜플(tuple)이라고 합니다. n개의 요소를 가진 튜플을 n-튜플(n-tuple)이라고 하며, 다음과 같이 표현할 수 있습니다.

  • (a1, a2, a3, …, an)

튜플은 다음과 같은 성질을 가지고 있습니다.

  1. 중복된 원소가 있을 수 있습니다. ex : (2, 3, 1, 2)
  2. 원소에 정해진 순서가 있으며, 원소의 순서가 다르면 서로 다른 튜플입니다. ex : (1, 2, 3) ≠ (1, 3, 2)
  3. 튜플의 원소 개수는 유한합니다.

원소의 개수가 n개이고, 중복되는 원소가 없는 튜플 (a1, a2, a3, ..., an)이 주어질 때(단, a1, a2, …, an은 자연수), 이는 다음과 같이 집합 기호 ‘{‘, ‘}’를 이용해 표현할 수 있습니다.

  • {{a1}, {a1, a2}, {a1, a2, a3}, {a1, a2, a3, a4}, … {a1, a2, a3, a4, …, an}}

예를 들어 튜플이 (2, 1, 3, 4)인 경우 이는

  • {{2}, {2, 1}, {2, 1, 3}, {2, 1, 3, 4}}

와 같이 표현할 수 있습니다. 이때, 집합은 원소의 순서가 바뀌어도 상관없으므로

  • {{2}, {2, 1}, {2, 1, 3}, {2, 1, 3, 4}}
  • {{2, 1, 3, 4}, {2}, {2, 1, 3}, {2, 1}}
  • {{1, 2, 3}, {2, 1}, {1, 2, 4, 3}, {2}}

는 모두 같은 튜플 (2, 1, 3, 4)를 나타냅니다.

특정 튜플을 표현하는 집합이 담긴 문자열 s가 매개변수로 주어질 때, s가 표현하는 튜플을 배열에 담아 return 하도록 solution 함수를 완성해주세요.

제한사항

  • s의 길이는 5 이상 1,000,000 이하입니다.
  • s는 숫자와 ‘{‘, ‘}’, ‘,’ 로만 이루어져 있습니다.
  • 숫자가 0으로 시작하는 경우는 없습니다.
  • s는 항상 중복되는 원소가 없는 튜플을 올바르게 표현하고 있습니다.
  • s가 표현하는 튜플의 원소는 1 이상 100,000 이하인 자연수입니다.
  • return 하는 배열의 길이가 1 이상 500 이하인 경우만 입력으로 주어집니다.

입출력 예

사진 1

내 풀이

문자열을 다루는 데에 여러가지 방법이 있지만, 가장 유용하다고 생각하는 re 패키지를 이용했습니다. 바깥쪽에 있는 중괄호를 제거하여 이중 중괄호를 푼 후에 re.findall()을 통해 해당되는 문자열을 찾고 리스트 형태로 저장했습니다. (ex. ['{2}', '{2, 1}', '{2, 1, 3}', '{2, 1, 3, 4}']) 여기서 \{.*?}\ 부분은 줄 바꿈 문자를 제외한 모든 문자를 0개 이상으로 찾는데, 이를 최소 크기로 찾는 것을 의미합니다. 이 부분에 대한 자세한 내용은 추후에 정규 표현식 포스트에서 다루도록 하겠습니다. 다음으로 중괄호로 둘러싸인 부분들을 다시 리스트 형태로 바꿔줍니다. (ex. [[2], [2, 1], [2, 1, 3], [2, 1, 3, 4]]) 리스트 내 원소 개수가 작은 것부터 정렬 시킨 후, 앞의 리스트부터 차례대로 없는 원소들을 answer에 넣어주면서 문제를 풀었습니다.

import re

def solution(s):
    s = s[1 : len(s) - 1]     # 가장 바깥쪽에 있는 "{"과 "}" 제거
    s = re.findall('\{.*?\}', s)     # "{숫자들}" 형태를 찾는다.
    temp_list = [[] for i in range(len(s))]

    for i in range(len(s)) :     # [[숫자들], [숫자들], ...] 형태로 만들어준다.
      temp = ''
      for j in s[i] :
        if j.isdigit() :
          temp += j
        else :
          if temp != '' :
            temp_list[i].append(int(temp))
            temp = ''

    num_list = [[] for i in range(len(s))]
    for i in temp_list :     # 리스트 내 원소 개수가 작은 것부터 정렬시킨다.
      num_list[len(i) - 1].extend(i)

    answer = []     # 앞의 리스트부터 새로 생겨난 원소를 차례대로 answer에 extend시킨다. 
    for i in range(len(num_list)) :
      j = list(set(num_list[i]) - set(answer))
      answer.extend(j)

    return answer

다른 사람들의 풀이

좋은 풀이 2개를 가지고 왔습니다. 첫 번째는 단 7줄로 간단하게 문제를 푼 코드입니다. 숫자와 매치됨을 뜻하는 \d와 각 원소의 빈도를 바로 파악할 수 있는 Counter를 이용했고, lambda 함수를 통해 가장 많이 존재하는 원소 순서대로 answer list에 넣어 답안을 만들어 냈습니다. 정규 표현식, map, lambda 등 짧은 코드지만 많은 내용들을 배울 수 있었습니다.

두 번째는 strip과 split을 통해 이중 중괄호 속의 원소들을 손쉽게 끌어내는 코드입니다. 저는 중괄호를 벗겨내는데 다소 긴 코드가 필요했는데, 좋은 예시를 배울 수 있었습니다. 또한, sort()의 key에서, lambda 함수가 아닌 key = len 으로 길이 순 정렬이 될 수 있다는 점을 새롭게 알게 되었습니다!

# 풀이 1
import re
from collections import Counter

  def solution(s):
    s = Counter(re.findall('\d+', s))
    return list(map(int, [k for k, v in sorted(s.items(), key=lambda x: x[1], reverse=True)]))
  
# 풀이 2
def solution(s):
    answer = []
    s1 = s.lstrip('{').rstrip('}').split('},{')
    new_s = []
    for i in s1:
        new_s.append(i.split(','))

    new_s.sort(key = len)
    for i in new_s:
        for j in range(len(i)):
            if int(i[j]) not in answer:
                answer.append(int(i[j]))

    return answer


Reference

  1. 076923


DATA_100%_LOGO_LIGHT



댓글남기기