게시글의 제목들이 '일반적'으로 가지는 규칙

게시물 제목 규칙

  1. 이름은 약 70글자로 제한되며 너무 길면 … 문자로 대체된다.
    이 경우 보통 깊은 크롤링을 수행하면 원래 문자를 검색할 수 있다.
  2. 게시판에서 토렌트 파일의 확장자인 '.torrent' 문자열은 거의 발견되지 않는다.
  3. 보통 문자열의 가장 마지막의 하이픈(-) 이후에 릴 그룹명이나 파일의 확장자를 적는다.
  4. 마지막 하이픈 이후의 문자열에서 하나 이상의 마침표(.)가 발견될 수 있다.
  5. 가장 마지막에 발견되는 마침표의 다음의 문자열은 보통 파일의 확장자를 의미한다.
  6. 문자열의 처음에는 대괄호([, ]) 한 쌍이 발견될 수 있다. 이 사이의 문자열은 보통 방송국의 이름, 릴 그룹 명등의 부가적인 정보이다.
  7. 날짜는 주로 6자리의 숫자(YYMMDD)로 표시하나, YYYYMMDD, YYYY-MM-DD(DDD), YY-MM-DD 등 변동이 있을 수 있다.
  8. 회차 표시는 보통 Enn, Ennn 형태로 표시하나, 'nn회' 처럼 표시하기도 한다. 시즌 표시는 보통 Snn 형태로 표시한다. 해외 드라마는 SnnEnn 형태로 사용된다.
  9. 가끔 이스케이프된 인코딩된 문자(')가 발견되기도 한다. 이는 원래 문자로 되돌려야 한다.
  10. X264, H264 문자열이 붙는다면 720P, 450P와 같은 문자가 붙기도 한다. H, P, X는 대/소문자가 혼용된다.
  11. 논리적인 단위 구분은 보통 하나의 점이나 공백으로 한다. 그러나 점이 연속되면 일반 문자열로 취급된다.
  12. 프로그램 이름이 영어(외래어)인 경우는 한글로 발음을 적거나 영문 제목을 그대로 적기도 한다.
  13. 프로그램의 주 제목은 보통 문자열의 앞부분에 나온다. 프로그램의 이름은 방송사에서 공식적으로 사용하는 풀네임의 일부나 전부를 사용한다. '마의'와 같이 정확히 이름이 매치되어야 하는 경우도 있다. (eg. '드라마의 제왕') 프로그램의 제목은 보통 비교적 띄어쓰기 등이 잘 지켜지나, 예외가 존재한다. 주 제목 이후에 발견되는 어떤 문자열들은 부제목이 될 수도 있고 출연자들의 목록 등의 부가적인 정보가 있을 수도 있다.
  14. 사용한 코덱의 종류와 원본 소스에 대한 정보를 유추할 수 있는 문자열이 발견된다. 알파벳은 대/소문자가 혼용된다.
    • HDTV SDTV
    • 720p 450p
    • x264 h264 XviD
    • mp3 aac ac3
    • .flv .ts .avi .mkv .mp4