차이
문서의 선택한 두 판 사이의 차이를 보여줍니다.
| 양쪽 이전 판이전 판다음 판 | 이전 판 | ||
| wiki:sw:dokuwiki:improvement [2023/06/15 01:19] – 제거됨 - 바깥 편집 (Unknown date) 127.0.0.1 | wiki:sw:dokuwiki:improvement [2025/11/06 01:12] (현재) – 바깥 편집 127.0.0.1 | ||
|---|---|---|---|
| 줄 1: | 줄 1: | ||
| + | < | ||
| + | |||
| + | # Ideas for improving Dokuwiki | ||
| + | |||
| + | ## 개요 | ||
| + | [[wiki: | ||
| + | |||
| + | ## 한국어 처리 | ||
| + | 현재 도쿠위키는 라틴 문자를 제외한 대부분의 아시안 언어를 예외처리하여 인덱싱한다. 이 때, 일본어/ | ||
| + | |||
| + | 1. 한국어의 경우 (관사의 한계는 있으나) 분명하게 띄어쓰기를 구현함에도 불구하고, | ||
| + | 2. 인덱서 파일에 저장되는 ‘단어’의 길이가 글자에 따라 달라진다. 예를 들어 ‘가’와 ‘간’은 다른 길이의 단어로 인식된다. 이는 직관에 반한다. 현재 내부적으로는 큰 문제가 없으나, 잠재적인 문제가 발생할 소지는 여전히 있다. | ||
| + | |||
| + | 이를 해결하기 위해, 다음과 같은 순서로 도쿠위키 코드를 수정한다. | ||
| + | |||
| + | 1. Asian 단어 처리를 위한 regex filtering에 한글 자모/ | ||
| + | 2. Strlen 대신 mb_strlen으로 단어의 길이를 계산한다. | ||
| + | 3. 가능하다면, | ||
| + | 4. 단어 처리 방식이 바뀌었으므로, | ||
| + | |||
| + | 이 방식이 가질 수 있는 단점은 다음과 같다. | ||
| + | |||
| + | - 인덱서에 저장되는 단어의 길이가 길어짐에 따른 퍼포먼스 문제? | ||
| + | - 검색 과정에서의 에러? | ||
| + | - 기타 문제들 | ||
| + | |||
| + | 이에 대해서는 포럼에 물어봐야 할 듯. | ||
| + | |||
| + | ### 중단 | ||
| + | 1까지는 구현을 성공했으나, | ||
| + | |||
| + | ## 문서 유사성 | ||
| + | - 단어 인덱스를 사용하므로, | ||
| + | - computational load는 백링크와 비슷한 방식으로 해결하면 될 것으로 보임. | ||
| + | ---- struct data ---- | ||
| + | pageinfo.status | ||
| + | ---- | ||
