분류 전체보기
-
대용량 데이터를 수집하기 위한 생산성있는 웹 크롤러의 구조Software Development/Data Engineering 2020. 11. 5. 19:26
1. 웹 크롤러? 웹 스크래퍼? 웹 크롤링과 웹 스크래핑의 정의에 의하면 둘의 의미는 엄연히 다르다고 볼 수 있지만 위키피디아 정의에 따르면 웹 스크래핑이 웹 크롤링의 부분 집합이라 볼 수 있습니다. 웹 크롤링: 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램이다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는데 사용되며, 검색 엔진은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 인덱싱한다. 또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는 데도 사용된다[1]. 웹 스크래핑: 웹 스크래핑은 페이지를 가져 와서 추출하는 것을 포함하여 ..
-
[Python] 동기, 비동기, 블럭, 넌블럭 파이썬으로 알아보기Software Development/Python 2020. 10. 21. 16:46
개발자라면 한 번씩 듣게되는 동기(Synchronous), 비동기(Asynchronous), 블럭(Block), 넌블럭(Non-block)을 Python코드를 통해 알아보겠습니다. 우선 무엇을 의미하는지 정의하겠습니다. Block : 호출된 함수가 자신이 할 일을 모두 마칠 때까지 제어권을 계속 가지고서 호출한 함수에게 바로 돌려주지 않는 것.[2] ex) 세탁기를 돌리는 동안 아무것도 하지 않고 기다린다. Non-block : 호출된 함수가 자신이 할 일을 채 마치지 않았더라도 바로 제어권을 건네주어(return) 호출한 함수가 다른 일을 진행할 수 있도록 해주는 것.[2] ex) 세탁기를 돌리는 동안 TV를 본다. Synchronous : 호출된 함수의 수행 결과 및 종료를 호출한 함수가(호출된 함수..
-
[Oracle] 오라클 - Function 생성 및 실행 방법Software Development/Database 2020. 10. 15. 20:37
오라클에서는 TO_DATE, CONCAT 등과 같은 내장함수가 있지만 사용자가 정의하여 사용할 수 있는 사용자 정의 함수(User Defined Function)를 생성할 수도 있다. 기본적인 함수를 만드는 문법은 아래와 같다. CREATE OR REPLACE FUNCTION function_name (agr1 NUMBER) RETURN VARCHAR2 IS return_value VARCHAR(14); BEGIN SELECT data INTO return_value FROM TABLE WHERE sequence = arg1 and ROWNUM =1; RETURN return_value; END; 생성한 함수를 실행하는 방법은 아래와 같다. SELECT function_name(1000413) FROM ..
-
[Python] 파이썬 - asyncio callback 알아보기Software Development/Python 2020. 9. 24. 20:19
아래의 정의는 위키피디아에서 가져온 callback(콜백)에 대한 정의이다. 콜백(callback)은 다른 코드의 인수로서 넘겨주는 실행 가능한 코드를 말한다. 콜백을 넘겨받는 코드는 이 콜백을 필요에 따라 즉시 실행할 수도 있고, 아니면 나중에 실행할 수도 있다. 아래는 파이썬 공식 문서의 예제를 변형 시킨 코드이다. import asyncio import datetime import time import random def display_date(end_time, loop, count): now_time = datetime.datetime.now() print(now_time) if (loop.time() + 1.0) < end_time: ran_int = random.randint(0, 3) tim..
-
[Data Structure] 자료구조 - ArrayStudy/Data Structure 2020. 9. 21. 23:47
1. Introduction to Arrays Array는 item들의 collection이 메모리에 연이은 위치에저장된다. 여러 같은 type의 여러 item을 같이 저장하는 것이다. 기본 값에 offset을 추가하여 각 요소의 위치를 쉽게 계산할 수 있다. 더보기 offset: 기준이 되는 주소에 더해지는 값 각 element는 array의 index로 식별할 수 있다. Array의 장점 1. Array에서는 element의 random access가 된다. 이 말은 위치로 element에 접근하는 것이 빠르다는 것이다. 2. Array는 성능에 큰 차이를 만들 수 있는 더 나은 캐시 locality를 가지고 있다. 더보기 locality: 기억 장치 내의 정보를 균일하게 접근하는 것이 아닌 어느 한..
-
[Python] Pylint - 정의와 예제를 통해 Python 린트 툴 알아보기Software Development/Python 2020. 9. 3. 19:00
Lint? 린트(lint) 또는 린터(linter)는 소스 코드를 분석하여 프로그램 오류, 버그, 스타일 오류, 의심스러운 구조체에 표시(flag)를 달아놓기 위한 도구들을 말합니다. 이 용어는 C 언어 소스 코드를 검사하는 유닉스 유틸리티에서 왔습니다. Pylint란 Pylint는 Python 코드의 에러를 확인하고, 표준을 적용시키며 코드의 이상한 부분을 찾는 도구입니다. 또한 특정 유형의 에러를 찾을 수 있으며, 코드 일부분에 대한 리팩토링을 제공하며 코드의 복잡성에 대한 자세한 정보를 제공하기도 합니다. Python에서 다른 종류의 유사한 툴로 pychecker, pyflakes, flake8, mypy 등이 있습니다. Pylint에서 사용하는 기본적인 코딩 스타일은 PEP8이라 보시면 됩니다. ..
-
[Recommeder System] 추천 시스템 - 관련 자료 및 사이트 정리Research/Personalized Recommender Systems 2020. 8. 28. 10:23
작성중... Keras Implementation of Item2Vec[Code] : https://github.com/lujiaying Lua Implementation of Word2Vec[Code] : https://github.com/yoonkim/word2vec_torch/blob/master/word2vec.lua Tensorflow Implementation of Word2Vec[Code] : https://github.com/carpedm20/word2vec-tensorflow 추천 시스템에 대한 전반적인 이해를 위한 글[설명] : https://www.oss.kr/info_techtip/show/5419f4f9-12a1-4866-a713-6c07fd36e647 ALS Implementat..