본문 바로가기

Mining

Data Mining Scrap #1

#1 


<slide>


# Devs Love Bacon: Everything you need to know about Machine Learning in 30 minutes or less

http://www.hilarymason.com/presentations-2/devs-love-bacon-everything-you-need-to-know-about-machine-learning-in-30-minutes-or-less/


# twitter에서는 pig를 가지고 ML을.. 

https://speakerdeck.com/u/lintool/p/large-scale-machine-learning-at-twitter



<paper>


# Trustworthy Online Controlled Experiments: Five Puzzling Outcomes Explained

http://blog.markus-breitenbach.com/2012/07/06/puzzling-outcomes-in-controlled-experiments/

http://glinden.blogspot.kr/2012/07/puzzling-outcomes-in-ab-testing.html


controlled experiments (=A/B test)의 결과가 이상하게 나왔을때의 이유와 어떻게 해야될지에 대한 경험.. 


  1. the OEC for a Search Engine

    - OEC (overall evaluation criterion)을 무엇으로 하는가가 중요하다. 

    - 잘못된 검색엔진의 결과 => 쿼리수 상승, 수입증가(광고클릭 증가) 

    - ??? => 원하는 검색결과가 나오지 않아서 클릭을 많이 했다. => 장기적으로 유저감소 

    - distict queries/month = users/month * sessions/user * distinct queries/session 로 decompose..

    - distinct queries/session 는 검색엔진의 성능이 떨어져도 상승

    - sessions/user 를 봐야 실제로 성능이 좋아졌는지 판단 가능하다. 


  2. Click Tracking

    - 속도 감소 => 유저클릭 증가?? 


  3. Initial Effects Appear to Trend

    - primacy : 기존 유저가 바뀐데 적응을 못해 수치가 적게 나옴 

    - novelity : 기존 유저가 새로운 기능을 모두 눌러봐서 (궁금해서) 수치가 높게 나옴

    => new user만 측정?

    => 초기 7일 제거?

    => 분석 기간의 연장? 


  4. Experiment Length and Statistical Power

    - 분석기간을 늘린다고 CV(coefficient variable)이 낮아지지 않는 경우도 있다. 

    => 적당한 분석기간 필요 


  5. Carryover Effects

    - bucket test를 했던 유저의 경우에 test가 끝나도 일반유저와 동일한 수치가 되려면 시간이 필요하다. 

    => A/A test 필요 

    => bucket 테스트 마다 user를 indepent 하게 선택



<term>


# controlled experiments = A/B test = bucket test (거의 유사, 미묘한 차이..)


# 구글 판다 & 팽귄 

http://googlekoreablog.blogspot.kr/2012/07/blog-post.html

- 구글 코리아에서 구글 판다 알고리즘이 한국에도 적용되었다고 함. 

- 구글 판다는 사이트 품질의 높고 낮음을 평가하는 ML기반 알고리즘.

- 구글 팽귄은 주로 SEO를 악용한 사이트의 랭킹을 낮추는 알고리즘.


# 구글 판다

http://en.wikipedia.org/wiki/Google_Panda

aimed to lower the rank of "low-quality sites" or "thin sites", and return higher-quality sites near the top of the search results.

- scraper sites

- thin content sites

- similar content sites

- badly structuerd sites


# 구글 팽귄

http://en.wikipedia.org/wiki/Google_Penguin

The update is aimed at decreasing search engine rankings of websites that violate Google’s Webmaster Guidelines by using black-hat SEO techniques such as keyword stuffing,cloaking, participating in link schemes, deliberate creation of duplicate content, and others.


# keyword stuffing

 - Coloring text the same as the background color

 - Positioning text far away from the center of the webpage

 - Putting text behind a picture so that it cannot be seen



<etc>


# sed one line

http://sed.sourceforge.net/sed1line.txt


# awk one line

http://www.pement.org/awk/awk1line.txt





'Mining' 카테고리의 다른 글

데이터 분석 과정에서의 적절한 동료.  (0) 2012.09.01
직관, 통찰, 지식, 과학. 끄적끄적..  (0) 2012.05.01
Pig UDFs  (0) 2012.02.22
Hadoop Lzo 압축 설정 (2)  (1) 2011.07.19
Hadoop LZO 압축 설정  (0) 2011.07.06