Mining

Data Mining Scrap #1

upepo 2012. 7. 24. 10:20

#1 


<slide>


# Devs Love Bacon: Everything you need to know about Machine Learning in 30 minutes or less

http://www.hilarymason.com/presentations-2/devs-love-bacon-everything-you-need-to-know-about-machine-learning-in-30-minutes-or-less/


# twitter에서는 pig를 가지고 ML을.. 

https://speakerdeck.com/u/lintool/p/large-scale-machine-learning-at-twitter



<paper>


# Trustworthy Online Controlled Experiments: Five Puzzling Outcomes Explained

http://blog.markus-breitenbach.com/2012/07/06/puzzling-outcomes-in-controlled-experiments/

http://glinden.blogspot.kr/2012/07/puzzling-outcomes-in-ab-testing.html


controlled experiments (=A/B test)의 결과가 이상하게 나왔을때의 이유와 어떻게 해야될지에 대한 경험.. 


  1. the OEC for a Search Engine

    - OEC (overall evaluation criterion)을 무엇으로 하는가가 중요하다. 

    - 잘못된 검색엔진의 결과 => 쿼리수 상승, 수입증가(광고클릭 증가) 

    - ??? => 원하는 검색결과가 나오지 않아서 클릭을 많이 했다. => 장기적으로 유저감소 

    - distict queries/month = users/month * sessions/user * distinct queries/session 로 decompose..

    - distinct queries/session 는 검색엔진의 성능이 떨어져도 상승

    - sessions/user 를 봐야 실제로 성능이 좋아졌는지 판단 가능하다. 


  2. Click Tracking

    - 속도 감소 => 유저클릭 증가?? 


  3. Initial Effects Appear to Trend

    - primacy : 기존 유저가 바뀐데 적응을 못해 수치가 적게 나옴 

    - novelity : 기존 유저가 새로운 기능을 모두 눌러봐서 (궁금해서) 수치가 높게 나옴

    => new user만 측정?

    => 초기 7일 제거?

    => 분석 기간의 연장? 


  4. Experiment Length and Statistical Power

    - 분석기간을 늘린다고 CV(coefficient variable)이 낮아지지 않는 경우도 있다. 

    => 적당한 분석기간 필요 


  5. Carryover Effects

    - bucket test를 했던 유저의 경우에 test가 끝나도 일반유저와 동일한 수치가 되려면 시간이 필요하다. 

    => A/A test 필요 

    => bucket 테스트 마다 user를 indepent 하게 선택



<term>


# controlled experiments = A/B test = bucket test (거의 유사, 미묘한 차이..)


# 구글 판다 & 팽귄 

http://googlekoreablog.blogspot.kr/2012/07/blog-post.html

- 구글 코리아에서 구글 판다 알고리즘이 한국에도 적용되었다고 함. 

- 구글 판다는 사이트 품질의 높고 낮음을 평가하는 ML기반 알고리즘.

- 구글 팽귄은 주로 SEO를 악용한 사이트의 랭킹을 낮추는 알고리즘.


# 구글 판다

http://en.wikipedia.org/wiki/Google_Panda

aimed to lower the rank of "low-quality sites" or "thin sites", and return higher-quality sites near the top of the search results.

- scraper sites

- thin content sites

- similar content sites

- badly structuerd sites


# 구글 팽귄

http://en.wikipedia.org/wiki/Google_Penguin

The update is aimed at decreasing search engine rankings of websites that violate Google’s Webmaster Guidelines by using black-hat SEO techniques such as keyword stuffing,cloaking, participating in link schemes, deliberate creation of duplicate content, and others.


# keyword stuffing

 - Coloring text the same as the background color

 - Positioning text far away from the center of the webpage

 - Putting text behind a picture so that it cannot be seen



<etc>


# sed one line

http://sed.sourceforge.net/sed1line.txt


# awk one line

http://www.pement.org/awk/awk1line.txt