20131114 SK Tech planet 2013(Technologies Changeing the World)
- 일시: 2013년 11월 14일 오전 9시
- 장소: 코엑스 인터네셔널 호텔
기술이 세상을 바꾼다.
지난 11월 14일에 삼성동 코엑스 인터콘티넨탈 호텔 하모니볼룸에서 테크플래닛Tech Planet 2013(http://techplanet.skplanet.com/)이 열렸다. 2번째로 열리는 이번 행사는 SK Planet에서 주관하는 기술컨퍼런스로서 ‘해외 최신 기술트렌드’의 흐름을 살펴볼 수 있는 컨퍼런스로 자리잡아가고 있다. 올해 2013년의 주제는 ‘빅데이터Big Data’였다. 세계적으로 높은 기술력을 보유하고 있는 다양한 기업들이 참여하여 빅데이터에 대한 그들의 노하우를 전달해주었다.
Keynote speaker
- 발표자: 서진우 CEO
- 온라인과 오프라인의 결합
- 과거 in the past, Commerce
- 기술의 발달과 함께 환경의 변화가 찾아왔다.
- TV의 출현
- 광고
- 홈쇼핑
- 제한적이지만, 양방향의 경제활동이 이루어지기 시작했다.
- TV의 출현
- 인터넷의 등장 이후 물리적인 제약을
- 뛰어넣은 양방향의 커머스 활동이 생겨나면서 오프라인에서 온라인으로 이동
- 온라인 경제활동의 성장: 1.5조(2000) -> 35조(2012)
- 커머스에 대한 이야기
- … SKP의 주력은 기술집중이 아닌 커머스와 컨텐츠, 그리고 그것을 활용한 수익창출…인가?
- 2012년 한국 소비시장 규모
- 전체 349조원
- 오프라인 87%
- 온라인 13%
- 전체 349조원
- 4가지 관계Interaction
- Consumer to Consumer(소비자)
- Consumer to Merchant(판매자)
- Merchant to Producer(생산자)
- Producer to Consumer
Panel Discussion: 온-오프라인 서비스 제공을 위한 데이터 및 인프라 활용
- 박태웅/ KTH
- 전윤호/ SKP CTO
- SKP는 오래전부터 빅데이터에 대한 투자를 해왔다.
단순하게, 발표의 내용을 기록하는 것보다 그 발표 내용 속에서 내가 해야할 것들과 할 수 있는 것들을 찾아내고 준비하려는 자세를 갖추는 것이 중요하다.
오늘 아침에 했던 이야기 하나가 큰 인상을 주었다.
‘SK Planet, Coupang, Kakao’ 지금까지의 나는 그 기업 안에 있는 개발자들을 보고 있었다. 그 개발자들의 모습을 보면서 부러워하고만 있었다. 그들 개인에 대해서만 관심을 가지고 있었는지도 모른다. 그런데, 이번 SK Planet의 CEO의 키노트를 들으며, 이런 내 시야의 협소함을 느끼게 되었다. 내가 알고 있는 개발자들은 ‘이익 창출’을 목적으로 하는 ‘기업’이 채택한 ‘전략 중 하나인 기술’을 구현하기 위해서 고용된 개발자들이라는 사실.
그 기업에 들어가기 위해서는 그 기업에게 적합한 인물이 되어야 한다. 나는 그 준비가 되어 있는가? 이에 대해 깊이 반성해보자.
‘기술은 기업이 수익 창출을 위해 채택한 전략 중 하나’라는 것을 잊지 말자.
도시락은 깔끔하니 괜찮더군요. ㅡ_-);; 다만 저 가운데 있는 약과는 꽤 오래되었는지 딱딱하더라구요. 이것도... 꽤 비싸겠죠? ㅡ0-)?;;
Scaling Data at Tumblr(Volume, Latency, and Throughput)
- Thomas christ / Senior engineer / Tumblr)
- tumblr
- 144.3M blog, 65.7B post
- Blog view
- Dashboard View
- 개인화된 피드, 전결적인 asymmentric graph
- Dashboard Must go to the most recent post index database
- create migrating hot head in the index shard infrastructure
- Stats Today
- Top 15 in US reach
- 20B page views per month
- Top 15 in US reach
- Data growth
- 2012 31.5b row, 13.5T byte
- today: 229b row
- Type of data access
- low latency, cache data
- memcached
- write through caching
- 9 pools(100servers)
- ~5TB
- 모든 데이터를 캐시처리
- Large scale batch processing
- business intelligence
- spam detection
- advertieser analytics
- personalized e-mail campaigns
- search ranking and weighting
- jetpants - automated MySQL
- command line suite of tools / programmatic library
- leverages collins for state
- master promotions
- replica management
- jetpants - sharding
- application data becomes too big for one database
- Blog shards
- functional partitions
- jetpants - shard splits
- jetpants - shard merge
- Shard!!
- Jetpants: a toolkit for huge MySQL topologies
- tchrist@tumblr.com
Scaling Twitter with MySQL
- 발표자: Calvin sun(@calvinsun201)
- InnoDB, Oracle
- MySQL 은 오픈소스 데이터베이스 중 세계에서 가장 널리 사용되고 있다.
- 기업들은 자신들이 사용하는 오픈소스 기술들에 대한 전담팀을 운영하고 있다.
- Twitter: public, real-time, conversational, distributed
- Twitter Data: tweets
- Twitter Data: vine
- Twitter Data: social graph
- relationship
- mention
- Twitter data: time series
- Twitter scale challenges
- 트윗이 해마다 폭발적으로 증가하는 상황을 목격
- Challenge
230m active users worldwide
300k qps for timlines
- naive timeline “materialization” can be slow
record 143,199 tweets per second
- typical day: average 7,000 TPS
- agility of scale
- increasing application load
- ability to add / remove resources quickly
- deploy….!!
- MySQL @ Twitter
- Monolithic architecture
- Partioning, replication and indexing
- build seperate indexes
- MySQL / InnoDB is really good at!
- InnoDB is high performance, efficient, stable, safe and well-understod
- Low latency
- avoid those MySQL does not do well
- MySQL replication does not scale
- MySQL does not work for ID generation
- unique IDs are generated by snowflake
- Observability is key
- add counter for everthing important
- add lightweight I-S tables for tablespace management, buffer ppols, etc
- make metrics collection cheapter
- fail faster
- implement server-side statement timeout
- monitor execution time and proactively kill query
- restart faster
- export and resotre InnoDB buffer pool
- zllos bulk loading page
- utilize modern hardware
- NUMA optimization
- SSD optimization
- reduce space consumption
- reduce b-tree splits
- understand queries
- new application oriented query stats
- learn from community
- MySQL has a very good ecosystem
- next
- MySQL 5.6
- data comperssion
Reaching a billion customers with HTML5 & web apps
- 발표자: David dehgham / chief software architecture, mobotap
- Dolphin browser
- About me
- 돌핀 브라우저가 1억명이 사용하면서 얻은 경험들을 공유한다.
- 세계곳곳을 돌아다니면서 일하고 있구나.
- 돌핀 소개
- 터치스크린을 위한 설계
- HTML5에 대해서 높은 성능과 최적화를 제공
- 모바일만 제공
- 모바일 앱과 클라우드
- 다양한 형태의 기기와 화면을 커버한다.
- 신흥 시장(Emerging market)에 대한 기회
- 미국에서 만들었지만, 미국 외에서 사용량이 더욱 많다.
- 구글 10억 유저중 대부분이 해외에 존재함
- 인터넷 보급이 확대될수록 사용자는 폭증하게 될 것이다.
- 이에 대한 돌핀의 경험
- 모바일을 통한 접근
- 낮은 가격: $50~$100
- 대량 생산
- 사용자별 낮은 수익
- Many languages and cultures
- Mostly uneducated user, 교육받지 못한 사용자들
- 복잡한 것을 사용하지 못한다.
- 대부분 안드로이드일 것이며
- 다음 십억 사용자들…
- 중국, 한국, 일본이 모바일 세계 허브로 떠오를 것이다.
- 미국에서 만들었지만, 미국 외에서 사용량이 더욱 많다.
- 지구에서 ‘싸이’를 모르는 사람이 있을까?
- 삼성, 현대, 기아, 엘지는 미국에서도 잘 알려진 브랜드이다.
- 안전성을 믿기 때문에 산다?
- 삼성, 현대, 기아, 엘지는 미국에서도 잘 알려진 브랜드이다.
돌핀의 이야기
- history
- 2009년 창업
- July, 2010 - 1M user
- Nov, 2011 - 10M
- Aug, 2012 - 50M
- 2013 - 80M user
- 10가지 교훈
- talk to your users, 사용자들과 이야기 하라.
- 전세계의 사용자들이 있다.
- Iterate Fast
- 빠르게 기능을 추가하고 확인받고 뺴라.
- 중국에서는 매주 출시
- 미국버전은 2달에 한번 출시
- Build a hybrid HTML6 app
- Take more risk with quality
- 품질을 저하시켜서는 안된다.
- 버그가 발생한 경우에는 즉각적으로 처리해야 한다.
- 좋지 않은 코드를 생성했을 때, 이를 해소할 방안을 마련해라.
- Localize, not just translate
- 현지화 되어야 한다.
- 단순히 번역한 것만으로는 부족하다.
- Translation resources: crowdin.com
- 중국에서는 PC가 없는 사용자도 많았기 때문에 고려해야했다.
- 지역 사용자의 니즈를 확인하고 그에 적절한 컨텐츠를 제공해야 한다.
- 국기, 스포츠팀 등을 사용하지 않는 것이 좋다.
- 네이티브 앱 스토어에 출시하라.
- trigger.io 는 애플스토어없이 사용
- 신흥 웹 앱 스토어에 출시한다.
- 간결한 웹앱을 검색해서 사용해보고 다운로드할 수 있도록
- 웹앱 스토어 제공사
- dolphin
- amazon.com
- famo.us
- Use HTML5, CSS3, JS frameworks
- HTML5는 웹사이트를 위한 인증된 언어이다.
- CSS3 는 풍부한 표현과 애니메이션을 지원
- 풍부한 환경 제공
- phone.js -> jQuery mobile 의 느린 것을 제거
- Famo.US
- JS only platform
- Matrix를 이용해서 객체를 움직이고 애니메이션을 처리
- Game JS Frameworks
- Ludei
- Tresensa
- planet.js
- Partnership in emerging markets
- 파트너쉽을 유지하는데 드는 비용을 최소화 해야한다.
- User other distribution channels
- 사용자들은 구글 스토어 이외의 다른 앱스토어를 활용하고 있다.
- 1억명의 사용자를 확보할 것이다.
- 생각보다… PC 툴을 통한 설치가 많다.
신흥 시장에 대한 선점을 이룰 수 있다면 매우 많은 이득을 누리게 될 것이다.
- talk to your users, 사용자들과 이야기 하라.
- history
모바일 시장의 미래는 밝다.
- 안드로이드에 집중하는 이유는 무엇인가?
- 아이폰은 적대적인 환경이다.
- 돌핀 브라우저에게는 안드로이드가 유리하다.
- 지역별 브랜드 관리
- 지역화된 제품에 대한 차이가 발생했을 때 이에 대한 이질감을 느끼게 된다면 어떻게 될까?
- 일관성을 유지하는 것도 중요하지만, 그것을 보는 것은 팀일뿐…
- 공략하는 지역에 최적화된 방법을 채택한다.
- 100개 이상의 빌드를 관리하고 있다.
- 신흥시장에서 수익모델은 어떤가?
- 가장 중요한 부분이다.
- 유저당 비용을 줄인다.
- 사용자 환경설치비용을 줄여야 한다.
- 지출비용이 크다면, 다른 회사와 파트너쉽을 맺어서 대응한다.
- 중국은 서버도 많고, 뉴스 크롤링하고 뉴스를 제공하는 등 많은 지출이 있음
- 이를 해결할 수 있는 경제적인 해결책을 가지고 있다면, 미래의 승자가 될 수 있다.
Hadoop in the enterprise
- Modern Architecture Hadoop2
- 얼리어답터와 후발자 사이의 큰 격차가 있다.
- 작년까지는 얼리어답터가 사용한 이후, 사용자가 확충되면서 주류사용자가 다가올 것이다.
- 얼리어답터를 넘어서 주류로 들어서기 위한 준비가 필요하다.
- The CHASM
- 웹기업, 제조사, 금융권에서 하둡을 사용하여 데이터를 빠르게 처리하기 시작했다.
- Hadoop2 핵심포인트
- Mixed workloads -> YARN
- Interactive Query -> Hive on Tez(Hive 100배 향상)
- Reliability -> Full stack HA
- 하둡 벤더마다 서로 다른 방식으로 사용했던 것을 하둡에서 제공한다.
- Point in time recovery -> Snapshots
- YARN
- Hadoop 1.0: Batch
- 하둡을 위해 사이클을 별도의 사이클로 제공
- HDFS, MapReduce
- Hadoop 2.0
- HDFS: redundant, reliable storage
- YARN: cluster resource management
- MapReduces: data Processing
- Others: Data processing
- 하둡 클러스터를 50개 사용하다가 2년후 추가할 때 동일한 것을 사용할 것인가?
- YARN을 통해서 보다 효과적인 클러스터를 관리할 수 있다.
- Application은 YARN을 겨냥해서 개발하면 된다.
- Hadoop 1.0: Batch
- 엔터프라이즈 요구사항: 배치에 앞서서 처리
- Storm: 복잡한 스트리밍 엔진
- Old School Hadoop: MapReduce
- New School Hadoop with YARN
- 노드에 대한 관리를 개발자가 YARN을 통해서 할 수 있게 되었다.
- 5 Key Benefits of YARN
- Scale
- Compatibility with MapReduce
- Improved cluster utilization
- 보다 향상된 자원사용 능력
- New Programming models
- YARN의 탁월한 사항 중 하나는 자바 이외의 언어도 지원한다.
- Agility
- Apache Tez
- MapReduce를 대체할 수 있는 데이터처리 프레임워크
- 낮은 성능의 애플리케이션에서의 성능을 향상시킴
- 잡Job을 감소시킬 수 있다.
- SQL-IN-Hadoop with Apache Hive
- Stinger Initiative Simple focus(100x 성능향상
- HiveQL을 SQL과 유사하게 만들자.
- Hive: More SQl & 100x Faster