허니몬의 IT 이야기/IT 트랜드
  • 일시: 2013년 11월 14일 오전 9시
  • 장소: 코엑스 인터네셔널 호텔

기술이 세상을 바꾼다.

지난 11월 14일에 삼성동 코엑스 인터콘티넨탈 호텔 하모니볼룸에서 테크플래닛Tech Planet 2013(http://techplanet.skplanet.com/)이 열렸다. 2번째로 열리는 이번 행사는 SK Planet에서 주관하는 기술컨퍼런스로서 ‘해외 최신 기술트렌드’의 흐름을 살펴볼 수 있는 컨퍼런스로 자리잡아가고 있다. 올해 2013년의 주제는 ‘빅데이터Big Data’였다. 세계적으로 높은 기술력을 보유하고 있는 다양한 기업들이 참여하여 빅데이터에 대한 그들의 노하우를 전달해주었다.


012345678910



Keynote speaker

01234

  • 발표자: 서진우 CEO
  • 온라인과 오프라인의 결합
  • 과거 in the past, Commerce
  • 기술의 발달과 함께 환경의 변화가 찾아왔다.
    • TV의 출현
      • 광고
      • 홈쇼핑
      • 제한적이지만, 양방향의 경제활동이 이루어지기 시작했다.
  • 인터넷의 등장 이후 물리적인 제약을
  • 뛰어넣은 양방향의 커머스 활동이 생겨나면서 오프라인에서 온라인으로 이동
    • 온라인 경제활동의 성장: 1.5조(2000) -> 35조(2012)
  • 커머스에 대한 이야기
    • … SKP의 주력은 기술집중이 아닌 커머스와 컨텐츠, 그리고 그것을 활용한 수익창출…인가?
  • 2012년 한국 소비시장 규모
    • 전체 349조원
      • 오프라인 87%
      • 온라인 13%
  • 4가지 관계Interaction
    • Consumer to Consumer(소비자)
    • Consumer to Merchant(판매자)
    • Merchant to Producer(생산자)
    • Producer to Consumer

Panel Discussion: 온-오프라인 서비스 제공을 위한 데이터 및 인프라 활용

  • 박태웅/ KTH
  • 전윤호/ SKP CTO
    • SKP는 오래전부터 빅데이터에 대한 투자를 해왔다.

단순하게, 발표의 내용을 기록하는 것보다 그 발표 내용 속에서 내가 해야할 것들과 할 수 있는 것들을 찾아내고 준비하려는 자세를 갖추는 것이 중요하다.

오늘 아침에 했던 이야기 하나가 큰 인상을 주었다.

‘SK Planet, Coupang, Kakao’ 지금까지의 나는 그 기업 안에 있는 개발자들을 보고 있었다. 그 개발자들의 모습을 보면서 부러워하고만 있었다. 그들 개인에 대해서만 관심을 가지고 있었는지도 모른다. 그런데, 이번 SK Planet의 CEO의 키노트를 들으며, 이런 내 시야의 협소함을 느끼게 되었다. 내가 알고 있는 개발자들은 ‘이익 창출’을 목적으로 하는 ‘기업’이 채택한 ‘전략 중 하나인 기술’을 구현하기 위해서 고용된 개발자들이라는 사실.

그 기업에 들어가기 위해서는 그 기업에게 적합한 인물이 되어야 한다. 나는 그 준비가 되어 있는가? 이에 대해 깊이 반성해보자.

‘기술은 기업이 수익 창출을 위해 채택한 전략 중 하나’라는 것을 잊지 말자.


도시락은 깔끔하니 괜찮더군요. ㅡ_-);; 다만 저 가운데 있는 약과는 꽤 오래되었는지 딱딱하더라구요. 이것도... 꽤 비싸겠죠? ㅡ0-)?;;


Scaling Data at Tumblr(Volume, Latency, and Throughput)

012345678910

  • Thomas christ / Senior engineer / Tumblr)
  • tumblr
    • 144.3M blog, 65.7B post
  • Blog view
  • Dashboard View
    • 개인화된 피드, 전결적인 asymmentric graph
  • Dashboard Must go to the most recent post index database
  • create migrating hot head in the index shard infrastructure
  • Stats Today
    • Top 15 in US reach
      • 20B page views per month
  • Data growth
    • 2012 31.5b row, 13.5T byte
    • today: 229b row
  • Type of data access
    • low latency, cache data
  • memcached
    • write through caching
    • 9 pools(100servers)
    • ~5TB
    • 모든 데이터를 캐시처리
  • Large scale batch processing
    • business intelligence
    • spam detection
    • advertieser analytics
    • personalized e-mail campaigns
    • search ranking and weighting
  • jetpants - automated MySQL
    • command line suite of tools / programmatic library
    • leverages collins for state
    • master promotions
    • replica management
  • jetpants - sharding
    • application data becomes too big for one database
    • Blog shards
    • functional partitions
  • jetpants - shard splits
  • jetpants - shard merge
  • Shard!!
  • Jetpants: a toolkit for huge MySQL topologies
  • tchrist@tumblr.com

Scaling Twitter with MySQL

012345678910

  • 발표자: Calvin sun(@calvinsun201)
    • InnoDB, Oracle
  • MySQL 은 오픈소스 데이터베이스 중 세계에서 가장 널리 사용되고 있다.
  • 기업들은 자신들이 사용하는 오픈소스 기술들에 대한 전담팀을 운영하고 있다.
  • Twitter: public, real-time, conversational, distributed
  • Twitter Data: tweets
  • Twitter Data: vine
  • Twitter Data: social graph
    • relationship
    • mention
  • Twitter data: time series
  • Twitter scale challenges
    • 트윗이 해마다 폭발적으로 증가하는 상황을 목격
  • Challenge
    • 230m active users worldwide

    • 300k qps for timlines

    • naive timeline “materialization” can be slow
    • record 143,199 tweets per second

    • typical day: average 7,000 TPS
    • agility of scale
    • increasing application load
    • ability to add / remove resources quickly
    • deploy….!!
  • MySQL @ Twitter
    • Monolithic architecture
  • Partioning, replication and indexing
    • build seperate indexes
  • MySQL / InnoDB is really good at!
    • InnoDB is high performance, efficient, stable, safe and well-understod
    • Low latency
  • avoid those MySQL does not do well
    • MySQL replication does not scale
    • MySQL does not work for ID generation
      • unique IDs are generated by snowflake
  • Observability is key
    • add counter for everthing important
    • add lightweight I-S tables for tablespace management, buffer ppols, etc
    • make metrics collection cheapter
  • fail faster
    • implement server-side statement timeout
    • monitor execution time and proactively kill query
  • restart faster
    • export and resotre InnoDB buffer pool
    • zllos bulk loading page
  • utilize modern hardware
    • NUMA optimization
    • SSD optimization
  • reduce space consumption
    • reduce b-tree splits
  • understand queries
    • new application oriented query stats
  • learn from community
    • MySQL has a very good ecosystem
  • next
    • MySQL 5.6
    • data comperssion

Reaching a billion customers with HTML5 & web apps

0123456789101112131415

  • 발표자: David dehgham / chief software architecture, mobotap
  • Dolphin browser
  • About me
  • 돌핀 브라우저가 1억명이 사용하면서 얻은 경험들을 공유한다.
  • 세계곳곳을 돌아다니면서 일하고 있구나.
  • 돌핀 소개
    • 터치스크린을 위한 설계
    • HTML5에 대해서 높은 성능과 최적화를 제공
    • 모바일만 제공
    • 모바일 앱과 클라우드
    • 다양한 형태의 기기와 화면을 커버한다.
  • 신흥 시장(Emerging market)에 대한 기회
    • 미국에서 만들었지만, 미국 외에서 사용량이 더욱 많다.
      • 구글 10억 유저중 대부분이 해외에 존재함
    • 인터넷 보급이 확대될수록 사용자는 폭증하게 될 것이다.
    • 이에 대한 돌핀의 경험
    • 모바일을 통한 접근
      • 낮은 가격: $50~$100
      • 대량 생산
      • 사용자별 낮은 수익
      • Many languages and cultures
      • Mostly uneducated user, 교육받지 못한 사용자들
        • 복잡한 것을 사용하지 못한다.
      • 대부분 안드로이드일 것이며
    • 다음 십억 사용자들…
      • 중국, 한국, 일본이 모바일 세계 허브로 떠오를 것이다.
  • 지구에서 ‘싸이’를 모르는 사람이 있을까?
    • 삼성, 현대, 기아, 엘지는 미국에서도 잘 알려진 브랜드이다.
      • 안전성을 믿기 때문에 산다?
  • 돌핀의 이야기

    • history
      • 2009년 창업
      • July, 2010 - 1M user
      • Nov, 2011 - 10M
      • Aug, 2012 - 50M
      • 2013 - 80M user
    • 10가지 교훈
      1. talk to your users, 사용자들과 이야기 하라.
        • 전세계의 사용자들이 있다.
      2. Iterate Fast
        • 빠르게 기능을 추가하고 확인받고 뺴라.
        • 중국에서는 매주 출시
        • 미국버전은 2달에 한번 출시
      3. Build a hybrid HTML6 app
      4. Take more risk with quality
        • 품질을 저하시켜서는 안된다.
        • 버그가 발생한 경우에는 즉각적으로 처리해야 한다.
        • 좋지 않은 코드를 생성했을 때, 이를 해소할 방안을 마련해라.
      5. Localize, not just translate
        • 현지화 되어야 한다.
        • 단순히 번역한 것만으로는 부족하다.
        • Translation resources: crowdin.com
        • 중국에서는 PC가 없는 사용자도 많았기 때문에 고려해야했다.
        • 지역 사용자의 니즈를 확인하고 그에 적절한 컨텐츠를 제공해야 한다.
        • 국기, 스포츠팀 등을 사용하지 않는 것이 좋다.
      6. 네이티브 앱 스토어에 출시하라.
        • trigger.io 는 애플스토어없이 사용
      7. 신흥 웹 앱 스토어에 출시한다.
        • 간결한 웹앱을 검색해서 사용해보고 다운로드할 수 있도록
        • 웹앱 스토어 제공사
          • dolphin
          • amazon.com
          • famo.us
      8. Use HTML5, CSS3, JS frameworks
        • HTML5는 웹사이트를 위한 인증된 언어이다.
        • CSS3 는 풍부한 표현과 애니메이션을 지원
        • 풍부한 환경 제공
        • phone.js -> jQuery mobile 의 느린 것을 제거
        • Famo.US
          • JS only platform
          • Matrix를 이용해서 객체를 움직이고 애니메이션을 처리
        • Game JS Frameworks
          • Ludei
          • Tresensa
          • planet.js
      9. Partnership in emerging markets
        • 파트너쉽을 유지하는데 드는 비용을 최소화 해야한다.
      10. User other distribution channels
        • 사용자들은 구글 스토어 이외의 다른 앱스토어를 활용하고 있다.
        • 1억명의 사용자를 확보할 것이다.
        • 생각보다… PC 툴을 통한 설치가 많다.

          신흥 시장에 대한 선점을 이룰 수 있다면 매우 많은 이득을 누리게 될 것이다.

  • 모바일 시장의 미래는 밝다.

  • 안드로이드에 집중하는 이유는 무엇인가?
    • 아이폰은 적대적인 환경이다.
    • 돌핀 브라우저에게는 안드로이드가 유리하다.
  • 지역별 브랜드 관리
    • 지역화된 제품에 대한 차이가 발생했을 때 이에 대한 이질감을 느끼게 된다면 어떻게 될까?
    • 일관성을 유지하는 것도 중요하지만, 그것을 보는 것은 팀일뿐…
    • 공략하는 지역에 최적화된 방법을 채택한다.
    • 100개 이상의 빌드를 관리하고 있다.
  • 신흥시장에서 수익모델은 어떤가?
    • 가장 중요한 부분이다.
    • 유저당 비용을 줄인다.
    • 사용자 환경설치비용을 줄여야 한다.
    • 지출비용이 크다면, 다른 회사와 파트너쉽을 맺어서 대응한다.
    • 중국은 서버도 많고, 뉴스 크롤링하고 뉴스를 제공하는 등 많은 지출이 있음
    • 이를 해결할 수 있는 경제적인 해결책을 가지고 있다면, 미래의 승자가 될 수 있다.


Hadoop in the enterprise

0123456789101112131415

  • Modern Architecture Hadoop2
  • 얼리어답터와 후발자 사이의 큰 격차가 있다.
    • 작년까지는 얼리어답터가 사용한 이후, 사용자가 확충되면서 주류사용자가 다가올 것이다.
    • 얼리어답터를 넘어서 주류로 들어서기 위한 준비가 필요하다.
      • The CHASM
    • 웹기업, 제조사, 금융권에서 하둡을 사용하여 데이터를 빠르게 처리하기 시작했다.
  • Hadoop2 핵심포인트
    • Mixed workloads -> YARN
    • Interactive Query -> Hive on Tez(Hive 100배 향상)
    • Reliability -> Full stack HA
      • 하둡 벤더마다 서로 다른 방식으로 사용했던 것을 하둡에서 제공한다.
    • Point in time recovery -> Snapshots
  • YARN
    • Hadoop 1.0: Batch
      • 하둡을 위해 사이클을 별도의 사이클로 제공
      • HDFS, MapReduce
    • Hadoop 2.0
      • HDFS: redundant, reliable storage
      • YARN: cluster resource management
      • MapReduces: data Processing
      • Others: Data processing
      • 하둡 클러스터를 50개 사용하다가 2년후 추가할 때 동일한 것을 사용할 것인가?
      • YARN을 통해서 보다 효과적인 클러스터를 관리할 수 있다.
      • Application은 YARN을 겨냥해서 개발하면 된다.
  • 엔터프라이즈 요구사항: 배치에 앞서서 처리
    • Storm: 복잡한 스트리밍 엔진
  • Old School Hadoop: MapReduce
  • New School Hadoop with YARN
    • 노드에 대한 관리를 개발자가 YARN을 통해서 할 수 있게 되었다.
  • 5 Key Benefits of YARN
    1. Scale
    2. Compatibility with MapReduce
    3. Improved cluster utilization
      • 보다 향상된 자원사용 능력
    4. New Programming models
      • YARN의 탁월한 사항 중 하나는 자바 이외의 언어도 지원한다.
    5. Agility
  • Apache Tez
    • MapReduce를 대체할 수 있는 데이터처리 프레임워크
    • 낮은 성능의 애플리케이션에서의 성능을 향상시킴
    • 잡Job을 감소시킬 수 있다.
  • SQL-IN-Hadoop with Apache Hive
    • Stinger Initiative Simple focus(100x 성능향상
    • HiveQL을 SQL과 유사하게 만들자.
  • Hive: More SQl & 100x Faster