Digitala årsredovisningar — Bolagsverkets öppna data

01

Datakällan

Sedan 2020 lämnar svenska aktiebolag in sina årsredovisningar digitalt till Bolagsverket i iXBRL-format (Inline eXtensible Business Reporting Language). Filerna är maskinläsbara och publiceras som öppen data av Bolagsverket.

Varje inlämning innehåller inte bara siffror — balansräkning, resultaträkning, nyckeltal — utan även fritext från förvaltningsberättelsen: verksamhetsbeskrivning, väsentliga händelser, redovisningsprinciper och mer.

Vad gör detta unikt

Till skillnad från traditionella redovisningsdatabaser som Serrano, Bisnode eller Retriever är källdatan här strukturerad vid inlämningen — inte retroaktivt digitaliserad. Det innebär konsekvent taggning, standardiserade fältnamn, och en textmassa som kan bearbetas direkt med NLP/AI utan OCR eller manuell parsing.

Öppen data

Bolagsverket tillhandahåller iXBRL-filerna kostnadsfritt. Vår databas är ett bearbetat och strukturerat uttag av dessa offentliga data, organiserat som en forskningspanel (företag × räkenskapsår).

02

Databasen i siffror

Databasen täcker räkenskapsår 2020–2025 och växer löpande i takt med att fler företag lämnar in digitalt.

1 377 756

Företag × räkenskapsår

483 464

Unika företag

2020–2025

Tidsperiod

1 648

XBRL-variabler

Observationer per räkenskapsår

Räkenskapsår	Observationer	Unika företag
2020	156 022	156 022
2021	227 444	227 444
2022	302 273	302 273
2023	364 758	364 758
2024	320 195	320 195
2025 (preliminärt)	7 064	7 064

Tillväxtdynamik

Antalet observationer mer än fördubblas mellan 2020 och 2023 — från 156 000 till 365 000 — i takt med att den digitala inlämningen fasas in. 2025 är ännu ett ofullständigt år i databasen.

03

Populationstäckning och storleksfördelning

Matchning mot SCB:s företagsregister (snapshot 2025-12-25) visar att databasen täcker drygt hälften av Sveriges aktiva aktiebolag.

643 326

Aktiva aktiebolag i Sverige

366 258

Aktiva AB i databasen

56,9 %

Täckningsgrad

Storleksfördelning bland företagen

Storleksklass	Företag	Andel	Median oms.	Median balomslutn.
Mikro (<10 anst.)	257 425	53,2 %	1,1 Mkr	1,0 Mkr
Små (10–49)	14 087	2,9 %	24,6 Mkr	11,8 Mkr
Medelstora (50–249)	1 076	0,2 %	97,6 Mkr	43,2 Mkr
Stora (250+)	83	0,0 %	787 Mkr	371 Mkr
Okänd storlek	210 793	43,6 %	6 tkr	0,7 Mkr

Tyngdpunkten

Databasen är inte bara storbolag. Median-företaget har 1 anställd och en omsättning på 518 tkr. Det är det breda svenska företagslandskapet — mikroföretag, enmansbolag, småföretagare.

04

Sektorfördelning

Matchning mot SCB:s näringsgrenskod (SNI) finns för 91 % av företagen. Fördelningen speglar det breda svenska näringslivet.

Juridik, ek. etc.

24,6 %

Bygg

11,6 %

Handel

10,5 %

IT & Komm.

9,1 %

Fastigheter

8,5 %

Finans

4,7 %

Vård & omsorg

4,6 %

Uthyrning etc.

4,5 %

Hotell & rest.

4,1 %

Tillverkning

4,0 %

Tolkning

Tyngdpunkten ligger i det breda svenska företagslandskapet, med stor närvaro i bygg, handel, tjänster, IT/kommunikation och fastigheter.

05

Textdata i årsredovisningarna

iXBRL-formatet bär inte bara siffror. Åtta strukturerade textfält fångar narrativen i förvaltningsberättelsen — från verksamhetsbeskrivning till redovisningsprinciper.

Textfält	Observationer	Andel	Medel (tecken)	Median
`Allmän verksamhetsbeskrivning`	1 339 466	97,2 %	124	95
`Redovisnings- och värderingsprinciper`	841 422	61,1 %	123	115
`Väsentliga händelser under räkenskapsåret`	376 875	27,4 %	112	41
`Definitioner av nyckeltal`	306 851	22,3 %	98	15
`Styrelsens yttrande om vinstutdelning`	286 885	20,8 %	340	339
`Kommentar till flerårsöversikt`	163 513	11,9 %	98	90
`Väsentliga händelser efter räkenskapsårets slut`	92 855	6,7 %	138	100
`Redovisnings- och värderingsprinciper`	41 961	3,0 %	186	97

Nyckelinsikt

Verksamhetsbeskrivningen finns i 97,2 % av alla observationer. Det innebär att databasen inte bara är siffror — det finns en nästan universell texttäckning som kan bearbetas med NLP och AI.

06

Ämnesord i texterna

Redan med enkla nyckelordssökningar kan vi spåra vilka ämnen som svenska företag skriver om i sina årsredovisningar. Siffrorna avser firma-år-nivå.

Ämne	Firma-år	Unika företag	Andel av panelen
Hållbarhet / klimat / ESG	8 192	4 542	0,59 %
Ukraina	5 528	4 435	0,40 %
Inflation	3 145	2 502	0,23 %
Digitalisering	1 855	862	0,13 %
AI (fristående term)	895	607	0,06 %
Automatisering	789	404	0,06 %
Artificiell intelligens	416	209	0,03 %
Maskininlärning	293	131	0,02 %
ChatGPT	5	5	0,00 %

Poängen

Exakta AI-relaterade ord är fortfarande sällsynta i hela populationen. Just därför fungerar de bra som indikator — de fångar tidiga teknologiska signaler även bland mindre svenska bolag.

07

AI i årsredovisningar — trenden

Med en bred AI-definition (AI, artificiell intelligens, maskininlärning, machine learning, ChatGPT) kan vi följa hur fenomenet sprids genom det svenska företagslandskapet.

AI-omnämnanden per räkenskapsår

2020

101

2021

153

2022

232

2023

425

2024

464

AI-omnämnanden per sektor

IT & Komm.

51,7 %

Juridik, ek. etc.

29,0 %

Handel

3,9 %

Utbildning

2,2 %

Finans

1,2 %

Tillverkning

0,7 %

Nyckelbudskap

AI-omnämnanden ökar tydligt från 2022 till 2024 — antalet stiger från 232 till 464 observationer. Andelen av panelen ökar samtidigt från 0,077 % till 0,145 %, nästan en fördubbling. AI-språket domineras av IT och kunskapsintensiva tjänster men förekommer också i utbildning, handel, finans och tillverkning.

08

AI- och digitaliseringsexempel

Fem utdrag ur årsredovisningar som illustrerar hur AI-relaterat språk ser ut i praktiken — från IT-konsulter till tillverkare.

Active Solution Sverige AB 2023 · 42 anställda Information & kommunikation

"Microsofts förvärv av OpenAI och det stora genomslaget för ChatGPT har ökat intresset för AI-tjänster avsevärt."

JS Consulting Sweden AB 2024 Juridik, ekonomi, vetenskap & teknik

"Tecknat avtal med apoteksaktör och startat projekt inom artificiell intelligens."

Ai Högskolan Sverige AB 2024 · 2 anställda Utbildning

"Bolagets ändamål är att bedriva utbildningsverksamhet inom områdena data, artificiell intelligens, forskning, informationsteknologi, ekonomi, juridik, teknik, pedagogik..."

DeepMed AB 2024 Vård & omsorg

"Bolaget bedriver verksamhet inom datavetenskap, artificiell intelligens, konsulttjänster inom hälsa och sjukvård."

B-TEC MASKIN AB 2024 · 1 anställd Tillverkning

"...byggnation av specialmaskiner för automatisering inom förpackningsindustrin..."

09

Proof-of-concept: textanalys med embeddings

Utöver enkla nyckelord kan vi använda semantiska embeddings för att analysera textinnehållet maskinellt. Här demonstrerar vi en prototyp byggd på ett balanserat urval av 400 texter från fältet väsentliga händelser.

400

Texter i urvalet

5

Sektorer

232

Informativa texter

5

Konjunkturdimensioner

Metod i korthet

Varje text omvandlas till en semantisk vektor med OpenAI:s embedding-modell. Sedan mäter vi hur nära varje text ligger fem fördefinierade konjunkturdimensioner genom cosine similarity mot handskrivna sökfraser:

Dimension	Vad den fångar	Antal texter
`Positiv utveckling`	Positiv affärsutveckling, tillväxt	74
`Finansiella problem`	Förbrukat eget kapital, kontrollbalansräkning	74
`Ökade kostnader`	Stigande input-kostnader, inflation, energi	64
Minskande efterfrågan	Vikande efterfrågan, minskad försäljning	13
Konkurrenstryck	Ökad konkurrens, prispress	7

Vad gör detta annorlunda

Modellen klassificerar inte med nyckelordsregler. Den mäter hur semantiskt nära varje text ligger olika konjunkturbegrepp — även om texten använder helt andra ord. Det innebär att vi kan fånga konjunktursignaler som traditionell textmining missar.

10

UMAP-visualisering av embedding-rymden

UMAP (Uniform Manifold Approximation and Projection) komprimerar de högdimensionella embeddingarna till två dimensioner. Varje punkt är en text; färgen visar vilken konjunkturdimension den ligger närmast.

UMAP of Embeddings by Dominant Dimension

UMAP-projektion av 232 informativa årsredovisningstexter, färgade efter dominant konjunkturdimension. Texter om finansiell stress klustrar tydligt nere till vänster; kostnadstryck samlas uppe till höger.

Hur man läser figuren

Axlarna har ingen direkt — det som räknas är avstånd och gruppering. Punkter nära varandra är semantiskt lika. Att fnansiella problem (financial_distress) bildar ett distinkt kluster (nedre vänstra) och ökade kostnader (cost_pressure) samlas (övre högra) bekräftar att embedding-modellen fångar ekonomiskt meningsfulla skillnader i texterna.

Överlappning är förväntat

Blandade färger i mitten av kartan speglar att årsredovisningstexter ofta innehåller flera narrativ samtidigt — "omsättningen ökade, men inflation och råvarukostnader pressade marginalerna". Semantisk överlappning i kartan är inte ett modellfel utan ett avtryck av verkliga blandade konjunkturbilder.

11

Begränsningar och metodnoter

För trovärdighet är det viktigt att tydligt ange gränserna för vad vi visar.

Databas

Täckningsgraden (56,9 %) bygger på en lokal SCB-snapshot per 2025-12-25. Storleksklass mot hela populationen gick inte att beräkna robust eftersom SCB-snapshotens saknar populationstäckande storleksmått. 2025 är ett partiellt år.

Ämnesord

Siffrorna för AI, hållbarhet m.fl. bygger på enkla nyckelordssökningar i råa textblock — inte semantiska modeller. Andelen som skriver om AI kan vara högre om man inkluderar indirekt AI-relaterat språk.

Embedding-analys

Prototypen bygger på ett urval om 400 texter, inte hela produktionsdatabasen. Etiketterna är svagt övervakade (query-baserade), inte handannoterade guldstandard. UMAP är ett visualiseringsverktyg — den exakta 2D-layouten kan variera med parameterval.

Takeaway

Databasen är tillräckligt stor, strukturerad och textrik för att stödja både klassisk redovisningsforskning och modern AI-baserad textanalys. Proof-of-concept visar att semantiska konjunktursignaler kan utvinnas systematiskt — nästa steg är att skala detta till hela populationen.

Bolagsverkets digitala årsredovisningar